媒体文本情绪与股票回报预测_姜富伟
姜富伟,孟令超,唐国豪.媒体文本情绪与股票回报预测[J].经济学(季刊),2021,21(04):1323-1344.
研究问题
媒体文本情绪衡量我国股市投资者情绪的变化
理论机制
文本情绪分析技术为投资者情绪领域的相关研究开创了广阔的新空间,并具有四个突出的优点:1.媒体文本与金融市场交易数据信息互补性强,在以往的研究中往往被忽视;2.文本数据规模大,从这一海量数据中提取情绪信息有利于减少测量误差;3.属于直接情绪测度;4.考虑到文本数据更新的高频性,有机会构建日频甚至分钟频等更高频的情绪指数。
文本情感分析技术近年来在经济金融领域得到了广泛的应用。现有文献大多基于文本情感词典的方法计算文本情绪,这种方法认为文章的情感由情感词语决定。因此,情感词典的质量决定了文本分析的质量。由于金融语境的特殊性,使用常见的通用情感词典在处理金融相关文本时会产生偏差。通用情感词典无法区分部分在金融领域中被认为是积极或消极的词语。实际上通用情感词典中73.8%的负面词汇在金融语境下都不再具有负面含义,说明使用通用情感词典分析金融文本可能产生极大的误差。为了克服上述问题,Loughran and McDonald结合词语在金融文本语料中的具体使用情况,筛选出了合适的词语组成金融情感词典(LM词典)。LM词典在金融会计领域的文本分析研究中得到了广泛的运用,对国外金融文本分析的研究起到了极大的促进作用。在中文语境下,常见的中文通用情感词典同样存在与金融文本契合度不高的问题。但是目前尚没有被广泛认可的中文金融情感词典,这极大地制约了中文金融情感分析的发展。
实证数据期间与来源
本文对财经新闻媒体报道的文本情绪进行研究,这类文本覆盖内容广,受众人群多,对市场存在着较大的潜在影响。文本素材来源于infobank数据库中的经济新闻库。该数据库收集自1992年至今的新闻数据,全部新闻数据均为每日更新。infobank数据库中的新闻来源主要包括三类。第一类为综合性报纸,代表有《人民日报》《光明日报》等,在这一类报纸上,通常会报道与整体经济形势以及国家大政方针相关的新闻,会对整个金融市场产生全面性的影响。第二类为专业性的财经类报纸,典型代表包括《中国证券报》《经济日报》等,这一类报纸上通常报道与经济金融直接相关的新闻。第三类为财经类网站,例如东方财富、新浪财经等。财经类网站的新闻报道越来越成为投资者们接触金融市场相关信息的主要渠道,因而搜集网站上的新闻报道也是非常有必要的。这三类素材基本覆盖了我国市场上经济金融新闻报道的主要来源。宏观数据以及股票市场数据分别来自中经网数据库以及国泰安数据库。
结论
文本情绪对市场回报有着显著的预测能力。值得注意的是,使用通用情感词典计算的文本情绪的实证结果一般不显著,表现远差于我们的金融情感词典。因此,在金融经济应用中,本文所构建的金融情感词典的表现要远优于通用情感词典。
小结
本文将英文LM金融词典转化为中文版本(洋为中用),并从中文通用情感词典中筛选出在金融语境下适用的情感词汇(古为今用)。为了避免金融情感词语的遗漏,利用word2vec算法(一种深度学习算法)从语料中找到与前两部分词语高度相关并且具有合适情感倾向的词语,从而扩充词典。最后,将上述三种方法得到的词语合并去重后得到最终的中文金融情感词典。
本文构建词典的方法如果需要可以参考。