新闻文本大数据与消费增速实时预测——基于叙事经济学的视角_张一帆
张一帆,林建浩,樊嘉诚.新闻文本大数据与消费增速实时预测——基于叙事经济学的视角[J].金融研究,2023(05):152-169.
研究问题
利用媒体报道的文本大数据构建消费新闻情绪指数,挖掘其对消费增速预测的独特价值,拓展叙事经济学在宏观预测中的应用
理论机制
消费者对未来经济形势、个人收入、物价水平、宏观政策等因素的综合判断和预期会影响其投资消费决策,是预测消费活动的重要因素。理性的消费决策不仅考虑当前收入水平,还会根据未来收入预期进行消费平滑。若消费者对未来收入增长、就业稳定保持乐观态度,则更愿意减少预防性储蓄、增加当前消费。现有研究和政策实践主要采用基于问卷方法的消费者信心指数衡量消费者预期,但其在预测消费活动时存在两个缺陷:一是频率低,调查问卷基本采取月度频率,无法细致地反映短期的消费者预期变动;二是时滞长,现有指数一般在调查结束一个月之后发布,在面临变化极快的重大冲击时无法提供及时的参考信息。Shiller提出的叙事经济学认为,消费者关于未来宏观经济、通货膨胀等因素的预期很大程度上受到媒体信息的引导。随着文本分析技术的迅速发展,利用新闻文本大数据测度经济主体心理因素已成为经济学等学科的热门领域。
消费者信心之所以重要,在于信心背后反映了个体预期。实践中刻画消费者信心指数主要包括问卷调查方法和非问卷方法。20世纪40年代,美国密歇根大学首先编制了消费者情绪指数(CSI),美国经济评议会于1967年开始编制消费者信心指数(CCI);1998年起,中国国家统计局景气监测中心开始编制与发布消费者信心指数。针对问卷方法,Dominitz and Manski(2004)提出问卷应当重视信心的横截面差异,根据需要调整问卷问题。但是,问卷方法始终面临着成本高昂、时滞较长等问题,部分研究转而尝试使用其他数据测度消费者信心。消费者信心与经济主体预期紧密相关,不少研究试图利用消费者信心预测重要的经济指标。
诺贝尔经济学奖得主Shiller所提倡的“叙事经济学”强调信息会通过各种具体叙事在公众当中快速传播,影响经济主体的决策乃至改变整个经济和社会的走向。不少研究也讨论了信息冲击、市场预期和经济周期之间的相互影响,验证了信息冲击能改变经济主体的预期,进而推动经济周期、影响宏观经济。研究表明,预期很大程度上反映了新闻中关于未来经济的信息,成为驱动经济周期的重要因素。随着文本分析技术的快速发展,经济中的文本大数据逐步应用于宏观经济预测研究,其中新闻报道是重要且广泛使用的文本数据之一。
本文在叙事经济学理论的背景下讨论媒体信息通过影响消费者信心进而预测实际消费活动,首先建立起叙事经济学以及消费活动的逻辑关联。叙事信息会影响公众对商业活动、宏观经济的预期,进而使得总供给和总需求产生变化,从而影响宏观经济。在经济波动过程中,整个社会的信心会受到舆论影响而被放大,导致投资活动的大幅增加、杠杆的急剧上升和经济活动的过热;随着经济负面冲击到来,如果信心突然从正面转向负面,整个社会开始变得比较保守或者悲观,公众需求、投资、风险偏好出现急剧的收缩,消费意愿和资产价格大幅下降,导致了经济从繁荣跌入衰退。在这个过程中,经济叙事不断引导着社会信心的变化,消费者接受有关经济繁荣或衰退的叙事会改变其原有的投资消费决策。其次,从公众的信息选择来看,公众很大程度上依赖媒体获取关于宏观经济的信息,新闻语调是传递叙事信息、影响消费者行为的重要渠道。信息委托代理理论同样认为,公众由于有限注意力无法获取经济活动中的所有信息,需要将信息筛选的任务委托给媒体。与此同时,媒体则会报道对读者最有益的信息来实现自身利益最大化。这种委托代理结构导致公众预期将由媒体新闻所驱动,也即消费者关于未来宏观经济的预期很大程度上受到媒体信息的引导。因此,基于媒体报道的消费新闻情绪与不可观测的消费者信心或预期密切相关,可以为预测实际消费增速提供新思路。
实证数据期间与来源
本文选择具有全国影响力的人民日报、光明日报、经济日报、21世纪经济报道、第一财经日报作为媒体池,其中前三家为官方媒体,后两家为市场化专业财经媒体。媒体选择标准参考人民网研究院《2020报纸融合传播指数报告》中报刊影响力、发行量等指标。本文研究仅考察新闻媒体文本主要出于以下几个方面的考虑。第一,本文强调媒体叙事信息会影响个体对未来宏观经济、个人收入、价格水平等因素的预期,可以用于预测未来的消费增长水平,验证该逻辑仅需要使用纸质媒体文本。其次,近年来以抖音、微信、微博为代表的自媒体发展迅速,传统纸质媒体的影响力有所下降;但相较于网络自媒体,纸质媒体受到更严格的道德和法律约束,其报道内容相对客观真实,从一定程度上确保了媒体数据的专业性与客观性。第三,社交媒体出现的时间相对较晚使实证研究的样本期较短,且社交媒体缺少规范的信息获取渠道,尤其是非公开数据具有较高的数据壁垒,不利于后续指标的推广和应用。在选定媒体池的基础上,本文需要考虑检索新闻文本所使用的关键词。现有消费者信心问卷一般涵盖了经济发展、就业状况、物价状况、生活状况、消费意愿几个方面的内容,从当前满意程度和未来预期开展调查。基于此,本文在宏观层面考察了经济运行、物价水平两个方面的关键词,在微观层面考察了个人收入、消费意愿、投资策略、家庭开支、经济预期五个方面的关键词。本文检索了媒体池中包含任一关键词的新闻文本,与消费增速预测区间一致,样本区间为2007年1月至2020年12月,最终得到589304篇相关新闻报道。本文剔除了“特刊”专栏以及广告栏目的文本。针对收集到的文本数据,本文使用jieba分词,删除常见停用词、英文、数字和单字。在分词基础上,本文采用中文金融情感词典计算文本情绪。
结论
本文对比发现实际消费增速与CNSI和CCI两个指数存在显著的趋势性背离特征,通过频域分解剔除消费增速的长期趋势,发现CNSI与消费增速的短期波动存在显著的正相关关系。从消费增速预测的角度出发,本文发现CNSI可以为消费增速的样本外预测提供额外的信息,研究者可以使用CNSI进行实时预报和混频预测,前者利用了CNSI的时效性优势,后者利用了CNSI的高频优势。在异质性分析中,本文进一步发现描述未来的前瞻性文本信息和具有中性情绪的非煽动性文本,在消费增速预测中表现更佳
小结
本文使用了对我而言比较新颖的叙事经济学,基于2007年至2020年五家主流媒体的近60万篇新闻报道构建消费新闻情绪指数(CNSI),并研究CNSI和基于问卷方法的消费者信心指数(CCI)在消费增速实时预测中的表现。
本文的媒体选择和关键词选择具有参考性,其中使用的中文金融情感词典也是之前看过的一篇姜富伟的论文。