大数据提升了多因子模型定价能力吗?——基于机器学习方法对我国A股市场的探究_姜富伟
姜富伟,薛浩,周明.大数据提升了多因子模型定价能力吗?——基于机器学习方法对我国A股市场的探究[J].系统工程理论与实践,2022,42(08):2037-2048.
研究问题
采用惩罚线性回归方法和主成分分析等多种机器学习算法,充分挖掘我国A股上市公司财务基本面大数据信息,尝试构建我国资本市场的简约的多因子定价模型。
理论机制
在实证资产定价领域,传统且主流的模型是因子定价模型。在理论研究中,CAPM模型基于有效市场理论,将市场因子作为系统性风险,并认为系统性风险是资产超额收益的唯一来源。但是该模型只有市场因子,不能解释更多的市场横截面收益。随着更多的无法被CAPM模型所解释的市场异象被发现,更多维度的系统性风险因子被引人形成了资产定价多因子模型。这其中最为经典的是FF三因子模型。该模型通过市场、规模、价值三因子解释股票的超额收益。该模型提出之后,国外学者也多有支持和延伸:FF三因子模型在早期美股市场上表现出较强的收益预测能力,随后很多学者基于难以被该模型解释的市场异象,构建新的特征因子,如动量因子、盈利因子、投资因子间等,并将其添加至模型中,以期为模型提供更好的收益预测能力。
实证数据期间与来源
本文选取我国A股2002年2月至2020年1月间月度的公司特征数据,分别以构建的公司特征因子和PCA方法提取的主成分因子作为定价因子,并通过不同的惩罚线性回归方法得到各个定价因子在定价模型中的系数。
结论
我国A股市场中,使用主成分因子作为定价因子的结果要优于使用特征因子的结果;在缩减定价因子个数方面,弹性网络方法的表现要略优于LASSO。分析各类因子贡献,交易摩擦类大量涌现,说明我国资本市场自身还不够完善;惯性指标的突出说明市场参与者的交易习惯还不够理性;盈利类指标在定价因子中的贡献也体现了我国A股市场不断完善,市场逐渐趋于有效性的一面。通过LASSO或者弹性网络方法筛选的少数几个主成分因子构建的资产定价模型,相较于我国市场中的几种主流的多因子资产定价模型,能够涵盖更多的横截面信息。
小结
本文采用惩罚线性回归和主成分分析等降维方法,选取我国A股上市公司的财务大数据构建了资本市场的特征因子,并比较各种缩减方法及定价因子的样本内外表现,对各因子贡献进行解释,并将构建的MVE组合与几种基准多因子定价模型进行了比较。
本文参考性比较大的地方是基于机器学习的大数据降维方法,为了解决前文所述的随着数据维度不断増加而产生的过拟合问题,本文尝试使用岭回归、LASSO、弹性网络回归等惩罚线性回归方法和主成分分析等机器学习算法,通过在目标函数中加入考虑夏普比率的惩罚项以施加合理的经济约束,达到对高维财务基本面大数据进行缩减甚至降维的目的,尝试构建简约的多因子资产定价模型。为了能够在资产定价模型中包含更多的横截面收益信息,本文的随机折现因子模型中加入了大量的公司财务特征因子,但仅依靠最小二乘回归的方法极易发生过拟合问题,导致模型的预测能力很差。缩减方法通过在最小化回归残差平方和的目标函数中加入对待估计系数的惩罚观从而达到将其缩减至较小的值,甚至为0的效果,防止过拟合发生,实现对核心定价因子的选择。虽然惩罚项的加人使得被估计系数的无偏性受到影响,但是缩减方法使同类因子的系数相近,抑制了高维数据的过拟合问题,具有较好的样本外表现。
解决高维特征因子问题的另一种方法是因子分析,本文采用PCA方法实现。PCA方法按照各特征因子收益的方差协方差矩阵的特征值大小排列,得到与特征因子数量相同且相互正交的主成分因子。随着特征值的减小,各主成分能够解释的公司财务特征因子的贡献也越来越小。PCA方法可以选择特征值较大的少数几个主成分,既保证提取出来的主成分能够在较大程度上保留原有公司财务特征因子的信息,又能实现降维的目的。值得注意的是,尽管LASSO和PCA都实现了降维,但是二者有本质的区别:LASSO基于解释变量和被解释变量的线性关系进行建模,最终降维的结果是保留了几个有较强解释能力的定价因子;PCA方法没有将被解释变量考虑在内,仅提取能够包含解释变量较大信息的几个重要的主成分,而这些主成分实际上是各特征因子的加权平均值,包含了每个特征因子的信息。