中国股票市场操纵识别研究——基于机器学习分类算法_陈宇龙
陈宇龙,孙广宇.中国股票市场操纵识别研究——基于机器学习分类算法[J].中央财经大学学报,2023(03):56-67.
研究问题
机器学习算法在股票市场操纵的及早识别预测方面的应用
理论机制
股票市场作为企业最重要的融资来源之一,一直被认为是国民经济的“晴雨表”。但股票市场自诞生以来,便面临着市场操纵问题。市场操纵是通过价格扭曲以及降低市场流动性等手段故意损害经济利益的行为。市场操纵极大地破坏了股票市场的秩序和功能,甚至会引发股价崩盘及系统性风险,存在着极强的负外部性。而市场操纵天然具有极强的隐秘性,不容易被监测及识别,只有部分市场操纵行为能被监管机构所识别并施以处罚措施,对金融业监管提出了挑战。尤其,随着移动互联网的普及,股票的电子化交易超越了时空的限制,这加剧了市场操纵的隐秘性。因此,基于传统市场操纵识别方法更难以发现市场操纵,而机器学习分类算法天然具有较优的泛化与预测能力,能较好地应用于市场操纵的识别预测中。
市场操纵行为可以分为行动型操纵、信息型操纵和交易型操纵,美国《证券交易法》能够很好地防范行动型操纵和信息型操纵,但并不能很好地防范交易型操纵。所谓的交易型市场操纵是在股票交易过程中行为人以真实交易或虚假交易为主要手段,通过交易致使股票交易价格或交易量出现异常波动,或者形成虚拟的交易价格或交易量水平,制造市场交投活跃假象,诱使其他投资者参与证券交易。
机器学习研究的主要内容是在计算机上从数据中产生“学习算法”,在面对新的情况时,这一算法会给我们提供相应的判断。机器学习分类模型是机器学习的一个分支,具体来说,包括线性模型、决策树、神经网络、支持向量机、贝叶斯分类、k近邻及集成学习等。
主要假设
H1:延迟退休不仅导致家庭赡养比率的降低,而且挤出了老年个体的隔代照料时间,二者对生育率的负向影响大于成年个体照料孩子时间增加对生育率的正向影响,最终表现为延迟退休将导致生育率的降低。
测度指标体系
模型见底部原文,指标如下:
市场操控、总市值、年涨跌幅、年振幅、市盈率、Beta值、年化波动率、年换手率、投资者情绪、股权集中度、每股营业总收入、总资产周转率、流动比率、每股现金流量净额、资产负债率、净资产收益率、分红比率、每股留存收益
实证数据期间与来源
本文建模选取的是2014—2018年的市场操纵数据。本文相关财务数据均以2020年年报为基准,同时为了保持数据时间跨度的一致性,个股市场表现相关数据也以2020年为基准。剔除停牌退市股票,整理得到313个涉及市场操纵股票并将其作为实验组。将全部A股股票剔除市场操纵股票及停牌退市股票,整理得到3106个未涉及市场操纵股票并将其作为对照组。本文选取2017年后涉及股票市场操纵行政处罚的22只股票,分别通过同花顺iFinD整理得到其操纵前一年,操纵中和操纵后一年的财务和市场交易数据,将涉及股票市场操纵行政处罚的个股操纵前一年和操纵中、操纵前一年和操纵后一年、操纵中和操纵后一年的财务和市场交易数据分别采用Shapiro-Wilk正态性检验和Wilcoxon秩和检验进行纵向对比分析,进而分析其财务和市场交易数据随着市场操纵这一事件的发生是否会发生明显变化。
结论
本文整理了2006—2021年的证监会行政处罚涉及的股票市场操纵案例,通过Wilcoxon秩和检验进行横截面数据横向对比分析和面板数据纵向对比分析构建了市场表现、财务特征以及时间在内的12个解释变量。并最终选取了2014—2018年的证监会行政处罚涉及个股的相关数据进行建模。考虑到实验组数据和对照组数据量的不平衡性,本文分别采用了SMOTE、Borderline SMOTE以及ADASYN算法对少数类进行过采样。同时本文综合考虑了逻辑回归、支持向量机、k近邻和BP神经网络相关机器学习分类模型。通过混淆矩阵和ROC曲线对以上过采样算法和机器学习模型进行综合比较,最后发现Borderline SMOTE-SVM模型的F-score达到0.9411,AUC面积达到98.8%,相较于其他模型占优,因此得出其更适用于股票市场操纵识别预测的结论。
小结
本文以解释变量的选取为切入点,综合考虑个股的市场表现和财务特征,通过Wilcoxon秩和检验进行对比分析来筛选构造解释变量。并引入SMOTE、Borderline SMOTE以及ADASYN的过采样技术来解决正负样本不平衡问题,进而通过各种机器学习分类算法对样本进行拟合,从而为更加精准识别市场操纵提供模型支持。
本文在数据处理阶段为了探究实验组和对照组市场表现和财务特征分布的差异性,首先对于全样本数据进行Shapiro-Wilk正态性检验,若检验结果不能拒绝样本数据服从正态分布这一原假设,则认为样本数据服从正态分布,此时对于对照组及实验组采取t检验这一参数检验方法来分析数据间的差异;若检验结果能显著拒绝样本数据服从正态分布这一原假设,则认为样本数据不服从正态分布,此时对于对照组及实验组采取Wilcoxon秩和检验这一非参数检验法来分析数据间的差异。根据Shapiro-Wilk正态性检验结果,发现各个变量相关数据的p值远小于5%,因此可以拒绝样本服从正态分布这一原假设,故应采用Wilcoxon秩和检验来分析数据间的差异。根据Wilcoxon秩和检验的检验结果,设定10%的显著性水平,年化波动率、投资者情绪、股权集中度、流动比率、每股现金流量净额、资产负债率、净资产收益率、分红比例和每股留存收益这9个指标均能拒绝对照组和实验组分布相同的原假设,说明受市场操纵股票和未被操纵股票在这9个维度上存在明显差异。
一个很有趣的点是,本文得到223个实验组样本,9858个对照组样本。这两组样本数量差异较大,如若不进行样本不平衡问题处理,会导致模型结果更偏向于数量较多的一方,即模型预测的股票市场操纵概率偏低,进而导致模型实际应用价值较低。为了减少样本不平衡带来的不利影响,本文分别采用SMOTE、Borderline SMOTE和ADASYN算法对样本进行过采样(Over-sampling)来扩充实验组,使得两组样本数量达到均衡状态。
SMOTE算法:即合成少数类过采样技术。其是对随机过采样技术的一种改进,SMOTE算法并不是简单地复制样本,而是采取新的方法生成新的样本。SMOTE算法对少数类每个样本X,从他的近邻中随机选一个样本Y,然后在X和Y连线上随机选取一点作为新合成的样本,这种合成新样本的过采样方法可以降低过拟合的风险。
Borderline SMOTE算法:SMOTE算法比随机采样模型拟合效果更好,但仍然存在一些问题。其为每一个少数类样本合成相同数量的新样本,可能增大类间的重叠度,并且会生成一些不能提供有益信息的样本。BorderlineSMOTE是在SMOTE基础上改进的过采样算法,该算法将少数类样本分成三类,分别为Safe、Danger和Noise。最后仅对Danger的少数类样本进行过采样。
ADASYN算法:ADASYN最大的特点是其可以自动决定每个少数类样本需要生成多少合成样本,而不是像SMOTE那样对每个少数类样本合成相同数量的样本。ADASYN自动决定每个少数类样本所需要合成的样本数量,这相当于给每个少数类样本施加了一个权重,周围的多数类样本越多则权重越高。
进而,通过引入了SMOTE、Borderline SMOTE以及ADASYN三种过采样算法对实验组样本进行扩充,得到近乎1∶1的对照组和实验组相关数据。由于过采样方法的差异,最终SMOTE算法扩充得到9812个实验组样本,Borderline-SMOTE算法扩充得到9843个实验组样本,ADASYN算法扩充得到9831个实验组样本。得到扩充样本后,为了防止模型在样本内的过度拟合,以及便于评价模型在样本外的预测精度,本文通过随机抽样将经过SMOTE、Borderline SMOTE以及ADASYN过采样算法扩充得到的样本集的70%作为训练集,30%作为测试集。并将训练集应用于对逻辑回归、支持向量机、K-近邻以及BP神经网络的模型拟合,将所得的模型拟合结果应用于测试集中,通过对测试集的预测结果进行评价来比较不同过采样方法以及不同机器学习模型在预测股票市场操纵的性能。
随后,使用混淆矩阵、准确率、F评分、ROC、AUC进行结果评估。度量分类算法预测结果的一个关键指标是准确率(Accuracy),其定义为预测正确的结果占总样本的比率,即(TP+TN)/(TP+FP+FN+TN)。度量分类算法预测结果的另一个关键指标是F评分(F-score)(公式见云盘原文)精确率(Precision)是指所有预测受市场操纵的样本中确实受市场操纵的比率,即TP/(TP+FP)。召回率(Recall)是指实际受市场操纵的样本中被模型预测为受市场操纵的比率,即TP/(TP+FN)。F-score是为了综合考量精确率和召回率的一个指标,一般取精确率和召回率的调和平均,只有当精确率和召回率都更高时,F-score才会更高。ROC曲线,又称接受者操作特征曲线。ROC曲线的横坐标为假阳性率,即FP/(FP+TN);纵坐标为真阳性率(召回率),即TP/(TP+FN)。通过遍历0到1的所有不同阙值来预测样本是否受市场操纵,得到不同假阳性率所对应的真阳性率,从而可以绘制出ROC曲线。为了量化ROC曲线的特征,引入了ROC曲线下的面积,即AUC(AreaUnderCurve)值。AUC值是ROC曲线右下角阴影部分的面积,阴影区域越大,AUC值越大,即ROC曲线越靠近左上角,模型的分类越准确。根据不同模型的预测结果,得到其混淆矩阵,通过混淆矩阵可以计算出不同模型的准确率(Accuracy)、精确率(Precision)、召回率(Recall)以及其F-score。同时,绘制出各个模型的ROC曲线以及AUC面积。得到结论:通过过采样算法可以有效提高模型的预测精度,而三种过采样算法中,Borderline-SMOTE算法的预测精度明显大于SMOTE算法和ADASYN算法。同时,四种机器学习分类模型中,SVM模型的预测精度明显大于Logistic、KNN和BPNNET模型。即Borderline SMOTE-SVM 模型更适用于市场操纵识别预测。
这篇文章的实证部分过于精彩