Redian新闻
>
A股市场机器学习多因子模型实证

A股市场机器学习多因子模型实证

财经


量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据领域的主流自媒体公众号拥有来自、私募、券商、期货、银行、保险、高校等行业30W+关注者,荣获2021年度AMMA优秀品牌力、优秀洞察力大奖,连续2年被腾讯云+社区评选为“年度最佳作者”。

量化投资与机器学习公众号 独家解读


量化投资与机器学公众号  QIML Insight——深度研读系列 是公众号全力打造的一档深度、前沿、高水准栏目。



公众号遴选了各大期刊前沿论文,按照理解和提炼的方式为读者呈现每篇论文最精华的部分。QIML希望大家能够读到可以成长的量化文章,愿与你共同进步!

本期遴选论文
来源:Journal of Financial Economics 145 (2022) 64–82
作者:Markus Leippolda,Qian Wanga,Wenyu Zhoub
标题:Machine learning in the Chinese stock market

Gu(2020)在The Review of Financial Studies发表的Empirical Asset Pricing via Machine Learning中,详细实证了机器学习模型在美股市场的表现。结果表明,机器学习改善了对预期收益的预测,当应用于投资组合构建时,性能的改善在更复杂的模型中表现得最显著,这在很大程度上是由于机器学习模型考虑到了因子间的非线性关系,而这些非线性关系是简单的方法所忽略的。

A股市场作为新兴市场,很多特征与发达市场有着明显的区别,主要有以下三点:

  • 以散户为主要投资者导致了A股市场的高换手率;

  • 大部分公司是国有控股企业;

  • 相对发达国家,更严格的做空机制(2010年开始才逐渐开始融券制度)。


基于以上的市场特征,并参考Gu(2020),作者主要探讨了机器学习的多因子模型在A股市场上的表现是否能够达到预期效果?哪些因子模型在A股市场上表现更优?不同的股票(国有/非国有,大盘/小盘等)是否有明显的区别?

数据和模型

本文使用了2000年1月至2020年6月的A股数据,并使用1年期国债利率作为无风险利率。一共使用了94个股票因子,11个宏观因子(具体见附注)。94个股票因子中,其中最后4个因子是描述股票是否属于某一类的哑变量因子,比如是否是国有控股公司(是为1,否为0)。最终输入到模型的因子数量是1160个,其中包括90个股因子(连续变量),90个股因子与11个宏观因子的乘积(90*11=990个),以及80个哑变量因子(包括行业分类等)共计1160个因子。

 初始训练时间为2000-2008,验证集为2009-2011,测试集2012-2020。每次训练都用上一个月末的因子去预测股票下一个月的收益,验证集主要用于超参数优化。连续变量的因子在模型中以截面的Rank值作为输入。本文使用了以下模型,模型滚动训练,每一年重新训练一次。

  • OLS

  • OLS-3(只使用Size,BP及动量三个自变量)

  • PLS(Partial least squares)

  • LASSO

  • GBRT

  • RF(Random forest)

  • VASA(Variable subsample aggregation)

  • Enet(Elastic net)

  • NN1-NN5(1-5层的Neural network)

以上部分模型使用的超参数如下:

预测能力

样本外的预测能力主要采用R方进行评估,即样本外预测收益与实际收益的拟合度,如下式表示:

下表给出了所有模型在不同样本空间的R方表现,主要有以下几个发现,全样本(All)测试中的模型表现说明:

  • OLS模型的R方为0.81%,说明OLS还是有一定的预测能力。仅使用三个因子的OLS-3表现不如OLS,说明Size/BP/Momentum不足以构建预测模型。

  • 基于OLS的增强模型PLS/LASSO/Enet的R方均大于1%,RF/GBRT两个树模型和NN1-NN5五个深度神经网络模型的R方都超过2%,说明模型复杂度的提升带来了预测效果的提升。


A股全样本测试的结果,特别是GBRT的效果要比美国市场的表现好的多。这可能是因为A股市场的特殊结构导致的。接下来分别从以下角度进行对比测试:大盘股(Top 70%)与小盘股(Bottom 30%)、大股东股票(指股东平均持股市值前70%的公司,表中用A.M.C.P.S Top 70%表示)与小股东股票(表中用A.M.C.P.S Bottom 30%表示)及国有控股股票与非国有控股股票。

  • 表1 的结果表明,模型在小市值股票中的表现更优。


  • PLS、RF及NN模型在小股东股票的表现更优。OLS-3在小股东股票样本中比在大股东股票样本中表现更差,这意味着传统的三因子模型可能不适用于中国的小股东股票。


  • 预测国有企业的收益需要一种高度灵活的方法,能够更有效解释非线性效应。这种额外的复杂性可能是必要的,因为国有企业由国家控制,有两个主要目标:创造利润和执行国家政策。然而,我们的研究结果与早期的研究结果形成了对比,这些研究认为,由于中国国有企业的财务不透明和股价的低信息化,预测其股票收益并不容易。


  • 树模型和神经网络,在中国股市的样本外R方表现令人满意。此外,我们的分析揭示了中国股市不同于Gu等人(2020)研究的美国市场的两个重要特征。首先,几乎所有模型都能更好地预测中国市场上小股(非国企)股票的月收益,而不是大股(国企)股票。其次,神经网络可以跨不同的子样本提供健壮的性能。


因子重要性

我们一共使用了94个股因子和11个宏观因子,采用以下方法测试因子在模型中的贡献度:将目标因子的值全部设定为0,并计算模型R方的下降程度,以此判断该因子对于模型的重要程度。下表是11个宏观因子在各模型中的重要程度。

总体而言,我们发现infl和ntis是预测中国股市月收益的两个最具影响力的宏观经济变量,尤其是神经网络。另一方面,股息价格比率(dp)、市场波动率(svar)、每股总收益(ep)、期限息差(tms)和市场流动性(mtr)不那么重要,因为它们被大多数模型忽略了。

下图给出了90多个个股因子在各模型中的重要度(颜色越深越重要),我们发现:

  • 我们发现与市场流动性相关的股票特征在预测中国股市时最有用,如流动性波动率(std_dolvol和std_turn)、零交易天数(zerotrade)和非流动性测度(ill)是最显著的预测因子。


  • 第二组有影响力的因子包括基本面因子及估值比率,如行业调整后的资产周转率变化(chaotia)、行业调整后的员工变化(chempia)、总市值(mve)、近期盈利增长数(nincr)、行业调整后的利润率变化(chpmia)和行业调整后的账面市值比(bm_ia)。


  • 第三组由风险指标组成,包括特殊收益波动率(idiovol),总收益波动率(volatility)和市场beta (beta)。


  • 我们还观察到,神经网络模型(NN1-NN5)、正则化线性模型(PLS、LASSO、Enet)和VASA倾向于选择一组类似的因子。


  • 树模型,包括GBRT和RF,比其他模型倾向于选择更广泛的特征集,这也在Gu等人(2020)中观察到。同样,流动性变量和基本面因子是GBRT和RF最重要的两组预测因子。


样本外收益

下表给出了月度分10组调仓,多空和纯多的收益统计及累计收益曲线(费前收益),我们在图5和表6中的结果证实了Gu等人(2020)的发现,即神经网络优于他们研究中考虑的所有其他模型。对于多空组合,我们得到的中国股市的夏普比率远高于Gu等人(2020)发现的美国股市的夏普比率。例如,NN3在中国市场上给出的最高夏普比率(SR= 3.45)是NN4产生的最佳夏普比率(SR= 1.35)的两倍多。如上所述,由于交易限制,多空策略几乎不可行,因此我们在解释这些结果时很谨慎。同时,只做多的投资组合夏普比率最高为1.76,仍高于美国市场的多空策略。鉴于这种高水平,在更现实的假设下评估只做多的投资组合的表现至关重要。

在表10中,我们报告了包括不同交易成本水平时的月收益和夏普比率。事实证明,由于我们的策略使用频率较低,这些投资组合仍然提供了可观的、经济上显著的表现。对于我们的基准策略NN4,当我们假设往返成本为80个基点时,在极端情况下,多空设置中的夏普比率从2.91下降到2.34。使用更现实的20个基点的假设,夏普比率仅下降到2.76。对于只做多策略也可以得出类似的观察结果,从实践者的角度来看,这更相关。对于只做多策略,在假设80个基点的情况下,夏普比率从1.68下降到1.46。因此,我们的交易成本分析表明,即使在交易成本规模的保守假设下,不同策略的表现仍然具有经济意义。

总结

本文研究了几种机器学习方法对中国股市的预测能力。我们发现,最关键的因子是基于流动性的因子。让我们惊讶的是,基于趋势的因子只发挥了次要作用。我们的结果还表明,基本面因子是第二大最关键的因子类别。我们还发现,散户投资者的短期主义在短期投资范围内产生了可观的可预测性,特别是对小股。与此同时,由于政府信号在中国市场扮演着如此重要的角色,我们观察到国有企业在较长时期内的可预测性大幅提高。

我们的投资组合分析表明,短期内的高可预测性转化为多空投资组合的高夏普比率。特别是神经网络和VASA在2015年中国股市暴跌期间也提供了强劲的表现。然而,在中国市场做空股票是不现实的。因此,我们也分析了只做多的组合,发现业绩仍然具有经济意义。

文章下载:

https://www.sciencedirect.com/science/article/pii/S0304405X21003743?via%3Dihu

参考文献

  • Gu, Kelly, Xiu, 2020 S. Gu, B. Kelly, D. Xiu “Empirical asset pricing via machine learning”

  • Rev. Financ. Stud., 33 (5) (2020), pp. 2223-2273

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
对话 | AI、机器学习在材料科学研究中能发挥哪些作用?MSRA智能多媒体组实习生招聘:计算机视觉、自然语言理解、强化学习多个方向美国新泽西理工 招收2023春季/秋季入学博士生(全奖) 应用机器学习/移动系统安全和隐私香港中文大学(深圳)数据科学学院招聘博士后 - 分布式优化和机器学习方向从机器学习到推荐系统,技术平台全面统一:火山引擎已经发动聊一聊机器学习的MLE和MAP:最大似然估计和最大后验估计疫情两年后欧洲三国游 (11)- 巴塞罗那海滩和Rambla兰布拉大道来!新闻流与股价跳跃、图数据应用综述、机器学习与有效前沿一步一步理解机器学习的ROC曲线机器学习分类问题:9个常用的评估指标总结自然语言处理 · 机器学习 · 深度学习ICML 2022 | 关注AI技术的你,快来查收这份机器学习前沿论文精选!今日开课|《数据科学·机器学习求职实战营》即将开课,赶快报名!​一文梳理ICML 2022中图机器学习热点和趋势八卦一下风火轮百度提出动态自蒸馏方法,结合交互模型与双塔模型实现稠密段落检索10月下预告!机器学习、量化金融背景提升项目实战开课!机器学习的3大“疑难杂症”,因果学习是突破口 | 重庆大学刘礼南洋理工计算机视觉科研项目招生(仅限机器学习,深度学习,AI,迁移学习方向)发展空间巨大 | 机器学习工程师求职1V1定制计划随时启动!Robeco:使用机器学习发现被错误定价的股票TinyML市场爆发,70元拥有超低功耗机器学习【物女心经】终于有人把分布式机器学习讲明白了ML如何做科学发现?牛津大学268页博士论文详述科学机器学习内涵112页数学知识整理!机器学习-数学基础回顾.pptx新中國那些可憐的作家(5)针对量子多体问题且可证明的高效机器学习,登上Science深度解读 | 机器学习和深度学习的区别到底是什么?远瞩咨询:2022年全球人工智能机器学习细分市场分析安倍晋三遇刺身亡,反对暴力,祈祷平安机器学习常用的特征转换方法总结疫情最危险的时候?你就偷着乐吧!【红圈】金杜,深圳,实习多岗位,6k-8k美联储加息释放什么信号?房地产市场机会在哪里?马斯克雷军竞速「机器人」背后,一场机器革命正在发生 | 幂集创新
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。