Redian新闻
>
A股市场机器学习多因子模型实证

A股市场机器学习多因子模型实证

财经


量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据领域的主流自媒体公众号拥有来自、私募、券商、期货、银行、保险、高校等行业30W+关注者,荣获2021年度AMMA优秀品牌力、优秀洞察力大奖,连续2年被腾讯云+社区评选为“年度最佳作者”。

量化投资与机器学习公众号 独家解读


量化投资与机器学公众号  QIML Insight——深度研读系列 是公众号全力打造的一档深度、前沿、高水准栏目。



公众号遴选了各大期刊前沿论文,按照理解和提炼的方式为读者呈现每篇论文最精华的部分。QIML希望大家能够读到可以成长的量化文章,愿与你共同进步!

本期遴选论文
来源:Journal of Financial Economics 145 (2022) 64–82
作者:Markus Leippolda,Qian Wanga,Wenyu Zhoub
标题:Machine learning in the Chinese stock market

Gu(2020)在The Review of Financial Studies发表的Empirical Asset Pricing via Machine Learning中,详细实证了机器学习模型在美股市场的表现。结果表明,机器学习改善了对预期收益的预测,当应用于投资组合构建时,性能的改善在更复杂的模型中表现得最显著,这在很大程度上是由于机器学习模型考虑到了因子间的非线性关系,而这些非线性关系是简单的方法所忽略的。

A股市场作为新兴市场,很多特征与发达市场有着明显的区别,主要有以下三点:

  • 以散户为主要投资者导致了A股市场的高换手率;

  • 大部分公司是国有控股企业;

  • 相对发达国家,更严格的做空机制(2010年开始才逐渐开始融券制度)。


基于以上的市场特征,并参考Gu(2020),作者主要探讨了机器学习的多因子模型在A股市场上的表现是否能够达到预期效果?哪些因子模型在A股市场上表现更优?不同的股票(国有/非国有,大盘/小盘等)是否有明显的区别?

数据和模型

本文使用了2000年1月至2020年6月的A股数据,并使用1年期国债利率作为无风险利率。一共使用了94个股票因子,11个宏观因子(具体见附注)。94个股票因子中,其中最后4个因子是描述股票是否属于某一类的哑变量因子,比如是否是国有控股公司(是为1,否为0)。最终输入到模型的因子数量是1160个,其中包括90个股因子(连续变量),90个股因子与11个宏观因子的乘积(90*11=990个),以及80个哑变量因子(包括行业分类等)共计1160个因子。

 初始训练时间为2000-2008,验证集为2009-2011,测试集2012-2020。每次训练都用上一个月末的因子去预测股票下一个月的收益,验证集主要用于超参数优化。连续变量的因子在模型中以截面的Rank值作为输入。本文使用了以下模型,模型滚动训练,每一年重新训练一次。

  • OLS

  • OLS-3(只使用Size,BP及动量三个自变量)

  • PLS(Partial least squares)

  • LASSO

  • GBRT

  • RF(Random forest)

  • VASA(Variable subsample aggregation)

  • Enet(Elastic net)

  • NN1-NN5(1-5层的Neural network)

以上部分模型使用的超参数如下:

预测能力

样本外的预测能力主要采用R方进行评估,即样本外预测收益与实际收益的拟合度,如下式表示:

下表给出了所有模型在不同样本空间的R方表现,主要有以下几个发现,全样本(All)测试中的模型表现说明:

  • OLS模型的R方为0.81%,说明OLS还是有一定的预测能力。仅使用三个因子的OLS-3表现不如OLS,说明Size/BP/Momentum不足以构建预测模型。

  • 基于OLS的增强模型PLS/LASSO/Enet的R方均大于1%,RF/GBRT两个树模型和NN1-NN5五个深度神经网络模型的R方都超过2%,说明模型复杂度的提升带来了预测效果的提升。


A股全样本测试的结果,特别是GBRT的效果要比美国市场的表现好的多。这可能是因为A股市场的特殊结构导致的。接下来分别从以下角度进行对比测试:大盘股(Top 70%)与小盘股(Bottom 30%)、大股东股票(指股东平均持股市值前70%的公司,表中用A.M.C.P.S Top 70%表示)与小股东股票(表中用A.M.C.P.S Bottom 30%表示)及国有控股股票与非国有控股股票。

  • 表1 的结果表明,模型在小市值股票中的表现更优。


  • PLS、RF及NN模型在小股东股票的表现更优。OLS-3在小股东股票样本中比在大股东股票样本中表现更差,这意味着传统的三因子模型可能不适用于中国的小股东股票。


  • 预测国有企业的收益需要一种高度灵活的方法,能够更有效解释非线性效应。这种额外的复杂性可能是必要的,因为国有企业由国家控制,有两个主要目标:创造利润和执行国家政策。然而,我们的研究结果与早期的研究结果形成了对比,这些研究认为,由于中国国有企业的财务不透明和股价的低信息化,预测其股票收益并不容易。


  • 树模型和神经网络,在中国股市的样本外R方表现令人满意。此外,我们的分析揭示了中国股市不同于Gu等人(2020)研究的美国市场的两个重要特征。首先,几乎所有模型都能更好地预测中国市场上小股(非国企)股票的月收益,而不是大股(国企)股票。其次,神经网络可以跨不同的子样本提供健壮的性能。


因子重要性

我们一共使用了94个股因子和11个宏观因子,采用以下方法测试因子在模型中的贡献度:将目标因子的值全部设定为0,并计算模型R方的下降程度,以此判断该因子对于模型的重要程度。下表是11个宏观因子在各模型中的重要程度。

总体而言,我们发现infl和ntis是预测中国股市月收益的两个最具影响力的宏观经济变量,尤其是神经网络。另一方面,股息价格比率(dp)、市场波动率(svar)、每股总收益(ep)、期限息差(tms)和市场流动性(mtr)不那么重要,因为它们被大多数模型忽略了。

下图给出了90多个个股因子在各模型中的重要度(颜色越深越重要),我们发现:

  • 我们发现与市场流动性相关的股票特征在预测中国股市时最有用,如流动性波动率(std_dolvol和std_turn)、零交易天数(zerotrade)和非流动性测度(ill)是最显著的预测因子。


  • 第二组有影响力的因子包括基本面因子及估值比率,如行业调整后的资产周转率变化(chaotia)、行业调整后的员工变化(chempia)、总市值(mve)、近期盈利增长数(nincr)、行业调整后的利润率变化(chpmia)和行业调整后的账面市值比(bm_ia)。


  • 第三组由风险指标组成,包括特殊收益波动率(idiovol),总收益波动率(volatility)和市场beta (beta)。


  • 我们还观察到,神经网络模型(NN1-NN5)、正则化线性模型(PLS、LASSO、Enet)和VASA倾向于选择一组类似的因子。


  • 树模型,包括GBRT和RF,比其他模型倾向于选择更广泛的特征集,这也在Gu等人(2020)中观察到。同样,流动性变量和基本面因子是GBRT和RF最重要的两组预测因子。


样本外收益

下表给出了月度分10组调仓,多空和纯多的收益统计及累计收益曲线(费前收益),我们在图5和表6中的结果证实了Gu等人(2020)的发现,即神经网络优于他们研究中考虑的所有其他模型。对于多空组合,我们得到的中国股市的夏普比率远高于Gu等人(2020)发现的美国股市的夏普比率。例如,NN3在中国市场上给出的最高夏普比率(SR= 3.45)是NN4产生的最佳夏普比率(SR= 1.35)的两倍多。如上所述,由于交易限制,多空策略几乎不可行,因此我们在解释这些结果时很谨慎。同时,只做多的投资组合夏普比率最高为1.76,仍高于美国市场的多空策略。鉴于这种高水平,在更现实的假设下评估只做多的投资组合的表现至关重要。

在表10中,我们报告了包括不同交易成本水平时的月收益和夏普比率。事实证明,由于我们的策略使用频率较低,这些投资组合仍然提供了可观的、经济上显著的表现。对于我们的基准策略NN4,当我们假设往返成本为80个基点时,在极端情况下,多空设置中的夏普比率从2.91下降到2.34。使用更现实的20个基点的假设,夏普比率仅下降到2.76。对于只做多策略也可以得出类似的观察结果,从实践者的角度来看,这更相关。对于只做多策略,在假设80个基点的情况下,夏普比率从1.68下降到1.46。因此,我们的交易成本分析表明,即使在交易成本规模的保守假设下,不同策略的表现仍然具有经济意义。

总结

本文研究了几种机器学习方法对中国股市的预测能力。我们发现,最关键的因子是基于流动性的因子。让我们惊讶的是,基于趋势的因子只发挥了次要作用。我们的结果还表明,基本面因子是第二大最关键的因子类别。我们还发现,散户投资者的短期主义在短期投资范围内产生了可观的可预测性,特别是对小股。与此同时,由于政府信号在中国市场扮演着如此重要的角色,我们观察到国有企业在较长时期内的可预测性大幅提高。

我们的投资组合分析表明,短期内的高可预测性转化为多空投资组合的高夏普比率。特别是神经网络和VASA在2015年中国股市暴跌期间也提供了强劲的表现。然而,在中国市场做空股票是不现实的。因此,我们也分析了只做多的组合,发现业绩仍然具有经济意义。

文章下载:

https://www.sciencedirect.com/science/article/pii/S0304405X21003743?via%3Dihu

参考文献

  • Gu, Kelly, Xiu, 2020 S. Gu, B. Kelly, D. Xiu “Empirical asset pricing via machine learning”

  • Rev. Financ. Stud., 33 (5) (2020), pp. 2223-2273

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
深度解读 | 机器学习和深度学习的区别到底是什么?香港中文大学(深圳)数据科学学院招聘博士后 - 分布式优化和机器学习方向TinyML市场爆发,70元拥有超低功耗机器学习【物女心经】对话 | AI、机器学习在材料科学研究中能发挥哪些作用?机器学习的3大“疑难杂症”,因果学习是突破口 | 重庆大学刘礼美联储加息释放什么信号?房地产市场机会在哪里?​一文梳理ICML 2022中图机器学习热点和趋势112页数学知识整理!机器学习-数学基础回顾.pptxML如何做科学发现?牛津大学268页博士论文详述科学机器学习内涵马斯克雷军竞速「机器人」背后,一场机器革命正在发生 | 幂集创新ICML 2022 | 关注AI技术的你,快来查收这份机器学习前沿论文精选!八卦一下风火轮新中國那些可憐的作家(5)来!新闻流与股价跳跃、图数据应用综述、机器学习与有效前沿一步一步理解机器学习的ROC曲线机器学习分类问题:9个常用的评估指标总结今日开课|《数据科学·机器学习求职实战营》即将开课,赶快报名!【红圈】金杜,深圳,实习多岗位,6k-8k机器学习常用的特征转换方法总结Robeco:使用机器学习发现被错误定价的股票安倍晋三遇刺身亡,反对暴力,祈祷平安百度提出动态自蒸馏方法,结合交互模型与双塔模型实现稠密段落检索美国新泽西理工 招收2023春季/秋季入学博士生(全奖) 应用机器学习/移动系统安全和隐私远瞩咨询:2022年全球人工智能机器学习细分市场分析10月下预告!机器学习、量化金融背景提升项目实战开课!终于有人把分布式机器学习讲明白了针对量子多体问题且可证明的高效机器学习,登上ScienceMSRA智能多媒体组实习生招聘:计算机视觉、自然语言理解、强化学习多个方向聊一聊机器学习的MLE和MAP:最大似然估计和最大后验估计疫情两年后欧洲三国游 (11)- 巴塞罗那海滩和Rambla兰布拉大道发展空间巨大 | 机器学习工程师求职1V1定制计划随时启动!疫情最危险的时候?你就偷着乐吧!从机器学习到推荐系统,技术平台全面统一:火山引擎已经发动自然语言处理 · 机器学习 · 深度学习南洋理工计算机视觉科研项目招生(仅限机器学习,深度学习,AI,迁移学习方向)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。