Redian新闻
>
机器学习与因子模型实证:怎么进行模型训练?

机器学习与因子模型实证:怎么进行模型训练?

财经


量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据领域的主流自媒体公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,曾荣获AMMA优秀品牌力、优秀洞察力大奖,连续4年被腾讯云+社区评选为“年度最佳作者”。


标题:Stock Market Anomalies and Machine Learning Across the Globe

作者:Vitor Azevedo、Georg Sebastian Kaiser、Sebastian Muller



前言
股票市场异常是指那些与传统金融理论不符合的现象,这些现象可能导致投资组合表现出色或者糟糕。机器学习技术可以帮助我们更好地理解这些异常,并提高投资组合的表现。
本文旨在探讨机器学习模型在国际股票市场异常预测中的应用。作者使用了来自多个国家的大量数据,并采用多种机器学习算法来构建未来回报预测器。他们还对不同算法和特征选择方法进行了比较,并评估了它们在样本内和样本外测试中的表现。作者发现:
1、机器学习模型可以有效地预测股票市场异常,尤其是在样本外测试中表现更好。
2、不同的机器学习算法和特征选择方法对预测能力的影响不同。例如,基于树的算法(如随机森林和梯度提升树)通常比线性模型表现更好。
3、在国际股票市场中,不同的异常变量具有不同的预测能力。例如,动量和价值因子在多个国家中表现出色,而流动性因子则在某些国家中表现较差。
4、在构建未来回报预测器时,考虑多个异常变量之间的非线性关系可以提高模型的预测能力。

测试了哪些因子?

本文使用了量价数据、基本面数据及分析师一致预期数据构建了240个因子(异象),这些数据从1980年7月至2019年6月,覆盖了MSCI主要地区指数的国家(包括以下指数:MSCI North America, Europe, Pacific, Emerging Markets)。经过一系列的处理,最终的数据包括68个国家66000家上市公司的超过9390万条的月度数据。从下表我们可以看到中国的数据占了总样本的8.17%。
主要测试了113个基本面因子、75个量价因子、18个分析师因子及19个估值因子和15个其他因子。所有因子的数据都基于截面排序标准化到(0,1)的区间。因子评价主要使用多空组合收益及其显著性。在构建多空组合时,分别构建了等权组合和市值加权组合。具体因子列表请参考原文。

使用了哪些机器学习的模型?

使用的模型从简单到复杂主要分为三类:
1、线性回归模型,GLM(Generalized Linear Model)
2、树模型,Gradient Boosting Machine(GBM)
3、神经网络模型,总共有三个,浅层全连接模型(Small Feedforward Neural Network),深层全连接模型(Large Feedforward Neural Network)和RNN。
简单因子表现怎么样?
在所有的240个因子中,有167个因子(约占总体70%)的多空收益显著(t值大于1.96)。t值大于3.00的因子有132个。基于240个因子的截面排序的均值,本文构建了一个Baseline factor。与所有单个因子组合的平均表现对比,Baseline因子的换手率更高,月度平均的表现也更优。等权Baseline因子的表现也显著大于市值加权的Baseline因子表现。在接下来的研究中,本文将对比各模型于Baseline因子的表现。
机器学习模型表现怎么样?
基准机器学习模型表现
针对6个不同的模型,分别针对原始的收益和收益排序进行了训练。下表A是使用收益率作为训练目标的模型表现,下表B是使用收益排序作为训练目标的模型表现。可以看出:
1、所有基于收益率训练的6个模型的表现都优于Baseline因子,而且3个神经网络模型的表现优于其他的树模型和回归模型,其中表现最好的是Small FNN。
2、所有基于收益排序训练的6个模型的表现也优于Baseline因子,而且表现最好的也是神经网络模型,最优的是Large FNN。
3、整体而言,机器学习模型的表现要优于Baseline因子,而且在使用神经网络模型时,基于收益排序预测的模型的效果要优于基于收益率预测的模型。
调整后的机器学习模型表现
基于预测的目标、窗口滑动的方式、使用的因子集可以构建出多种模型:
1、预测目标可以分为:收益率、收益率的截面排序
2、窗口滑动方式可以分为:不滑动、10年滑动、扩展(即起始点不变)
3、因子选择可以分为:使用Lasso、Elastic Net选取因子,使用固定t值过滤
下表给出了所有可能性组合的测试结果,所有模型表现均优于Baseline因子,其中表现最好的是Small FNN。
把所有模型按照不同的训练方式计算平均的效果,如下表所示,可以看出,基于截面排序的模型效果要优于基于基于原始收益率的预测模型;基于Lasso选则因子的模型表现更优。
即使是同一个模型,当选择不同的训练方式的时候都会带来很大的改变,如下图所示,对于GLM模型,当使用扩展窗口、基于收益排序和elastic net选择的因子集进行训练时,该模型的表现能够提升1.56%。

总结

机器学习模型确实能够显著提高传统因子的表现,但在具体实施过程中存在很多不同的选择,如训练的目标,窗口的滚动及因子的选择。本文给了我们一个非常详细的对比,很多结果也于我们直观的认知保持一致,为我们在具体应用机器学习模型提供的借鉴。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
北大团队将色谱领域知识融入机器学习模型,辅助对映体色谱分离面向大模型训练,腾讯发布高性能计算集群:整体性能提升3倍训练时间减少71.4%,存储成本节省99.9%,厦大指令调优新方案MMA让羊驼模型实现多模态【学术人生】一位博士生接受怎样的训练才是完整, 全面的科研训练?淘金『因子日历』:因子筛选与机器学习有哪些省内存的大语言模型训练/微调/推理方法?《卖给洋人》和华人华侨的区别防止AI胡说八道!OpenAI公布最新大模型训练方法,监督AI像人类一样思考懒人福音!谷歌让机器训练机器,用大语言模型定制专属于你的家务机器人超10万名ChatGPT用户信息被泄露;苹果机器学习关键人物离职;OpenAI考虑打造AI模型应用商店丨AIGC大事日报媲美万元网球课,这款运动小白也能迅速上手网球训练器,为什么被成为省钱的网球陪练?谷歌砸了4亿刀的Anthrophic:AI模型训练计算量5年增加1000倍!微软开源“傻瓜式”类ChatGPT模型训练工具,提速省钱15倍第四范式开源强化学习研究通用框架,支持单智能体、多智能体训练,还可训练自然语言任务!训练速度提升17%会议预告 | 首届机器学习与统计会议暨中国现场统计研究会机器学习分会成立大会ChatGPT 是男的北京内推 | 微软亚洲研究院机器学习组招聘时空序列预测方向研究型实习生字节参战!火山引擎推出大模型训练云平台,自研DPU实例性能提升3倍以前所未有的原子数量进行量子力学模拟,机器学习发现新的高压固体氢人类首个“反AI联盟”四问AI风险 暂停大模型训练遭遇不同意见Meta连甩AI加速大招!首推AI推理芯片,AI超算专供大模型训练美国入境档案--贝聿铭、蔡葵和张之江,1935年机器学习背景提升项目实战下周开课!|ChatGPT聊天机器人语义情绪波动检测马斯克等为何呼吁暂停GPT-5训练?AI已成中美战略竞争制高点!中国需从九方面紧急应对!ICLR 2023 | 微软提出自动化模型训练剪枝框架OTO,一站式获得轻量级架构Stealing Large Language Models: 关于对ChatGPT进行模型窃取的一些工作加密后的敏感字段还能进行模糊查询吗?该如何实现?军旅故事原创系列(44)背黑锅 戴绿帽《Python机器学习》畅销书作者又出新书了,全方位扩展你的机器学习知识剧院新闻|拉尔夫·费因斯与因迪拉·瓦尔玛领衔仓库版《麦克白》智能革命:人工智能、机器学习、生物 学习和智能材料的合力DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率唐人七律谁第一?ChatGPT背后大模型如何高效训练?京东探索研究院、悉大、中科大60页论文详述五大类训练方法上海内推 | 微软亚洲研究院人工智能与机器学习组招聘研究型实习生
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。