Redian新闻
>
股票预测中模型复杂性的利弊

股票预测中模型复杂性的利弊

财经


量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据领域的主流自媒体公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,曾荣获AMMA优秀品牌力、优秀洞察力大奖,连续4年被腾讯云+社区评选为“年度最佳作者”。


量化投资与机器学习公众号出品


前言
量化投资中预测很重要,但预测的准确性却并没有那么重要,有的时候较低的预测准确率可能会带来较高的夏普比率。比起预测的准确性,重要的是预测在最重要的时候是否正确。所以,基于提升预测准确性的复杂模型的夏普可能还不如简单模型。在这种情况下,以降低夏普比率和可理解性为前提的更好的准确性可能并不具有什么吸引力。
本文对不同复杂程度的模型进行了比较。这些比较不仅基于它们产生准确预测的能力,而且基于交易策略的夏普比率。我们还考虑了信息集是否实际上是实时的,我们比较了不同的信息的滞后性,使策略更现实。
最后有四个关键的结果:
  • 首先,数据是如何预处理的问题,其中滚动百分比排名优于滚动或扩展窗口Z-Score。
  • 其次,依赖滞后的经济数据,这些数据可能会被修正,从而扭曲回测结果,这些信息对有效策略来说并不是必不可少的。
  • 第三,最简单、最容易理解的方法胜过最复杂的技术。
  • 然而,将可理解的和简单的模型与不可理解的和复杂的内容混合起来,确实比任何单一的模型都要好。
Kelly, Malamud, and Zhou (2022) (KMZ)对预测股票风险溢价的文献进行了全面概述。使用Goval和Welch(2004)中描述的数据,KMZ提供了一个理论论点和经验证据,即无岭回归与解释变量的随机傅立叶变换可以提高夏普比率,即使模型复杂性增加。对过度拟合的担忧似乎是没有根据的,因为他们的过度拟合模型具有非常好的样本外表现。这就是他们所说的复杂性的优点(virtue of complexity)。复杂性的缺点(vice of complexity)是模型无法解释。Goval和Welch(2004)认为过于复杂的模型是不稳定的,具有不好的样本外特性,并且缺乏透明度。
本文基于Goval和Welch(2004)所使用的数据(1926年至2022年),用四个不同复杂度的方法来预测未来一个月的指数收益率(时序预测),从而进行模型复杂性的优缺点的讨论。其中模型从简单到复杂包括两个分类法和两个回归法:
  • 逐步二次判别分析(stepwise quadratic discriminant analysis)
  • 分类树(classification trees)
  • 回归树(regression tree)
  • 带随机傅立叶变换的无岭回归(ridgeless regression with random Fourier transforms)

数据预处理方法的比较

数据在输入到模型之前可以使用一些预处理的方法,比如Z-Score或者排序,Z-Score既能去除异常值还能改变数据的分布,同时保留变量间的距离信息。排序法能去除异常值,但同时去除了变量间的距离信息。下表1给出了不同模型基于不同处理方法的结果,其中括号外的数值表示基于预测值做多指数(预测为负时持有现金)的策略的夏普比率,括号里的百分比为预测的准确度。可以看出逐步判别法的整体效果优于其他模型,而且基于排序法的效果在所有测试中最好。
滚动窗口 VS 扩展窗口
表2基于排序法,比较了不同数据滚动方法的测试结果,可以看出更好的准确性并不是更好的夏普比率的先决条件。这是由于滚动窗口能够更快的适应市场的变化,在最重要的时候保持正确。
数据时效性的影响
宏观经济数据存在滞后和修正。Goval和Welch(2004)使用的消费者价格指数数据尤其如此。当使用市盈率或市净率时,市场数据也可能存在隐藏的问题。会计数据可以被修改,而且它们可能会出现重大的报告延迟。因此,我们从信息集中剔除了收益变量、账面市值比变量和通货膨胀数据。剔除后可以看到使用滚动百分比排名的逐步判别分析的夏普比率从0.892下降到0.761。无岭回归从0.626下降到0.608。有趣的是,回归树看到从0.639到0.714的改进。分类树(由于其性能较差,我们没有提到太多)的夏普比率从0.29提高到0.459。
即使使用这些有时效性的数据,这些数据也存在滞后性。我们使用数据集中的每日数据来测试滞后性的影响。下表3给出了测试结果,最后一行Average是四个模型的复合模型的测试结果。在本数据集中,Lag从1到4增加,模型效果越来越好,说明大部分数据并不能在数据标注的日期真正的获得。这也与Jacobsen and Scheiber (2022)的结论一致:数据滞后和策略表现间并没有一直稳定的关系。我们还可以看出复合模型的表现优于所有个体模型。
模型解释变量的稳定性
使用滚动窗口,不同时期的同一个变量的解释性也在不断的变化。
本次回测所选变量的换手率为37%。在26%的月份中,股息收益率是被选择的变量。在19%的月份中,国债收益率是被选择的变量。在17%的月份中,一年期股票风险溢价是被选择的变量。仅使用二次判别分析对股息收益率进行预测,使用一天的滞后,准确率为58.0%,年化夏普比率为0.827。它确实倾向于做多股票,因为它在80%的时间里都是做多的。图5显示了信号买入股票的月份和持有现金的月份的箱形图。尽管存在异常值,但当它表明买入股票时,其均值,中位数和分布的较低部分往往比表明持有现金时要好。换句话说,股息收益率可以帮助重塑下尾,使其更有利。
当然本次实验的结果仅适用于本次所用的数据集,对于不同的数据集,我们可以参考本文的思路进行实证,做出判断。

Talk is cheap, show me the code (and data)。


来自:The Journal of Financial Data Science Summer 2023
标题:The Virtue and Vice of Complexity in Equity Risk Premium Prediction
作者:Brian Jacobsen


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
新移民出租房投资长租还是短租,税务利弊有哪些?正视AI技术发展利弊,高校招生部如何看待文书中使用ChatGPT大摩:半导体U型复苏,急单明年再现麻州爱与恨!在麻州生活的15大利弊传奇科学家奥本海默的复杂性对话王赓武教授:研究华侨华人问题要注意其复杂性深圳湾实验室团队最新综述:蛋白质结构预测中“分而治之”的策略,以及后AlphaFold2时代从系统工程到系统科学的学习与思考——复杂性应对策略贾扬清新公司Lepton AI曝光,ONNX联创、etcd作者加盟,产品内测中Hable con ella by Pedro Almodóvar/Alberto Iglesias\' geniality每周硅闻 | 重磅!曝“Apple GPT”内测中;裁员1000+仍将继续;Microsoft 劈腿?!北京热门景点约不上咋办?防黄牛有招吗?三问暑假门票预约难用50多年时间,探索最令人困惑的复杂性理论知识极限1967年李光耀预测中国,太准了!夏天快乐,原创笑话: 嘲妻二部曲美国医生收入比中国高很多?表面数字背后不可忽视的复杂性650亿参数,训练飙升38%!LLaMA基础大模型复刻最佳实践开源,GitHub已获30k星立案侦查!武汉应急管理局地震监测中心遭境外网络攻击!音乐平台发力付费推歌,到底利弊几何?美国K签和CR1 婚姻移民对比究竟有何利弊?今天开始预购!2024墨尔本F1大赛奖门票预计几小时内销售一空!夜景Prada怎么啦黎智英的《苹果日报》【岛妹说】暑期景区门票预约难,咋整?国庆中秋连休8天!机票预订大增,价格预计超暑期巴托比专栏 | 办公室友谊的利弊在无数幻想中模拟生活的浪漫!海外买量游戏大佬分享AIGC利弊:Midjourney做游戏美术的心得蛋白质侧链预测新方法DiffPack:扩散模型也能精准预测侧链构象!新法无排期的EB-5排期也快来了,现在申请如何做抉择? 利弊分析大公开!武汉市地震监测中心遭境外网络攻击,“黑手”疑来自美国?外交部回应!为何地震监测中心会遭网络攻击?举报新东方的网红,背后一条错综复杂的利益链...解决大模型复现难、协作难, 这支95后学生团队打造了一个国产AI开源社区稻盛和夫:极致的利他,才是最好的利己
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。