Robeco:使用机器学习发现被错误定价的股票
来自:Finance Research Letters 48 (2022)
作者:Matthias X. Hanauera, Marina Kononovab, Marc Steffen Rappb
标题:Boosting agnostic fundamental analysis: Using machine learning to identify mispricing in European stock markets
首先,比较LR和ML模型,我们发现通过SHAP值测量的预测因子的重要性存在显著异质性。 其次,研究了基于错误定价信号的交易策略,我们发现基于树的ml交易策略获得了显著的风险调整后的投资组合(市值加权)收益(“alpha”),为48-66bp/月,远远优于LR交易策略。这些结果在不同的特征构建的模型和不同的投资组合构建选择中都是稳健的。 第三,在Fama MacBeth(1973)的横截面回归中,只有ML方法仍然高度显著,而LR方法几乎没有预测收益的能力。 第四,虽然通过应用LASSO强加参数简约性相比简单LR提高了预测能力,但这样的方法并不能产生与基于树的ml的策略相媲美的收益的交易策略。 最后,三种基于树的ML方法的性能非常相似,集成的ML模型相比单独的树模型有一点优势。我们的发现证明了在基础分析中考虑非线性和相互作用的重要性,以及欧洲股票市场的低效。
首先,我们使用LR(BG)、LR(pooled)、LASSO、RF、GBRT和Combi六种模型确定基本股票价值,并计算相应的错误定价信号。我们在1993年1月至2019年11月期间的最后一天这样做。 其次,对于LR(BG)、LR(pooled)、LASSO、RF和GBRT,我们计算所有协变量的SHAP值,以了解哪些变量对模型的公允价值估计贡献最大。图1显示了21个会计项目在样本期间的平均SHAP值。LR模型似乎主要从两到三个变量中提取信息,即可用于普通股(股权)的净收入、不包括特别项目/优先股息的净收入和总资产。虽然LASSO将总资产确定为最重要的,但它表明了使用项目及其相互作用(如总资产和总负债)的线性效应或它们的二次项(如税前收入)的相关性。相比之下,ML模型似乎更一致地沿着协变量提取信息,税前收入/所得税、普通股权益和股息是最相关的。
第三,我们遵循BG,根据相应的错误定价信号将股票分为五个五分位。表1 Panel A展示了错误定价信号的时间序列平均值和五分位数投资组合的选定公司特征。所有的方法都显示第一(第五)五分位数有较大的负(正)错误定价信号。因此,ML和LASSO信号相当小,因为这些估值模型的非线性,因此它们能够更好地拟合数据。此外,面板B显示了错误定价信号之间的相关性以及相应的价差回报之间的相关性。有趣的是,LR、LASSO和ML模型之间的相关性是适度的,这可以归因于会计变量与估值模型相关性的异质性,如图1所示。此外,来自RF和GBRT的错误定价信号之间的相关性也是有限的,这表明集合平均(Combi)通过“平均”噪声可能是有价值的。
第四,我们计算价值加权和行业调整的每月投资组合回报,并进行时间序列分析,以研究错误定价信号和随后一个月的回报之间的关系。表2 Panel A显示,ML投资策略在统计上和经济上都获得了显著的行业调整收益差,从多头和空头头寸中获利相当一致。尽管LR和LASSO的五分位差很大,但它们的经济相关性却弱得多,alpha的盈利能力中有较大一部分来自短线。
最后,我们将从投资组合选择的角度深入探讨使用ML方法是否会增加价值。事实上,尽管ML似乎在经济上比LR更优(表2),我们仍然发现LR有积极和显著的回报。为了分析在控制了ML(和其他变量)后LR是否被定价,即测量LR错误定价信号的边际效应,我们进行了Fama和MacBeth(1973)横断面回归。我们包含了与BG相同的控制集,并严格遵循其变量定义。与BG中一样,我们使用五分位数进行回归,计算方法如上所述,以便更容易地解释系数估计。表3证实了我们的发现,显示了ml策略的Q5在统计上和经济上显著的系数(面板A,列4-6),而lr策略的Q5回报(面板A,列1-2)在统计上和经济上可忽略不计。更重要的是,当将ML方法和LR(BG) (LR(pooled))联合纳入Panel B的2-4列(6-8)时,我们发现只有ML方法仍然显著,而LR方法几乎没有预测收益的边际能力尽管LASSO在横断面回归中的显著性与ML方法相当,但其点估计仍然大大低于ML策略。这一发现一方面强调了相互作用和非线性对股票价值预测的重要性,另一方面强调了ML方法在其检测中的优越性。
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章