Robeco：使用机器学习发现被错误定价的股票

2022-09-29 06:09

量化投资与机器学习微信公众号，是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者，荣获2021年度AMMA优秀品牌力、优秀洞察力大奖，连续2年被腾讯云+社区评选为“年度最佳作者”。

来自：Finance Research Letters 48 (2022)
作者：Matthias X. Hanauera, Marina Kononovab, Marc Steffen Rappb
标题：Boosting agnostic fundamental analysis: Using machine learning to identify mispricing in European stock markets

股票基本面分析有效吗？分析师应该如何得出股票基本面价值?虽然理论文献已经开发了贴现现金流模型和其他高度程式化的基础估值模型，但BG（2018、2021，以下称BG）最近提出了一种不可知论方法来进行基础分析。作者“以一名缺乏金融知识的统计学家的观点”（BG, 2018，第125页），并使用线性回归分析将公司的股本市值代理为21个常用报告和现成会计项目的线性函数。

BG表明，偏离其“同行隐含公允价值”可以可靠地预测美国（BG, 2018）和世界上大多数地区(BG, 2021)的未来回报。然而，有趣的是，BG提出的策略似乎在欧洲不起作用，这是相当令人费解的，因为文献发现了欧洲股票市场缺乏效率的充分证据。有人可能会说，这是因为BG并不是完全的不可知论者。事实上，尽管BG对预测因素的相关性不可知，但它们在市场价值和基本面之间强加了一种线性关系。即使在概念上是合理的（例如，Ohlson, 1995），这一假设也是自由裁量的。

本文站在数据科学家的角度（同样只有很少的金融知识），让数据自己说话，应用线性回归和机器学习方法估计了1993-2019年17个欧洲国家股票的每月公允价值，并研究了相应错误定价信号的收益可预测性，即股票基于模型的公允价值与其实际市场价值之间的差异。LR方法与BG（2018年、2021年）密切相关。对于ML，我们应用LASSO对21个会计变量及其全套交叉积，以及基于树的回归方法。此外，我们还结合了随机森林和梯度增强树。

用BG（2021）建议的会计变量训练模型，我们的主要发现可以总结如下：

首先，比较LR和ML模型，我们发现通过SHAP值测量的预测因子的重要性存在显著异质性。
其次，研究了基于错误定价信号的交易策略，我们发现基于树的ml交易策略获得了显著的风险调整后的投资组合（市值加权）收益（“alpha”），为48-66bp/月，远远优于LR交易策略。这些结果在不同的特征构建的模型和不同的投资组合构建选择中都是稳健的。
第三，在Fama MacBeth（1973）的横截面回归中，只有ML方法仍然高度显著，而LR方法几乎没有预测收益的能力。
第四，虽然通过应用LASSO强加参数简约性相比简单LR提高了预测能力，但这样的方法并不能产生与基于树的ml的策略相媲美的收益的交易策略。
最后，三种基于树的ML方法的性能非常相似，集成的ML模型相比单独的树模型有一点优势。我们的发现证明了在基础分析中考虑非线性和相互作用的重要性，以及欧洲股票市场的低效。

关于本文使用的数据，首先，我们从1987-2019年期间在欧盟17国（欧盟15国、瑞士和挪威）注册的公司中排除了非普通股股票、海外上市、二次上市、金融公司和总资产非正或缺少行业标识的公司。此外，我们要求BG(2021)中使用的所有会计变量都有非缺失值。最后，我们用每月1000万美元市值的门槛剔除了小盘股。我们最终的样本包括8121家独特的公司。附录A提供了关于变量定义（一共21个会计变量）、来源和清理的详细信息。

线性模型的实证中，假设当前公司i的价值V与以上21个指标当前时点t的取值之间存在线性关系：

而在非线性的树模型中，为了能够挖掘更多的非线性关系，还使用了前48期的所有的指标数据：

一旦我们使用特定的模型m预测了一家公司在t时间内的基本价值，我们遵循BG(2018, 2021)，计算基本价值V_i,t,m与观察到的市场价值MV_i,t之间的百分比差异，作为相应的错误定价信号：

我们分五个步骤来得出我们的实证结果：

首先，我们使用LR（BG）、LR（pooled）、LASSO、RF、GBRT和Combi六种模型确定基本股票价值，并计算相应的错误定价信号。我们在1993年1月至2019年11月期间的最后一天这样做。
其次，对于LR（BG）、LR（pooled）、LASSO、RF和GBRT，我们计算所有协变量的SHAP值，以了解哪些变量对模型的公允价值估计贡献最大。图1显示了21个会计项目在样本期间的平均SHAP值。LR模型似乎主要从两到三个变量中提取信息，即可用于普通股(股权)的净收入、不包括特别项目/优先股息的净收入和总资产。虽然LASSO将总资产确定为最重要的，但它表明了使用项目及其相互作用(如总资产和总负债)的线性效应或它们的二次项（如税前收入）的相关性。相比之下，ML模型似乎更一致地沿着协变量提取信息，税前收入/所得税、普通股权益和股息是最相关的。

第三，我们遵循BG，根据相应的错误定价信号将股票分为五个五分位。表1 Panel A展示了错误定价信号的时间序列平均值和五分位数投资组合的选定公司特征。所有的方法都显示第一（第五）五分位数有较大的负（正）错误定价信号。因此，ML和LASSO信号相当小，因为这些估值模型的非线性，因此它们能够更好地拟合数据。此外，面板B显示了错误定价信号之间的相关性以及相应的价差回报之间的相关性。有趣的是，LR、LASSO和ML模型之间的相关性是适度的，这可以归因于会计变量与估值模型相关性的异质性，如图1所示。此外，来自RF和GBRT的错误定价信号之间的相关性也是有限的，这表明集合平均（Combi）通过“平均”噪声可能是有价值的。

第四，我们计算价值加权和行业调整的每月投资组合回报，并进行时间序列分析，以研究错误定价信号和随后一个月的回报之间的关系。表2 Panel A显示，ML投资策略在统计上和经济上都获得了显著的行业调整收益差，从多头和空头头寸中获利相当一致。尽管LR和LASSO的五分位差很大，但它们的经济相关性却弱得多，alpha的盈利能力中有较大一部分来自短线。

最后，我们将从投资组合选择的角度深入探讨使用ML方法是否会增加价值。事实上，尽管ML似乎在经济上比LR更优（表2），我们仍然发现LR有积极和显著的回报。为了分析在控制了ML(和其他变量)后LR是否被定价，即测量LR错误定价信号的边际效应，我们进行了Fama和MacBeth（1973）横断面回归。我们包含了与BG相同的控制集，并严格遵循其变量定义。与BG中一样，我们使用五分位数进行回归，计算方法如上所述，以便更容易地解释系数估计。表3证实了我们的发现，显示了ml策略的Q5在统计上和经济上显著的系数(面板A，列4-6)，而lr策略的Q5回报(面板A，列1-2)在统计上和经济上可忽略不计。更重要的是，当将ML方法和LR（BG）（LR（pooled））联合纳入Panel B的2-4列（6-8）时，我们发现只有ML方法仍然显著，而LR方法几乎没有预测收益的边际能力尽管LASSO在横断面回归中的显著性与ML方法相当，但其点估计仍然大大低于ML策略。这一发现一方面强调了相互作用和非线性对股票价值预测的重要性，另一方面强调了ML方法在其检测中的优越性。

参考文献

Bartram, S.M., Grinblatt, M., 2021. Global market inefficiencies. J. Financ. Econ. 139, 234–259.

Bartram, S.M., Grinblatt, M., 2018. Agnostic fundamental analysis works. J. Financ. Econ. 128, 125–147.

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章