量化机器学习的实验设计和常见陷阱

2022-12-22 06:12

量化投资与机器学习微信公众号，是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者，曾荣获AMMA优秀品牌力、优秀洞察力大奖，连续2年被腾讯云+社区评选为“年度最佳作者”。

2023《因子日历》它来啦！
限量发售，快来抢购吧！

上一篇文章跟大家分享了因子投资中的事实与误解，今天我们来讨论下“量化金融中机器学习的实验设计和常见陷阱”。一共汇总了三篇非常优秀的论文：

Dixon, Matthew Francis, and Igor Halperin. “The four horsemen of machine learning in finance.” Available at SSRN 3453564 (2019).

其中第一篇论文讨论了在金融中采用机器学习的科学方法时遇到的四个障碍。

机器学习在金融行业的应用已经超过40年，但直到最近，它才在投资管理和交易领域变得更加广泛。机器学习为金融建模提供了比线性参数模型更通用的框架。尽管机器学习具有潜力，但在金融行业采用机器学习仍存在障碍。这些障碍往往是由于该领域的跨学科性质。基于与专家的讨论，以及作者在投资银行、资产管理公司和证券交易公司使用机器学习和传统量化金融的经验，本文识别了主要的危险信号，并提供了避免它们的指导方针和解决方案。并提出了在投资管理和交易中使用监督学习和强化的例子的最佳实践。

第二篇文章的重点是回测测试的规范及如何避免回测的七宗罪。通过实现这些文章中概述的研究范式，投资经理可以避免在回测测试和建立量化模型时犯七个常见错误。

Arnott, Rob, Campbell R. Harvey, and Harry Markowitz. “A backtesting protocol in the era of machine learning.” The Journal of Financial Data Science 1, no. 1 (2019): 64-74.

机器学习有可能彻底改变投资管理的世界。然而，在金融领域应用这些技术时，有几个限制需要考虑。最大的挑战之一是数据的可用性。在许多情况下，机器学习应用程序需要大量数据才能有效，但在金融领域，数据可用性往往有限。

对于长期投资策略来说尤其如此，在这些策略中，数据的可用性可能是一个主要限制。这意味着投资者必须为他们的模型谨慎选择正确的应用，并在使用这些工具时保持谨慎。

除了数据可用性带来的挑战外，资本市场的复杂性也给机器学习带来了挑战。资本市场受到人类行为的影响，人类行为可能是不可预测的，也很难建模。这意味着机器学习技术需要谨慎应用，才能在金融领域发挥有效作用。

通过仔细选择正确的应用程序并遵循严格的研究范式，投资者可以充分利用机器学习在金融领域的潜力。在这篇文章中，作者提出了一个研究框架，既适用于机器学习技术的应用，也适用于一般的量化金融。

第三篇文章讨论了定量建模中常见的七种偏差或”原罪”。计算能力的崛起和现成回测试软件的可用性，让量化投资看起来很容易。然而，投资者在进行回测和构建量化模型时往往会犯一些常见的错误。

Luo, Yin, M. Alvarez, S. Wang, J. Jussa, A. Wang, and G. Rohal. “Seven sins of quantitative investing.” White paper, Deutsche Bank Markets Research, September 8 (2014).

读者可能对其中一些偏见很熟悉，但他们可能仍然会对它们可能产生的影响感到惊讶。其他偏见在学术界和实践者的研究中非常常见，以至于它们常常被认为是理所当然的。

这项研究有一些在其他地方不常见的独特特征。我们讨论了何时删除异常值，何时不删除异常值，各种数据规范化技术，信号衰减、更替和交易成本问题，最佳再平衡频率，以及非对称因子收益模式。我们还讨论了可用性不足对投资组合业绩的影响，并回答了投资组合中应该持有多少股票的问题。我们回顾了各种因子权重和组合构建技术的权衡，并将传统的积极投资组合管理与智能beta和因子投资的新趋势进行了比较。

最后，我们提供了一个实践案例，介绍在构建多因子模型和投资组合时如何避免七宗罪，使用一个真实的例子。量化投资可能看起来很容易，但为了成功，避免这些常见的陷阱很重要。