Winton：量化研究中的『实验研究』与『观察研究』

2023-02-23 05:02

量化投资与机器学习微信公众号，是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者，曾荣获AMMA优秀品牌力、优秀洞察力大奖，连续4年被腾讯云+社区评选为“年度最佳作者”。

作者：Winton Capital Management

前言

量化投资研究类似于自然科学研究，因为它试图通过对数据的实证分析来研究市场现象。研究人员通常使用为科学分析而开发的技术来预测市场走势并构建新的交易策略。

实验研究与观察研究

对于量化投资来说，进行科学的研究的一个重要方面是实验研究和观察研究啊之间的区别。实验可以多次重复，以生成可比较结果的大数据集。举一个物理学的例子：粒子加速器将质子撞击在一起，以观察由此产生的碎片产生希格斯粒子的频率。如果需要更多的数据来更精确地测量希格斯粒子产生的可能性，这个过程可以重复，直到达到所需的精度水平。这可能会产生数十亿或数万亿个数据点。

将这种实验方法与一位研究黑洞碰撞产生的引力波的天文学家进行对比。天文学家检查尽可能多的实际碰撞，并推理出由此产生的波的精确细节。他们没有办法创造出大量可比较的黑洞对，然后让它们运动起来，看看会发生什么。此外，黑洞的相对稀缺性使得选择的集合可能不是一个代表性的样本，因此含有偏差。在这种观测研究的方法中，天文学家必须接受他们所发现的宇宙，试图纠正他们数据中的偏差，并从现有的信息中得出结论。

然而，实验研究和观察研究并不是一个严格的二分法，而是在连续尺度上的两个方向。越有可能控制和重复创建相关数据的过程，就越能进一步走向实验研究的一端。在另一个方向上，数据集变得更小，更容易产生各种形式的偏差，信号通常更难从噪声中区分开来。

实验研究和观察研究之间的区别延伸到金融领域。例如，执行算法可以通过将其应用于其他交易来进行实验测试。然而，关于股市崩盘的理论只能通过观察来研究，因为唯一的数据来自于已经发生的崩盘，而且每次发生的情况差别很大，无法根据需要生成更多的崩盘！

金融领域的数据集与科学领域的数据集大小相似，如下图所示。在一个极端情况下，长期基本面投资者往往只需要处理几百个数据点，因为大多数上市公司只是每季度发布财务报表。另一方面，高频交易商处理的价格标记为纳秒，得到的数据集大小与粒子物理学中使用的数据集相当。

金融数据与科学数据规模的比较

如上图所示，高频和低频交易者可获得的不同数据量决定了他们在实验观察尺度上的位置。这两类交易者投资于同一个市场，但高频交易者使用在较短时间内可获得的大量数据。这使他们能够进行实验性操作，因为他们有更多的数据来评估他们的想法。更快的交易信号更适合于实验，因为另一个更实际的原因：它们通常具有更高的预期夏普比率，这意味着它们可以更快地通过样本外的表现来判断。

例如，如果一个假定夏普比率为2或更高的信号在几个月后出现亏损，那么很可能出现了问题——或许这种策略已被发生拥挤，并被“套利”出去。然后可以关闭信号，开始一个新的实验。相比之下，夏普比率估计为0.5的策略可能会下跌一年以上，但仅仅因为表现而停止交易该策略是不合理的。这是因为多年亏损与夏普比率的长期预期统计分布是一致的。

因此，实验研究和观察研究代表了两种不同的量化投资方法。实验研究包括寻找具有更高夏普比的更快的策略。单独来看，这些策略的交易能力有限，因为它们相对频繁的交易会产生交易成本。然而，其目的是通过组合许多快速信号来建立一个庞大的投资组合。

另一种方法是寻找容量更大、夏普比率通常更低的信号。建立一个大型投资组合所需的此类信号较少，前提是它们彼此之间的相关性较低。

在科学领域，实验研究与观察研究的关系是连续的，而不是二元选择。我们总结了下表中的一些主要差异，以了解不同的量化投资经理所使用的方法：

尽管Winton在过去几年里在实验研究方面做了更多的工作，但从历史上看，我们的方法更多的是观察研究。部分原因源于我们对期货市场趋势跟踪的根源，这是一个交易信号缓慢、容量大、夏普比率相对较低的典型例子。因此，我们的大部分研究都是为了找到其他不相关的信号与动量相结合。我们关注的是最适合这种方法的统计工具和分析方法。

机器学习的应用

最近几乎每个领域可用数据量的迅速增加为预测性建模创造了新的可能性。例如，传统的股票分析师可能会阅读他们所关注的公司的每一份报告，并且在做收益预测时可能已经知道某一特定公司的每一个相关事实或数据。目前用于盈利预测的数据可能包括卫星地图、信用卡消费信息、每辆卡车上每种产品的物流细节，以及更多其它信息。对于一个人或一群人来说，像过去那样密切关注这种大量增加的数据是不切实际的。从识别图片内容到在零售商网站上提供有针对性的推荐，这些方法取得了非凡的成功。但是它们有一个关键的要求：大量的输入数据。

因此，机器学习适用于更快的交易策略: 短期价格信息的数量产生大量的数据。对于较慢的交易系统，小的、有噪音的数据集中相对有限的信息内容不适合作为机器学习模型的输入。在这种情况下，更有益的做法是从数据中得出可靠的结论，并集中注意可解释性和简单性，而不是采用不必要的复杂算法。

尽管如此，在 Winton，我们还发现机器学习方法对于较慢的交易策略是有用的。这是因为我们的数据需求通常很重要，特别是当我们想要执行一个很长的回测时。比如，我们有一个通过分析公司季度报告文本的交易策略。要对美国最大的1000家公司进行为期40年的回测，我们需要分析16万份报告。然后这项任务不是一群人能完成的。相反，机器学习方法是合适的。

选择偏差的危害

Winton的研究在很大程度上是基于假设的。研究人员将从一个相关的现象开始，提出假设，然后搜索数据来检验这个想法是否正确。如果最终从这个假设中形成一个交易信号，目标是与现有策略相关性较低，成交量较低，夏普比率虽然较低但必须为正值，可能在0.3至0.5之间。

这些目标听起来可能有些保守。然而，如果只找到16个不相关的信号，每个信号的夏普比率为0.5，那么投资组合的夏普比率就会为2，而且容量非常大！

然而，这在实践中很难实现。尽管在夏普比率较低的情况下对交易信号进行回测很容易，但要确保夏普比率在未来保持正值则极其困难。统计估计误差是一个问题。一个更有害的问题是选择偏差。

要理解选择偏差是如何运作的，想象一下随机发出100个交易信号，这些随机的信号没有洞察力或预测市场走势的能力。尽管如此，它们在回测中的表现不会恒定为零，而是会形成一个分布，一些信号的夏普比率似乎会达到0.3或更高。如果我们只选择那些历史表现良好的投资组合，而抛弃其他投资组合，我们就创建了一个有吸引力的回测投资组合。

现实中，研究人员测试了很多想法，尽管它们不是随机产生的，但我们不能提前知道它们是否有效。即使这些想法平均来说是好的，最好的样本外测也会部分归功于这个想法的成功，部分归功于运气，因此真正的夏普比率可能被高估了。

此外，在许多机构中，选择偏见产生于挑选的信号与最好的回测，这种想法根深蒂固。员工只想向他们的经理展示他们最好的结果。当某些东西不太好用时，很容易把它丢弃，然后转向一个看起来更有前途的想法，或者调整模型的参数，直到它看起来确实起作用。即使研究人员意识到这种情况正在发生，他们也经常想出后续的解释来解释为什么最初的想法会失败，从而把它排除在他们尝试过的信号的清单之外。

2005年发表的一篇题为“Why Most Published Research Findings Are False” 的开创性论文广泛宣传了学术界选择偏见的影响，因为学术界的选择往往是在发表论文的时候进行的。期刊更有可能发表报告重大结果的论文，而不是那些没有发表的论文。这导致了所谓的“复制危机”，研究人员无法复制早期工作的结果。

投资管理中的一个相似之处是回测和实盘业绩之间的差距。我们先前已经表明，趋势跟踪产品在推出后表现不如回测的情况。一项从各种来源收集数据的分析显示，这个问题出现在整个投资领域。

投资策略实施前后的绩效研究

减轻选择偏差

如上所述，选择偏差的问题并不纯粹是技术性的。即使所有研究人员的工作都达到了模范标准，这种情况也可能出现。问题在于组织研究的框架。最近的一篇文章在机器学习在量化金融中的应用的背景下讨论了在组织层面解决这个问题的必要性。

Winton减轻选择偏差的关键结构是“想法（或假设）登记制”的思想。这是从临床试验的想法中获得的灵感，该登记册有助于减少医学研究中选择偏差的影响。在Winton，提出的新信号被精确地记录在登记册中，然后整个研究部门都可以看到。这让其他研究人员有机会在早期阶段对这一想法进行同行评审。重要的是，它还允许我们跟踪我们测试的想法的数量。这一过程的合作性和开放性也有助于减少单个研究人员只分享有效信号的压力。

正如在临床试验的情况下，登记册中包括如何测试的想法的确切细节：使用什么数据，什么时间段将被用于不同的分析部分，使用什么统计测试，等等。

重要的是，一个交易信号想法的任何细微变动的测试都将被记录。正如我们所看到的，如果有太多的想法被测试，那么就有更高的概率出现一个虚假的成功。如果我们测试一个想法的更多变化，那么我们需要一个更高的显著性阈值，这意味着我们至少需要知道我们正在测试多少个想法。

一旦这一过程完成，这一想法将在市场数据上得到检验。其结果是一个更加健壮的研究框架。如果我们没有跟踪的相关的想法正在测试的数量，没有执行必要的统计修正，我们可以拒绝交易策略。而且我们能够对我们的信号可能的样本外性能做出更准确的评估。

结论

量化研究方式是多种多样的。一端可以广泛地描述为更接近交易，通常涉及更高的频率策略; 一个更具实验性的方法来实现新系统; 一个更高的夏普比率和更低的规模承载能力; 对大型（通常是日内）数据集的需求，以及随之而来的对机器学习的兴趣。另一端更接近投资，通常较慢的系统交易成本较低; 方法必然更具观察性；子战略夏普比率较低，但能够管理更多的资本；以及处理少量数据和在嘈杂的数据集中发现微弱信号的微妙之处的必要评估。

研究这些策略的过程中，建立对低夏普比率策略的信心是困难的。这种困难既有组织上的，也有技术上的，需要一种重要的自上而下的方法，类似于许多政府现在要求医学试验注册的方式。例如，在 Winton，我们的研究人员自2012年以来测试的每一个假设都被预先登记。我们还在研究方法上进行了多年的实验，以测试其有效性，并取得了成功。

在狂热的炒作中，大数据和机器学习确实为追求较慢交易策略的投资经理提供了机会。但是，研究人员更经常面临的问题是从相对较少的数据推断。在这种情况下，使用所讨论的技术来提取可靠的信息是至关重要的。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章