Quant 4.0：你的量化研究处于哪个时代？

财经

2023-06-06 14:06

量化投资与机器学习微信公众号，是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者，曾荣获AMMA优秀品牌力、优秀洞察力大奖，连续4年被腾讯云+社区评选为“年度最佳作者”。

作者：Jian Guo、Saizhuo Wang、Lionel M. Ni、Heung-Yeung Shum
解读：QIML（量化投资与机器学习公众号）编辑部

在IDEA最新研究报告中首次提出了Quant 4.0的研究流程，在深度学习不断融入量化研究的时代，非常值得处于量化行业的我们仔细研读。

今天，公众号将与大家一起分享研究报告中量化研究过程的演进。

欢迎留言讨论 - 你们公司的量化研究处在哪个时代？

Quant 1.0

出现在量化投资的早期，但它仍然是当前最流行的量化研究模式。

Quant 1.0的特点包括：

1、规模小而精的团队。通常由经验丰富的投资组合经理领导，由少数具有强大数学、物理或计算机科学背景的研究人员和交易员组成；

2、应用数学和统计工具来分析金融市场，发现错误定价的资产进行交易；

3、交易信号和交易策略通常是简单、可理解和可解释的，以减少建模中样本内过拟合的风险。这种操作模式在量化交易中效率较高，但在管理上稳健性较低。特别是，一个Quant 1.0团队的成功过于依赖于特定的研究人员或交易员，这样的团队可能会随着人才的离开而迅速衰落甚至破产。此外，如此小的“策略研讨会”限制了量化股票Alpha策略等复杂投资策略的研究效率，这些策略依赖于多样化的金融数据类型、极其庞大的数据量和超大型深度学习模型等复杂建模技术。

Quant 2.0

将量化的研究模式从小型的天才工坊转变为工业化、标准化的阿尔法工厂。

在该模式中，数百甚至数千名投资研究人员使用标准化的评估标准、标准化的回测流程和标准化的参数配置，在同一条流水线上工作，从大量的数据中挖掘有效的Alpha因子。这些Alpha挖掘研究者通过提交合格的Alpha因子而获得奖励，这些因子通常具有高回测收益率，高夏普比率，合理的换手率以及与Alpha数据库中现有因子的低相关性。尽管越来越复杂的机器学习因子也被挖掘出来，传统上，每个Alpha因子都是一个数学表达式，表征股票的某种模式，或股票之间的某种关系。典型的因子包括动量因子、均值回归因子、事件驱动因子、量价分布因子、成长因子等。由Alpha研究者提交的许多Alpha因子被组合到投资组合经理的统计模型或机器学习模型中，在适当的风险中和后确定最优的权重。

然而，大规模的团队工作造成了巨大的人力资源成本，并且随着团队规模的不断扩大，这种情况变得越来越严重。具体而言，我们可以预期发现的有效阿尔法的数量与团队规模近似呈线性趋势，但投资组合收益的增长明显低于阿尔法数量和团队规模的扩张，这导致利润率越来越小。

造成这一现象的原因是策略的市场容量的有限性、发现新的有效阿尔法算法的难度越来越大，甚至是人工智能在策略空间中搜索所有可能性的局限性。

Quant 3.0

深度学习技术在计算机视觉和自然语言处理等许多领域取得了成功，随着深度学习技术的迅猛发展，Quant 3.0应运而生。

与Quant 2.0将更多的研究精力和人力投入到挖掘复杂的Alpha因子上不同，Quant 3.0更注重深度学习建模。在使用相对简单的因子下，深度学习仍然有潜力通过其强大的端到端学习能力和灵活的模型拟合能力，学习出一个表现与Quant2.0一样好的预测模型。在Quant 3.0中，Alpha挖掘的人力成本至少部分被算力成本所取代，特别是对于昂贵的GPU服务器。但总的来说，从长远来看，这是一种更有效的量化研究方式。

尽管Quant 3.0在高频股票和期货交易等策略场景中已经证明了它的成功，但它有三个主要局限性：

1、一般来说，构建一个好用的深度学习模型是非常耗时的。这其中包括繁重的网络架构设计和模型超参数调优工作，以及非常耗时耗力的交易端模型部署和维护工作。

2、解释一个深度学习模型是一个挑战，这对于那些非常关心金融市场机制并希望知道盈亏来源的投资者和研究人员来说非常不友好。

3、深度学习需要大量的数据，因此于该模式只适用于高频交易或至少具有大广度的中等频率的横截面alpha策略。这种现象阻碍了深度学习技术在低频率投资场景中的应用，如价值投资、基本面CTA和全球宏观策略。

Quant 4.0

新一代量化技术“Quant 4.0”融合了最先进的自动化AI、可解释AI、知识驱动AI，正在践行“端到端全流程AI”和“AI creates AI”的理念，勾勒量化行业的新前景。

1、自动化AI：旨在为量化研究和交易构建端到端的自动化，以大幅降低量化研究的劳动力和时间成本，包括数据预处理、特征工程、模型构建和模型部署，并大幅提高研发的效率和可持续性。特别是，我们引入了最先进的自动化技术，使整个策略开发流程中的每个模块自动化。因此，我们提出将传统的手工建模转变为“算法生成算法，模型生成模型”的自动化建模工作流程，最终走向“AI创造AI”的技术理念。除了AI自动化，另一个重要的任务是使AI更加透明，这对投资风险管理至关重要。

2、可解释AI：通常缩写为XAI，试图打开封装深度学习模型的黑匣子。纯粹的黑盒模型对于量化研究是不安全的，因为人们不能准确地校准风险。例如，在黑箱模型下，很难知道收益来自哪里，是否依赖于某种市场风格，以及特定下跌的原因是什么。越来越多的XAI领域的新技术可以应用于量化分析，以提高机器学习建模的透明度，因此我们建议量化研究人员更多地关注XAI。我们必须注意到，提高模型的可解释性是有代价的。下图显示了一个不可能三角:通用性、准确性和可解释性。假设我们在模型中提供更多的先验知识或领域经验，这相当于减少了通用性，以同时保护准确性和可解释性的性能。

3、知识驱动型AI：不同于数据驱动型AI，数据驱动型AI严重依赖于大量数据样本，因此适用于高频交易或股票横截面交易等大广度的投资策略。知识驱动的AI是对数据驱动的AI技术（如深度学习）的重要补充。本文引入知识图，用实体和关系组成的网络结构表示知识，用语义三元组存储知识。利用符号推理和神经推理技术，可以分析和推断金融行为和事件的知识图谱，以便进行投资决策。这意味着潜在的应用于那些交易频率低，但在收集和分析的基本信息集中的投资场景，包括价值投资和全球宏观投资。

自动化AI：什么需要自动化？怎么进行自动化？

▌传统的量化研究流程

下图蓝色部分为传统量化研究的流程，其中包括数据预处理、因子挖掘、建模、组合优化、执行及风险分析。

1、数据预处理

数据预处理通常是量化研究的第一步。原始数据可能存在许多问题。最常见的就是数据缺失的问题。虽然传统的方法可以用来估计和填补缺失的记录，但我们必须避免在输入过程中使用未来的信息。其次，金融数据包含极端值和异常值，这些异常值可能来自错误记录、数据存储问题、数据传输问题或极端市场，这些异常值可能导致投资决策中的风险偏差。异常值可以通过数据winsorization方法消除，该方法将极值限制在一定的每百分位数范围内，但我们必须注意到，一些异常值实际上是量化交易的强烈信号，而不是噪声，并且必须在数据预处理期间将两者区分开来。第三，许多金融数据，如新闻事件数据，数据覆盖率低，更新频率不规律。第四，不同的数据特征在取值范围上有很大的差异，因此在建模中一些“大”的特征可能会支配“小”的特征。

因此，采用数据标准化方法对特征范围进行规范化。为了减少信息的丢失，我们必须注意标准化数据的方法。

2、因子挖掘

因子挖掘是特征工程的一项任务，它使用金融和经济领域的知识从原始数据中设计、搜索或提取因子。通常，一个较大的因子值表示一个更重要的交易信号。因子挖掘的动机是从原始数据中发现市场预测的信号，提高下游建模任务的质量。传统上，因子可以用公式或基于规则的表达式来表示。

传统上，因子挖掘是一项劳动密集型的工作。大多数量化研究人员一年只能发现有限数量的“好”因子。不同的金融机构对“好”因子的定义或标准不同，但大多数都考虑几个共同的方面，如收益率、夏普比率、最大回撤率、换手率以及与其他因子的相关性，而且有些机构要求这些因子必须具有经济学意义、可理解和可解释。

3、建模

建模是指使用因子构建统计或机器学习模型并预测市场趋势、资产价格变动、最佳交易时间或最有/最没有价值的资产的任务。模型的选择必须考虑许多因素，如预测精度、模型可解释性、模型鲁棒性和计算复杂性，并根据最终目标找到最佳方案。特别是，我们必须注意到，大多数统计或机器学习模型并不是专门为金融时间序列开发的，我们必须调整这些模型在量化建模中的应用。首先，金融时间序列预测必须避免使用未来信息，因此我们更倾向于前向验证（随着时间的推移将时间序列分成训练、验证和测试块），而不是模型超参数优化中的交叉验证。

其次，金融时间序列通常是非平稳的，与许多机器学习模型所要求的独立和同分布(i.i.d)假设相去甚远。因此，需要进行数据转换，使数据分布更接近i.i.d.，如果可能的话，看起来更像正态分布。第三，市场风格随时间变化，导致金融时间序列分布的变化。因此，为了使模型适应市场风格的变化，定期对模型进行再训练是必要的。

4、组合优化

组合优化的目的是寻找最优的资产配置，获得更高收益和更低风险。预测模型告诉我们买什么或什么时候买/卖，而投资组合优化则指定买/卖多少。一个典型的投资组合优化器试图解决一个约束凸二次规划问题，该问题是由马科维茨的有效前沿理论扩展而来的。该优化问题的关键是如何估计波动率矩阵，当历史数据不够长时，波动矩阵的估计通常是不稳定的，在这种情况下，正则化和因子化等降维技巧有助于提高估计的鲁棒性。

5、订单执行

订单执行是一项以最优价格和最小市场影响买卖订单的任务。通常一次买入（或卖出）一大笔订单会将目标资产的价格推向不利的方向（市场受到这一大笔订单的影响），从而增加交易成本。一个广泛使用的解决方案是订单分割，将一个大订单分成许多小订单，以减少市场影响。从最简单的时间加权平均价格（TWAP）和成交量加权平均价格（VWAP）到复杂的强化学习方法，算法交易提供了一系列的数学工具来分割订单，其中最优订单流被建模为一个（部分可观察的）马尔可夫决策过程。

6、风险分析

风险分析是量化研究和量化交易不可缺少的一项任务。为了更好地控制量化研究和交易中不必要的和有害的风险，我们必须发现和理解每一个可能的风险暴露。在监控模块中，风险被实时测量，以帮助量化研究人员改进他们的策略。股票交易中最流行的风险模型是BARRA模型，该模型将投资组合的波动性分解为多个预定义风险因子的敞口，包括风格因子（规模、成长性、流动性等）和行业因子。然而，BARRA模型只能解释总波动率的30%左右，其余70%的风险仍然未知。

▌自动化的AI量化研究流程

Quant 4.0的自动化量化研究流程如上图（橙色部分）所示。在本节的以下部分中，我们将集中讨论自动化流程中的三个核心模块：

自动化因子挖掘

应用自动化特征工程技术来搜索和评估由元因素产生的重要金融因素。我们将介绍流行的搜索算法，并演示如何设计算法工作流程。量化研究中的特征工程是指从原始数据中提取因子的过程，由于其固有的噪声，很难对其进行有效的模式识别。

传统上，具有显著“Alpha”的因子是由量化研究人员人工探索和开发的，他们依赖于专业领域的专业知识和对金融市场的全面了解。虽然一些金融机构开始使用随机搜索或通用编程算法，但这些技术主要用作小型辅助工具，以帮助提高量化研究人员的生产力。

在Quant4.0中，我们提出将特征工程作为一个搜索问题，并利用相应的算法生成具有令人满意的大规模回测性能的因子，从而实现因子挖掘过程的自动化。特别是，根据它们的表达形式，我们将因子分类为：

符号因子，它们是符号方程或符号规则

符号因子挖掘可以看作是符号回归的一个特例。传统的符号回归算法通常从给定的操作数和运算符中生成大量的符号表达式，并选择使预定目标函数最大化的符号表达式。下图为一个自动符号因子挖掘的框架，它由四个核心部分组成：操作数空间、运算符空间、搜索算法和评估准则。

1、操作数空间

操作空间定义了哪些元因子可以用于因子挖掘。元因子是因子构建的基本组成部分。典型的元因子包括基本的价格和成交量信息、行业分类、从限价/订单中提取的基本特征、常见的技术指标、分析师的基本统计数据、财务报告中的重要信号、上市公司的公告和其他研究报告、投资者情绪的情绪信号。

2、算子空间

算子空间定义了哪些算子可以在因子挖掘过程中使用。例如，在横截面选股中，操作者可分为构建符号因子的主算子和标准化不同交易环境下因子的后处理算子。主算子可进一步分类为元素级算子（element-wise operator），如()和log()；时间序列运算符，如ts_rank()和ts_mean()，分别计算每只股票的排名顺序和平均值；横截面运算符，如rank()和quantile()，在特定交易时间沿横截面计算排名和分位数；分组运算符，如group_rank()，分别计算每组（例如，行业或部门）的排名顺序。后处理操作符用于“微调”生成的因子。典型的后处理算子有标准化算子，如用于异常值处理的winsorization算子和用于统一数据量纲的归一化算子，以及用于风险中性化的算子，用于限制选股范围的分组算子，以及用于控制换手率以降低交易成本的衰减算子。

3、搜索算法

搜索算法的目的是尽可能高效地搜索和发现有效或合格的因子。生成新因子的一种简单方法是蒙特卡罗(MC)算法，该算法在操作数和操作符空间中随机选取元素，递归地生成符号表达式树。不幸的是，搜索时间可能会随着生成公式的长度和复杂性呈指数增长，并迫使我们考虑更有效的替代方案。第一种选择是马尔可夫链蒙特卡罗（Markov-chain Monte Carlo, MCMC）算法，该算法从后验分布中以重要方式生成采样因子，因此比MC效率更高。第二种选择是遗传规划，它是一种特殊的用于采样和优化树型数据的进化算法。第三种选择是基于梯度的方法，如神经网络，它用连续的非线性函数近似离散的符号公式，沿着梯度方向搜索，比随机搜索效率高得多。

4、评估标准

评估标准衡量的是因子的质量。利用回测对所生成因子进行了评价。典型的评价标准包括信息系数(IC)、基于信息系数的信息比率(ICIR)、年化收益率、最大回收量、夏普比率和换手率。此外，通过过滤掉与其他因子高度相关的冗余因素，保持因子之间信息的多样性是非常重要的。

由神经网络表示的机器学习因子

符号因子具有简单易懂的优点，在实践中得到了广泛的应用。然而，它们的表示能力受到操作数和操作符的限制。另一方面，机器学习因子在表示上更灵活，以适应更复杂的非线性关系，因此它们有可能在市场预测中表现得更好。特别是，挖掘机器学习因子是一个拟合神经网络的过程，其中梯度为快速搜索解决方案提供了最佳方向。

机器学习因子也有一些局限性。首先，由于机器学习的黑箱性质，它们通常很难解释和理解。其次，神经网络的梯度搜索可能会卡在局部最优点，导致模型不稳定问题。最后，神经网络由于其灵活性可能会遭受更严重的过拟合，并且由于数据具有极大的噪声，这种情况在量化中会变得更糟。

▌自动化建模

在本文中，我们关注最先进的深度学习自动化问题，将AutoML技术应用于发现最优深度学习模型，自动选择最合适的模型和最优模型结构，并调整最佳超参数。由于建模中的端到端特性和网络架构问题，该问题更加复杂。深度学习模型的配置包括架构、超参数和目标三部分，它们共同决定了模型的最终性能。传统上，这些配置是手动调优的。在Quant4.0中，它们使用各种AutoML算法进行搜索和优化。一个标准的AutoML系统需要回答以下三个问题：搜索什么（即搜索空间），如何搜索（即搜索算法），以及为什么要搜索（即性能评估）。

搜索空间

1、网络结构。例如，多层感知器的结构由隐藏层的数量和每层神经元的数量来决定。卷积神经网络的结构需要考虑更多的配置，如卷积核的数目、卷积核的步长等。像Transformer这样的大型模型的体系结构是由许多预定义的块（例如自关注块、残差块）链接在一起组成的。如上所述，体系结构是复杂的，并且可能具有不同规模的层次结构。因此,搜索空间可以在不同的粒度上定义，范围从低级运算符（如卷积和注意力）到高级模块（如LSTM单元）。早期的搜索算法在最细的粒度上运行，并优化神经网络的低级结构。这种搜索过程在网络结构上具有灵活性，但在整合先验知识和抽象方面效率低下。一种解决方案是在网络体系结构中采用分层结构。具体来说，在高层次上，网络被设计成一个单元图，每个单元都是一个子网。为了降低计算成本，许多单元在较低的水平上共享相同的内部结构。

2、超参数控制整个训练过程。例如，学习率决定了向损失函数的最小值移动的步长。学习率越小，求解越准确，但收敛速度越慢。批大小决定了梯度估计中每批涉及的样本数量，也影响着训练的效率和稳定性。超参数的搜索空间比架构的搜索空间更简单，因为大多数超参数是连续的（例如，学习率）或近似连续的值（例如，批大小）。

3、损失函数。是机器学习模型的关键组成部分，因为它提供了一个模型应该训练的目标。除了均方损失和交叉熵损失等经典损失函数外，还可以选择专门为量化任务设计的新损失函数。例如，可以在搜索空间中考虑不同持有时间窗口的价格上涨/下跌或未来回报。

搜索算法

给定搜索空间，我们可以使用搜索算法来找到最佳的模型配置。表2列出了各种类型的搜索算法及其相应的任务：网络架构搜索(NAS)、超参数优化(HPO)[83]和训练目标选择(TOS)。

一键式部署

构建一个自动化的工作流程，在计算能力有限的交易服务器上部署训练有素的大型模型。它自动执行模型压缩、任务调度和模型并行化，为繁琐的“脏”工作节省了大量的人力和时间。模型部署是将开发好的模型从线下研究转移到线上交易的任务。它不仅仅是简单的代码和数据的传递，还包括数据和因子依赖的同步，交易服务器和系统的适配，模型推理的调试，计算延迟的测试等。

模型部署中的一个重要问题：如何加速高频交易和算法交易场景下的深度学习推理。我们提出了一种自动化的一键部署解决方案，利用模型编译和模型压缩等技术来实现推理加速。前者在不改变模型本身的情况下使推理更快，后者寻求更小、更轻的替代模型来节省推理时间。

---

Quant 4.0

这是一个新的时代

这是一个可以超越的时代

关于AI可解释及知识驱动型AI在量化研究的内容，我们下篇再分享，敬请期待~

欢迎留言讨论 - 你们公司的量化研究处在哪个时代？

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章