J.P. Morgan：AI for Investing（脱水解读）

2022-09-15 10:09

量化投资与机器学习微信公众号，是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者，荣获2021年度AMMA优秀品牌力、优秀洞察力大奖，连续2年被腾讯云+社区评选为“年度最佳作者”。

2022世界人工智能大会于2022年9月1日至3日在上海举办。世界人工智能大会自2018年以来，已成功举办四届。2022世界人工智能大会由国家发展和改革委员会、科学技术部、工业和信息化部、国家互联网信息办公室、中国科学院、中国工程院和上海市人民政府共同主办。

作为本届世界人工智能大会承办单位之一，数库科技于9月3日下午举办以“数无疆·智无界”主题分论坛，J.P. Morgan亚太地区量化策略负责人Robert Smith先生发表了题为《Big Data and AI Strategies：AI for Investing》的主题演讲，Robert Smith分别从以下三个应用领域：信号生成、风险、最优化为大家介绍了如何运用人工智能进行投资。

Robert Smith先生进行远程主题演讲

以下QIML为大家独家整理的演讲实录精编！

为什么投资要用人工智能？

最简单的回答，是因为能够使用大数据。大数据在过去5-10年中为我们量化方法的带来了巨大的性能上的提升，也让我们在策略上取得了巨大的进步。我们通过解锁如此海量的数据

获取大量有效信号，当前我们恰好身处一个大数据比以往任何时候都更容易获取的时代，数据在我们的手机上、在云上它无处不在，而且它是一种更有条理，更紧凑的形式，也更容易传输。因此，当前人工智能技术起飞的另一个原因，就在于数据的可得性提高了。在下图中我们可以看到的最后一件事是：人工智能使用的模型的复杂性要大得多，在大数据领域，模型的复杂性往往与更好的模型表现是正相关的。

在这里，X轴表示训练数据规模，Y轴表示模型表现。事实证明，如果模型具有足够的复杂性，那么你在训练中使用的数据越多，模型表现就越好，这就是我们在右边展示的内容。换一种说法，如果你使用线性回归，可能是最简单的统计优化模型之一，在达到一定数据规模后，你的模型表现可能会达到顶峰。但事实并非如此，当你在神经网络上运用深度学习时

这些更复杂模型的非线性性质，能够帮助你获得更多性能。随着你添加的数据越来越多，你能够从模型中提取更多的性能。所以，正如我已经说过的，数据至关重要！

什么是大数据？

在很多人的直观理解中，大数据中的这个“大”字，代表数据的容量很大。其实大数据的特征，包括了三个V：

即容量（Volume）
速度（Velocity）
多样性（Variety）

容量（Volume）是三大特征中的一个；速度（Velocity）是另一种重要特征，它代表了数据进入和到达你面前的速度；第三大特征是数据的多样性。

它的结构有多少种不同的形式？是结构化的还是非结构化的？我们希望能够实时地理解这些信息，以便能够将其应用到投资中。我习惯把数据分为三类：

第一类是个人的数据
第二类是企业的数据
第三类是来自传感器的数据

个人的数据，举例来说，可以从社交媒体中获得；企业数据可能包括销售数据，销售产品评论，或交易数据等；传感器数据可能是来自卫星图像的数据。在任何情况下，我们要做的是试图将这些数据纳入我们的投资过程，我们真正要做的，是跑在传统数据的前面。

今天我要谈的就是如何运用人工智能进行投资，并且我会从以下三个应用领域来介绍：

信号生成
风险
最优化

如何建立人工智能信号来告诉我们哪个资产。例如股票中，我们最喜欢哪支股票，一旦我们有了所有股票的信号，我们就可以对它们进行排名，我们可以看看我们最喜欢哪支股票。

但于此同时我们会考虑风险，比如我们的投资组合有多大的风险、我们希望它有多大的波动性、什么样的宏观事件是我们可能希望避免的等等。在投资组合中，哪些股票特有的风险也许是我们可以最大限度地降低的，这就是在风险方面的考量。最后，最优化是至关重要的。

我们的交易额是多少、交易成本和市场影响又是多少等等。因此当我们使用人工智能时，我们确实需要使这一过程更加高效，现在让我们在旧数据上使用新技术来创建信号，同时我们也在新数据上使用旧技术。

当我们谈论人工智能时，我们通常使用的是大数据和机器学习的技术来打造更好更稳健的量化策略。以上就是关于这个主题的概述，接下来，我们聊聊信号生成。

信号生成

举两个例子，一个例子是关于使用自然语言处理来阅读文本来建立投资组合和进行交易，它们是如何跑在传统数据前面的。

在我们开始之前，先来看看机器是如何投资主题的。

首先，机器必须以一种它可以理解并且我们可以与之交互的格式来表示词语和概念。如果你回到20年，30年，甚至40年前，自然语言处理的原始方法就是使用这样的语料库。

例如，如果我想表示西班牙，在四个单词的字典中，西班牙的编码可能是0100，这是一个矢量编码，不是很简单，但也不是很有用，因为它做不了什么。更有趣的是，当我可以开始创建词语之间的关系时，它为我提供不同词语如何相互作用的丰富性。例如，马德里之于西班牙就像巴黎之于法国。机器学习的这些维度是相当模糊的，它们可能与大陆、国家或城市有关，这些词语中的每一个，都在这一维度上有所指示，但我们并不真正知道，也不真正关心，因为我们真正感兴趣的是：这些词语相互定位的方式，然后我们可以对模型进行一些有趣的询问，我们可以问它问题，西班牙减去马德里再加上巴黎是什么？答案是：法国。

这是一个相当简单的例子，关于首都城市和国家的，但当你训练机器去阅读股票报告和电话会议记录时它会变得更好，更有趣。然后它可以帮助我们建立对这些公司之间关系的理解，我们可以用它来探索供应链和同行竞争对手，以及一切我们能够在模型中找到的不同公司和股票之间各种有趣的联系。

这带来了一个重要的观点，或者说我想真正强调的观点：你喂给机器什么材料来学习是最重要的一件事！

如果你希望拥有一个人工智能，希望它能够在金融领域进行思考、推理或者使用逻辑，那么你就应该喂给它金融相关的文本。作为它的学习材料，在我们的案例中，我们使用了J. P. Morgan分析师撰写的报告，这些报告都是10多年以前的，我们有100多万份报告，我们可以训练机器对观点进行分类，并对金融词汇和用语进行总结。

这一过程是完全专注在金融领域的，因此我希望英语中的“driver”一词，指的是催化剂或推动股价的驱动因素，而不希望它是指汽车司机，我不想让它代表与运输相关的任何含义，关于一个词语的意义。人工智能对于它的涵义可能产生相当不同的结果，而这取决于我们喂给机器什么样的学习材料。另一个经典的例子就是“超重”这个词，如果我问机器，它认为有哪些词语应该与“overweight”这个词联系在一起。在阅读了J. P. Morgan的报告后，AI返回的结果是：它将与“看涨”、“累积”和“做多股票”等词语联系起来，然而，如果是在新闻或者非金融的语境中“overweight”则更可能与“肥胖”或体重相关的词汇关联，通常是指体重过重，而这不是我们想要的。因此，我们希望能够训练和使用我们的机器，我们必须提供给它正确的信息。

在这里我们可以有一个结论：就是有时我们会发现人工智能学得很差，甚至学错了，这通常是数据的问题，要么没有足够的数据，要么不够多样化。所以实际上没有足够的数据可供机器恰当地学习。

有个很好的例子，是关于词语“strong”和“weak”。我们知道它们一对反义词，但如果它只是阅读分析师报告，一位分析师写一家公司取得了“strong”的业绩，另一个分析师写另一家公司取得了“weak”的业绩，这并不足以让机器知道“strong”和“weak”是两个含义不同的词语。所以我们能做的我称之为脑外科手术，你可以将信息注入人工智能学习的语言模型。例如，在二维空间中我们有这样一个问题，所有这些词语都被归为一类。第三个维度中，“strong”和“weak”不应该被分在一起，我们可以注入一些元数据将这些词语很好地分为正面词语和负面词语，重要的是你要找到正确的元数据。在我们的案例中，我们可以问这样一个问题：“strong”这个词在我们的看涨报告和看跌报告中分别出现了多少次？“weak”这个词在看涨和看跌报告中分别出现了多少次？这可能是一个简单的例子，你可以注入一个新的维度，瞬间你就有了一个更强大的模型。我们还可以注入其他维度，如关于一个词语的新近性，一个主题如何随着时间的推移而演变。现在我们已经讲了如何帮助机器去分析一个数据集的基础要点，接下来我们来谈谈如何使用自然语言处理技术。

如何使用人工智能进行主题投资？

有一件事需要提一下，不是所有的主题都是一样的。有一些主题我们认为是结构性主题，如ESG、无人驾驶汽车、加密货币等主题。但更多的是战术性主题，如关于通胀、利润率或供应链问题的主题。我们需要用不同的方式来处理这两类主题，围绕这些主题的一个重要信息是情绪，提到它的文本是什么情绪，是积极的还是消极的，这一点我们后面马上会展开讲。如果我们通过一段时间追踪一个主题，我们可以观察到一些信息，相对于历史，它的未来趋势如何、噪音、新闻、信息量有多大等。

左图是关于通货膨胀的主题，你可以看到在过去的一年里，特别是过去的6个月里，关于通货膨胀的新闻大幅增加。同样在右图，我们有关于经济衰退的主题也出现了上升。但奇怪的是，它没有达到2020年二季度那么高的水平，新冠疫情开始成为一个全球普遍关注的大事件，当时市场上有很多关于经济衰退的恐慌，我们可以追踪这些信息了解事情是如何发展的。

围绕一个特定的主题，新闻是如何发展演化的这是非常有意思的。我们不只是想追踪“通货膨胀”或“经济衰退”这两个词，我们想要对这些主题建立起层次结构。

我们可以看右图，在棕色部分的中间，我们有“通货膨胀”这个词，同时我们也知道，我们应该关注诸如“成本增加”“成本压力”、“通胀压力”之类的词语，所有这些词的意思都类似于通胀。我们需要跟踪所有这些词语，因此我们的模型就变得非常重要，因为它通过阅读一大堆研究报告来学习这些词语并且记录词语来源，从而让我们更完整地跟踪主题。

我们有自己的一套文本跟踪引擎，叫做：Smart Buzz。我们所做的就是看看这些主题是如何出现在新闻中或电话会议记录文本中甚至分析师报告和社交媒体中。我们可以找到在主题附近提到的股票，或者在其附近可能会提到的股票或公司，然后我们试着去衡量情绪。例如，围绕这一主题，这支股票是否是以积极的方式被提及的，所有这一切的最终结果是我们可以通过分析新闻中的这些词语、股票和情绪，选到抗通胀的股票来进行投资。

我们还可以做一些非常有趣的主题关联和相关性检查，我们可以看到一个特定的主题与其他主题相比处在什么位置。在真实的模型中，我们大约有2到300个维度，甚至可能高达400个维度，这取决于我们想要做什么。在这里向大家展示的只是二维的模型，我们选取一些比较明确的主题并向你展示这些主题是如何在二维空间中定位的。很有意思的一个点是，一些主题可能会在一些地方重叠，例如“股息”这一主题与“支出”有关，而“支出”与“回购”有关。这种交叉主题聚类就在这里发生了。我们看到“芯片短缺”和“供应链”主题在这里发生聚合，同时这又是“成本压力”，同时接近“通货膨胀”。

我们可以使用这些来检查模型的稳健性，同时也学习更多主题之前的关联性，这是一种不错的将人工智能高效运用于主题投资的方式。下图是一个简单的展示，一个非常简单的情绪模型是什么样的？情绪是我们多年来一直专注的一个研究领域，如今现成的情绪引擎都做得很好，但如何从零开始建立情感引擎？你可能会问，可能只是一个简单的回归模型来阅读一系列报告，看看分析师可能使用的最积极的词是什么。我们让我们的引擎阅读了我之前提到的数百万份报告，结果显示，有一个词用来描述任何资产的最积极的词是“attractive”。如果你愿意，你可以建立一个只有一个参数的非常基本的情感引擎，用它来寻找“attractive”这个词。如果它找到了这个词，就标记“1”，如果它找不到这个词，就标记为“0”或负数，

从本质上讲这就是最简单的版本，我认为很有趣的原因，在于你可以从这一点看到，如何让模型增长和构建复杂性，会有更多词语、短语来表示不同程度的积极性而不仅仅是“1”和“0”。你也可以看看这个词的上下文，周围的词是什么，上下文如何改变它的意义，然后你可以研究短语，n元语法和三元语法，你可以构建很多复杂的模型，情绪模型就是这么一步步发展起来的。

你有了情绪之后你就可以做很多事，你可以通过考察新闻的正负面情绪来进行交易，同时还要考虑一些相关性问题与你想交易的股票或主题相关的文章，你可以以日度的频率来看买入那些与更好的新闻文章相关的股票，不买那些与负面新闻文章相关的股票。

你可以在新闻上这样做，你也可以在电话会议记录上这样做，当某支股票举办收益电话会议并公布这些文字记录时，我们也可以检查围绕这些文字记录的情绪，我们可以看到这里有一个价差，如果我买了正面电话记录的股票，这里的绿线是我们在未来10天可能得到的股价，但如果我们买了负面电话记录的股票，我们可能会在接下来的10天里得到红线所示的股价，这种价差是很有价值的。这些都是我们可以使用情绪模型可以去做的有意思的事情，不仅仅是文章或者文字记录，还可以按主题对文字进行切片，这是我们工作的一大部分。

在这一部分的最后，我们再聊聊自建还是购买。现在市面上你可以获得很多做得非常好的自然语言处理引擎，无论是用于研究还是商业应用，我想说的是，它们正在接近人类大脑在参数数量方面的复杂性，而且它们在预测情绪，预测下一个单词或总结语言等方面的能力上表现水平超过人类，它们变得非常强大。因此当你在尝试构建自然语言处理引擎时，一定要看看现成的解决方案。我刚刚讲了很多关于使用机器，使用人工智能来处理文本、新闻和语言。因为这是我们投资过程中非常重要的领域。

与此同时，我们还追踪了大量另类数据，我们之前公布过我们做过分类和标注的数据集的数量，我们按资产类别和行业对数据集进行分类。共同点是当我们想要生成一些预测性的信号时，我们最好有一个目录可供查看。因为最终，我们使用另类数据的目的，都是为了比传统数据提前从而能够更好预测一些通常会影响价格的传统数据。

举几个例子。我们可能想要通过另类数据来领先传统数据，我们想要使用航运、电力、天气、网站流量数据，我们想用它们来提前预测报表中的数据，资产负债表、损益表、现金流量表。

一个简单的例子。我们使用Twitter来查看公众对一些游戏的兴趣从而在获得最终销售数据之前预测销售信息，因为销售数据将影响我们对特定股票的质量计算质量计算股票，也将影响我们买或者不买这支股票的信号，这就是另类数据试图领先传统数据的例子。

另一种领先传统数据的方法是结合宏观经济活动数据。这是新冠期间的数据，我们将所有这些不同的信号和宏观数据序列放到一起，通过把它们有条理有逻辑地结合起来，通过消费业务数据，甚至一些情绪信号来跟踪整体经济活动水平。这对我们来说很重要，因为我们想知道我们处于什么位置，从起点走了多远。如果说2020第一个季度（这条黑线）刚好在零的位置，之后就是从悬崖上掉下来，再恢复，然后有一个不稳定的时期，直到2021年上半年，我们才真正走上复苏的道路，那个时候我们基于另类数据的宏观信号稳定水平超过了我们的起始水平。这只是非常简单的例子，但这个想法是我们能够结合不同的数据，也许可以提前了解市场可能的情况或者思考市场下一步的走向。在这个例子中这种另类数据试图提前预测新冠恢复的情况。

接下来我们来谈谈风险。

风险

在投资辅助上，风险是非常好的人工智能的应用领域，因为人工智能在发现关系方面的表现很棒，甚至可能好于预测下一个重大资产移动的表现。

因此，如果我想投资亚洲股票，比如我想买两支股票，并且我已经有了一些很好的股票可供选择，我认为不要把所有的鸡蛋放在一个篮子里。这句格言同样适用于机器世界，机器可以准确地告诉我们这些篮子是什么，通过查看一些相关性甚至因果关系我们可以建立这些生成树并实际确定目标投资的篮子，在这两支股票的例子中，我不想把它们放在同一个篮子里，我希望在这里买点，再在那里买点，或者在下面买一点。

实际上，我想分散风险。同样的格言也适用，不要把所有的鸡蛋放在一个篮子里。事实上真正巧妙的是，有时机器可以识别一些可能不那么明显的联系，因此我会想在这里买点，在那里买点，再从下面的消费必需品中买点，再在上面的公用事业中买点，但我可能并不知道印度的材料与新加坡的金融相关，所以也许我不想从这里买股票，也不想从这里买股票，我想再次分散风险。我们可以运用我们这些关系树中发现的结构来避免风险加倍。

另一个例子是，我们可以使用机器来帮助我们识别股票的零售交易额，通过查看贸易数据本身，我们可以确定哪些是受欢迎的零售股。零售股往往是有风险的，特别是当你做空头交易时，因为它们有极端的反弹和波动，但我们可以使用一种简洁而优雅的人工智能方法来有效地计算出这些零售股和零售持股量变动趋势，甚至不需要使用交易数据，这通常会是一些极端回报的投资组合，零售投资者对此会很感兴趣。同时也会是一些低价股，在美国被称为subpenny，这些股票是以低于一美元的价格交易的，这些都是我们可以用来识别可能是零售交易的迹象，并在交易对我们非常不利的时候，避免任何形式的风险。

现在我们来谈谈人工智能在投资中受到如此欢迎的最后一个原因。

人工智能在最优化中的应用

最优化是这里三角形的一部分，在量化研究中显然是非常重要的。但它通常受到的重视程度不及信号生成，无论如何，我想说的是，这可能是机器最能提供帮助的地方。

具有讽刺意味的是，我将讨论交易时机的概念，然后再次使用机器学习来构建投资组合。事实证明，机器学习模型生成的许多信号都相对较快。我们回到大数据三个特征，体积、速度和多样性。有这么多的数据，并且在持续变化中，也许是它通过下一组数据来看世界的方式。机器学习信号的人工智能正在迅速改变，如果你只是根据信号交易，而没有任何限制，成本会很高，它会带来高交易额和高交易成本，所以一个很大的研究领域，是我们如何建立一个综合性的系统，去使用人工智能进行最佳交易，而不是仅仅不计成本地做大交易额。

想象右图这个装着蓝点的大圆圈就是机会区域，而我的投资过程就是中间这个较小的圆圈，这就是我想买的东西，这是我们通常的做法，但如果我让机器学习或人工智能机制在我想买的这个小空间内工作，告诉我买什么，什么时候买。如果我得到了绿点，我就会更快地买下它们，如果我遇到红点，我就以后再买。实际上我可以很大程度改善和提高我的夏普比，我不会因此提高交易额，因此你还是可以根据你的传统策略来行事，只是由人工智能决定时机。这是一个非常好的组合。我们非常多地使用它来引入人工智能信号，而不增加交易额。

最后，我想再提一下这个想法。我们可以在数据中找到非常简洁的结构，它可以真正帮助在信号和风险之间找到最佳平衡。在左边，我们有一个传统的相关矩阵，如果有50支股票，我们可以用成对相关矩阵的形式来衡量每支股票之间的相关性。现在假设你想买这个列表中的两支股票，你可以选一个信号很好的，你买的下一支股票你希望有一个很好的信号，同时你也希望它与第一支股票的相关性很低，你会倾向于选择那些处于蓝色的股票。

现在我们可以再次使用一些聚类机制，一些机器学习可以很容易地对此进行聚类并建立两个不同的聚类，红色和绿色。我的决定变得容易多了，现在我需要更有效地分配风险，我可以从红色和绿色中各买一个。这很简单，它可以变得更加复杂，因为我可以进入这些叶节点，非常小的区域，我可以不断添加更多的股票，同时我可以非常肯定我能做到更加多样化，这就是关键。

事实上，如果你对此进行系统性的测试，你会发现，我们可以通过使用不同机器学习方法中的集群来轻松击败简单的市场中性策略，我们可以通过分散投资和降低风险轻松击败并获得更好的夏普比率，以上就是关于最优化的内容。

最后

J. P. Morgan在这一领域持续耕耘，我们一直积极推进人工智能技术在投资中的应用，我们对于这一领域的发展方向深感激动。并且期待5年后它将给我们带来更多令人兴奋的成果！

记得当年，第一份报告（左图）的推出，轰动一时！

后台回复：JPMYYDS，即可获取该报告！

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章