ChatGPT 之后，下一代大型语言模型在哪里？

2023-02-20 13:02

OpenAI 首席执行官 Sam Altman（左）和 Meta AI 首席执行官 Yann LeCun（右）对未来有不同看法...

ChatGPT的爆火，让大语言模型受到了人们的关注，然而这些来自不同公司的大语言模型，像OpenAI的GPT-3、Google的PaLM或LaMDA、Meta的Galactica或OPT等，都是在相同的基本方式上构建的，都是基于Transformer构建的自回归、自我监督、预训练、密集激活模型。虽然各种大模型表现类似惊人的能力，但目前的人工智能远远没有到达其能力的终点。

那么未来大语言模型的出路在哪里？The Next Generation Of Large Language Models（下一代大语言模型）根据一些最新的研究结果提出了一些猜想。比如大模型可以产生训练数据来用于改善自己；大模型可以核查确认事实；海量稀疏专家模型等。该文由Radical Ventures的合伙人，同样也是You.com的投资者Rob Toews撰写，并发表在最近一期的福布斯杂志。

作者丨Rob Toews

本文转载自学术头条

也许您还没有听说过，人工智能是最热门的新事物。

如今，从硅谷到达沃斯，每一位风险投资家、企业家、财富《500》强首席执行官和记者都在谈论生成人工智能。

对于那些在 2022 年开始真正关注 AI 的人来说，他们认为像ChatGPT 和 Stable Diffusion 这样的技术似乎是凭空冒出来，席卷了全球。

早在 2020 年，我们就在本专栏写过一篇文章，预测生成式 AI 将成为下一代人工智能的支柱之一。

至少自2019 年GPT-2 发布以来，该领域的工作人员已经清楚，生成语言模型有望引发巨大的经济和社会变革。同样，虽然文本到图像模型去年夏天才引起公众的注意，但自 OpenAI 于 2021年1 月发布最初的DALL-E以来，该技术的优势似乎已经不可避免地。

出于同样的原因，重要的是要记住，人工智能的当前技术水平远未达到人工智能能力的最终状态。相反，人工智能领域的发展从未像现在这样快速。尽管 ChatGPT 目前在我们看来令人惊叹，但它只是下一步的垫脚石。

下一代大型语言模型 (LLMs) 会是什么样子？这个问题的答案已经存在，目前正在人工智能初创公司和研究小组的开发中。

本文重点介绍了三个新兴领域，它们将有助于定义生成式 AI 和 LLM 的下一波创新浪潮。对于那些希望在这个瞬息万变的世界中保持领先地位的人来说，请继续阅读：

可以自己生成训练数据

以提高自己的模型

想想人类是如何思考和学习的。我们从外部信息来源收集知识和观点——比如，通过阅读一本书。但我们也会通过思考一个话题或思考一个问题，自己产生新颖的想法和见解。我们能够通过内部反思和分析来加深对世界的理解，而不直接依赖于任何新的外部输入。

人工智能研究的一条新途径旨在使大型语言模型能够做类似的事情，有效地引导它们自己的智能。

作为他们培训的一部分，今天的 LLMs 吸收了世界上积累的大部分书面信息（例如，维基百科、书籍、新闻文章）。如果这些模型一旦经过训练，就可以使用它们从这些来源吸收的所有知识来生成新的书面内容，然后将这些内容用作额外的训练数据来改进自己，那会怎样？初步研究表明，这种方法可能可行且功能强大。

在最近的一项名为“大型语言模型可以自我改进”的研究工作中， Google 的一组研究人员构建了一个 LLM，它可以提出一组问题，为这些问题生成详细的答案，并过滤自己的答案以获取最高质量的输出，然后根据精选的答案进行自我微调。值得注意的是，这导致了各种语言任务最新的最先进的性能。例如，该模型在 GSM8K 上的性能从 74.2% 提高到 82.1%，在 DROP 上从78.2% 提高到 83.0%，这两个流行的标准用于评估LLM 性能。

最近的另一项工作建立在称为“指令微调”的重要 LLM 方法的基础上，它是ChatGPT 等产品的核心。ChatGPT 和其他指令微调模型依赖于人工编写的指令，而该研究小组构建了一个模型，可以生成自己的自然语言指令，然后根据这些指令进行自我微调。性能提升非常显著：这种方法将基础 GPT-3 模型的性能提高了 33%，几乎与 OpenAI 自己的指令调优模型的性能相当。

在一项与主题相关的工作中，来自谷歌和卡内基梅隆大学的研究人员表明，如果一个大型语言模型在遇到问题时，在回答之前先背诵它对该主题的了解，，它会提供更准确和复杂的回答。这可以粗略地类比为一个人在谈话中，他不会不是脱口而出关于某个话题的第一个想法，而是在分享观点之前搜索她的记忆并反思她的信念。

当人们第一次听说这方面的研究时，往往会产生一个概念上的异议——这难道不是循环的吗？模型如何生成数据，然后使用这些数据来改进自身？如果新数据首先来自模型，那么它包含的“知识”或“信号”不应该已经包含在模型中了吗？

如果我们将大型语言模型设想为数据库，存储训练数据中的信息，并在出现提示时以不同的组合再现这些信息，那么这种反对意见是有道理的。但是——尽管听起来让人不舒服，甚至令人毛骨悚然——我们最好还是按照人脑的思路来构想大型语言模型（不，这个类比当然不完美！）。

我们人类从世界上吸收了大量数据，这些数据以不可估量、无数的方式改变了我们大脑中的神经连接。通过反省、写作、交谈——有时只是睡个好觉——我们的大脑就能产生新的见解，这是我们以前从未有过的，也没有出现在世界上任何信息源中。如果我们将这些新的见解内化，它们可以让我们变得更聪明。

鉴于世界可能很快就会用完文本训练数据，LLM 可以生成自己的训练数据的想法尤为重要。这还不是一个广为人知的问题，但却是许多人工智能研究人员担心的问题。

据估计，全球可用文本数据的总存量在 4.6 万亿到 17.2 万亿个Token之间。这包括世界上所有的书籍、所有的科学论文、所有的新闻文章、所有的维基百科、所有公开可用的代码，以及互联网的大部分经过了质量过滤的内容（例如，网页、博客、社交媒体）。最近的另一项估计将总数定为 3.2 万亿Token。

DeepMind 的 Chinchilla 是当今领先的 LLMs之一，接受了 1.4 万亿个Token的训练。

换句话说，我们可能在一个数量级内，耗尽世界上所有有用的语言训练数据供应。

如果大型语言模型能够生成自己的训练数据，并使用它来继续自我改进，这可能会使迫在眉睫的数据短缺变得无关紧要。对于LLMs来说，这将代表一个令人费解的飞跃。

能够对自己进行核查的模型

最近流行的说法是，ChatGPT 和类似的对话式 LLMs 即将取代 Google 搜索，成为世界上最重要的信息来源，颠覆曾经强大的科技巨头，如 Blockbuster 或 Kodak。

这种叙述严重地将事情简单化了。今天存在的 LLM 永远不会取代 Google 搜索。为什么不？简而言之，就是因为今天的LLms在编造东西。

尽管它们很强大，但大型语言模型经常会产生不准确、误导或错误的信息（并自信且令人信服地呈现）。

ChatGPT 的“幻觉”（这些错误陈述被称为幻觉）的例子比比皆是。这并不是要针对 ChatGPT；目前存在的每一个生成语言模型都以类似的方式产生幻觉。

举几个例子：它推荐不存在的书；它坚持认为220 这个数字小于 200；不确定刺杀Abraham Lincoln’s的凶手在遇刺时是否与林肯在同一个大陆；它对 provides等概念提供了看似合理但不正确的解释。

大多数用户不会接受搜索引擎有时会把这些基本事实搞错；即使是 99% 的准确率也不足以让市场广泛采用。OpenAI 首席执行官 Sam Altman 本人也承认这一点，他最近警告说：“ChatGPT 非常有限，但在某些方面已经足够出色，足以给人一种伟大的误导性印象。现在依赖它来做任何重要的事情都是错误的。”

LLMs 的幻觉问题是否可以通过对现有架构的渐进式改进来解决，或者是否有必要对 AI 方法论进行更基本的范式转变以赋予 AI 常识和真正的理解，这是一个悬而未决的问题。深度学习先驱 Yann LeCun认为是后者。LeCun 的逆向观点可能被证明是正确的；时间会证明一切。

不过，在近期内，一组有前途的创新至少可以减轻 LLM 在事实上的不可靠性。这些新方法将为LLM在现实世界中部署准备方面发挥重要作用。

当前使语言模型更准确的工作的核心是两个相关的功能：(1) LLM 从外部来源检索信息的能力，以及 (2) LLM 为他们提供的信息提供参考和引用的能力。

ChatGPT 仅限于已经存储在其中的信息，在其静态权重中捕获。（这就是为什么它无法讨论 2021 年之后发生的事件，那时模型被训练。）能够从外部来源获取信息将使 LLM 能够访问最准确和最新的可用信息，即使当该信息经常变化时（例如，公司的股票价格）。

当然，能够访问外部信息源本身并不能保证 LLM 将检索到最准确和相关的信息。LLM 提高了人类用户的透明度和信任的一种重要方法是包括对他们从中检索信息的来源的引用。此类引用允许人类用户根据需要审核信息源，以便自己决定其可靠性。

该领域的重要早期工作包括REALM（来自 Google）和RAG（来自 Facebook）等模型，它们均于 2020 年发布。随着近几个月对话式 LLM 的兴起，该领域的研究正在迅速加速。

去年，OpenAI发布了一个名为 WebGPT的 GPT 模型的微调版本，可以使用 Microsoft Bing 浏览互联网，以便对提示提供更准确和深入的响应。WebGPT像人类一样浏览互联网：它可以向 Bing 提交搜索查询、跟踪链接、在网页上上下滚动，并使用 Ctrl+F 等功能查找术语。当模型在互联网上找到相关信息并将其合并到输出中时，它会提供引用，以便人类用户可以看到信息的来源。

结果是令人鼓舞的：对于相同的查询，WebGPT 的响应在 56% 的情况下优于人类受试者编写的响应，在 69% 的情况下优于 Reddit 上评分最高的响应。

DeepMind 也在沿着这些方向进行研究。几个月前，DeepMind 发布了一个名为Sparrow的新模型。与 ChatGPT 一样，Sparrow 也是基于对话的；与 WebGPT 一样，它可以在互联网上搜索信息并为其断言提供引用。Sparrow 建立在 DeepMind 早期的重要工作之上，包括SpaLM、RETRO和GopherCite。

DeepMind 的研究人员发现，Sparrow的引用在 78% 的情况下是有用且准确的——这表明这种研究方法很有前途，而 LLM 不准确的问题远未解决。

包括 You.com 和 Perplexity在内的年轻的初创公司最近也推出了 LLM 支持的对话搜索界面，能够从外部来源检索信息并引用参考文献。这些产品今天可供公众使用。

LLM最大的缺点是他们不可靠，他们固执地倾向于自信地提供不准确的信息。语言模型有望重塑我们经济的每个部门，但在这个问题得到解决之前，它们永远无法发挥其全部潜力。预计在未来几个月内，我们将会在该领域看到大量活动和创新。

海量稀疏专家模型

当今最著名的大型语言模型实际上都具有相同的架构。

Meta AI 负责人 Yann LeCun近日表示：“就底层技术而言，ChatGPT 并没有特别的创新。这不是革命性的，尽管这是公众对它的看法。只是，你知道，它被很好地组合在了一起，做得很好。”

LeCun 的声明在Twitter上引发了大量争议和辩论。但一个简单的事实是，他是正确的，任何严肃的人工智能研究人员都不会对此提出异议。

当今所有著名的语言模型——例如，来自OpenAI的GPT-3、来自Google的PaLM或LaMDA 、来自 Meta 的Galactica或OPT 、来自Nvidia/Microsoft 的Megatron-Turing、来自 AI21 Labs 的Jurassic-1——都是在相同的基本方式上构建的。它们是自回归、自我监督、预训练、密集激活的基于Transformer的模型。

可以肯定的是，这些模型之间存在差异：它们的大小（参数计数）、它们训练的数据、使用的优化算法、批量大小、隐藏层的数量、它们是否经过指令微调等等.这些变化可以转化为有意义的性能差异。不过，核心架构变化不大。

然而，一种有趣的不同的语言模型架构方法（称为稀疏专家模型）正在形成势头。虽然这个想法已经存在了几十年，但直到最近才重新出现，并开始流行起来。

上面提到的所有模型都是密集的。这意味着每次模型运行时，都会使用它的每一个参数。例如，每次您向 GPT-3 提交提示时，模型的所有 1750 亿个参数都会被激活以产生响应。

但是，如果一个模型能够仅调用其参数中最相关的子集来响应给定的查询呢？这是稀疏专家模型背后的基本概念。

稀疏模型的定义特征是，它们不会为给定输入激活所有参数，而是只激活那些有助于处理输入的参数。因此，模型稀疏性将模型的总参数计数与其计算要求分离开来。这导致了稀疏专家模型的关键优势：与密集模型相比，它们可以更大且计算要求更低。

为什么它们被称为稀疏专家模型？因为稀疏模型可以被认为是由充当不同主题专家的“子模型”的集合组成的。根据提供给模型的提示，模型中最相关的专家被激活，而其他专家保持不活动状态。例如，用俄语提出的提示只会激活模型中可以用俄语理解和回应的“专家”，从而有效地绕过模型的其余部分。

当今所有最大的 LLM 都是稀疏的。如果你遇到一个参数超过 1 万亿的 LLM，你可以放心地假设它是稀疏的。这包括谷歌的Switch Transformer（1.6万亿参数）、谷歌的GLaM（1.2 万亿参数）和 Meta 的mix of Experts模型（1.1 万亿参数）。

“AI 最近的大部分进展都来自于训练越来越大的模型，”Mikel Artetxe 说，他曾领导 Meta 对稀疏模型的研究，然后辞职与他人共同创立了一家秘密的 LLM 初创公司。“例如，GPT-3 比 GPT-2 大 100 倍以上。但是，当我们将密集模型的大小扩大一倍时，我们也会使其速度加倍。稀疏模型使我们能够在不增加运行时间的情况下训练更大的模型。”

最近对稀疏专家模型的研究表明，这种架构具有巨大的潜力。

谷歌去年开发的稀疏专家模型GLaM 比GPT-3 大 7 倍，训练所需能量减少三分之二，推理所需计算量减少一半，并且在广泛的自然语言方面优于 GPT-3。基于 Meta 的稀疏模型上进行的类似工作也产生了类似的有希望的结果。

正如 Meta 研究人员总结的那样：“我们发现稀疏模型可以在一小部分计算量上实现与密集模型相似的下游任务性能。对于计算预算相对适中的模型，稀疏模型的性能可与需要几乎四倍计算量的密集模型相提并论。”

值得一提的是，稀疏专家模型的另一个好处是：它们比密集模型更具可解释性。

可解释性——人类理解模型为什么采取它所做的行动的能力——是当今人工智能最大的弱点之一。总的来说，今天的神经网络是无法解释的“黑匣子”。这可能会限制它们在现实世界中的实用性，特别是在医疗保健等高风险环境中，人工审查很重要。

稀疏专家模型比传统模型更自然地具有可解释性，因为稀疏模型的输出是模型中可识别的、离散的参数子集的结果——即被激活的“专家”。事实上，人类可以更好地从稀疏模型中提取有关其行为的可理解的解释，这可能被证明是这些模型在实际应用中的决定性优势。

稀疏专家模型如今并未得到广泛使用。与密集模型相比，它们不太容易被理解，而且在技术上更复杂。然而，考虑到它们的潜在优势，尤其是它们的计算效率，看到稀疏专家体系架构在未来的 LLM 世界中变得更加普遍就不足为奇了。

用Graphcore 首席技术官 Simon Knowles 的话来说：“如果 AI 可以做很多事情，它就不需要访问所有知识来做一件事。这是显而易见的。这就是你的大脑的工作方式，也是人工智能应该的工作方式。如果到明年有人开始构建密集的语言模型，我会感到惊讶。”

更多内容，点击下方关注：

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章