关于大型语言模型的争论和局限

2023-06-07 06:06

以色列巴伊兰大学教授Yoav Goldberg分享了他对大型语言模型的能力和局限性的看法，以及在语言理解方面的立场。（以下内容经授权后由OneFlow编译发布，译文转载请联系OneFlow获得授权。原文：https://gist.github.com/yoavg/59d174608e92e845c8994ac2e234c8a9）

作者 | Yoav Goldberg

1 引言

大约在2014-2017年间，随着基于神经网络的自然语言处理（NLP）方法的兴起，人们开始围绕着完美语言建模能够达到人类智能水平这一主题展开研究。我当时做了一个半学术半科普的讲座。与此同时，在一个学术小组中，有人问了一个问题：如果拥有无限的计算能力并且不必担心劳动力成本，你会做什么？当时，我的回答是“我会训练一个超大型的语言模型，目的是证明算力并不能解决所有问题”。当然，我知道这种说法已经陈词滥调了，但是事实真的如此吗？这个观点该如何与我之前提到的“完美语言建模即智能”的故事相一致呢？

2 完美语言建模就是AI完备

我讲座的主题是“计算机理解语言”，重点探讨了Claude Shannon提出的“猜谜游戏”和语言建模。我开始从人工智能游戏入手，然后迅速转向Shannon于1951年发明的“另一种游戏”，即“猜下一个字母”。在游戏中，操作员在文本中选择一些文字，给出填空处，并隐藏结尾，玩家需要在最少的猜测次数中猜出第一个隐藏字母。

为了更好地说明游戏，我举了几个例子，这些例子涵盖了不同语言知识和理解水平（从形态学到不同层次的语法、语义、语用学和社会语言学）。结果表明，在游戏中，人们无需刻意练习就能表现出色，这导致他们无法进一步提升，因此他们认为这个游戏并没有多大意义。

然后我提到，相对于人类，计算机在这个游戏中的表现要差得多，但在训练计算机玩游戏的过程中，我们获取了很多隐含的语言知识。尽管在语言建模方面还有很长的路要走，但我们正在稳步前进，这也是目前机器翻译的工作模式！

我也指出计算机在这方面还不太擅长，这是可以理解的。原因在于这个游戏是“人工智能完备（AI-complete）”的，真正“以人类水平”玩这个游戏意味着要解决AI所面临的全部问题，并展现类人智能。

为什么这么说呢？因为游戏涉及到完成任意文本前缀，包括很长的前缀、对话以及每一个可能的对话前缀，还包括用人类语言表达的各种经验描述，甚至包括任意主题或情境下每个问题的每个回答，还有高数、哲学问题等等。

总之，要玩好这个游戏，我们需要理解文本、理解文本中描述的情景，并能够设身处地将自己代入其中并作出回应。这实际上就是模仿人类的经验和思维。（有人可能不同意，认为人类也需要询问与图像、场景或模型无关的感知输入问题，但我相信你能理解我的观点。）

这就是Shannon的猜谜游戏（或称为“语言建模”）以及为什么要在人类智能水平上玩这个游戏需要具备人类级别的智能。

构建大型语言模型并不能解决所有问题

如果获得完美的语言建模能力需要智能（“人工智能完备”），那为何我还坚持认为构建尽可能大的语言模型并不能“解决所有问题”？我是否想错了？

答案是，我不认为基于当时的技术（RNNs / LSTM或Transformer）构建一个超大型语言模型会让我们接近拥有“完美语言建模”能力。

那么我是否想错了？确实有可能。大型语言模型展现出的能力让我很震惊。事实证明，60B参数和175B参数之间发生了“相变”，这让模型展现出了惊人实力。相比基于文本上训练的RNN / LSTM / Transformers语言模型，大型语言模型能做的事情要多得多，我曾说过“它们不能解决所有问题”，但现在它们已经做到了我当时脑海中所能想到的全部事情。

当前的语言模型（ChatGPT的第一个版本）确实“解决”了当时我所担忧的有关语言理解的所有问题，从这个意义上说，我错了。但从另一种意义上说，我没有错，因为它没有解决全部问题，至少现在还没有。此外，当今语言模型的性能不仅仅是通过我当时所想到的语言建模能力获得的，这一点非常重要，稍后我会加以详细说明。

接下来，我将简要介绍当前语言模型（current-day-LMs）与之前人们理解的语言模型（LM）之间的区别，以及一些在我看来大型语言模型尚未“解决”的问题，我还会提及一些正确但无关紧要、无趣的论点。

4 自然语言建模 vs 精心策划的语言建模

与我所了解的情况相反，当前的大型语言模型（例如GPT-3，参数量为170B）的训练确实是通过语言建模来实现的。这些模型使用自然文本数据进行训练，包括从书籍、互联网和社交媒体等来源获取的文本数据。在过去几十年中，这种基于文本数据的训练方式被视为主流的"语言建模"方法，并且这些模型表现出卓越的性能。然而，ChatGPT与这种传统的语言模型存在一些差异。

ChatGPT与传统语言模型的不同之处在于其采用了三个概念步骤：指令、代码和RLHF。尽管这三个步骤都具有一定的重要性，但相对而言，RLHF在关注度上稍显逊色。这种解释可能有些随意，但我希望将来能够将其进一步发展为更正式的论点，以便读者从中得到一些启发。

传统的语言模型通常是在纯文本数据上进行训练，但这种训练方式存在一些明显的理论限制。其中最明显的问题是，这种训练方式无法与文本之外的内容建立联系，因此无法获得文本的"意义"或"交际意图"，也就是说，这些模型缺乏"接地"。它们处理的只是符号本身，虽然可以在符号之间进行交互，但很难将其置于现实世界中，以"蓝色"这个符号为例，尽管模型了解这个符号，但却不了解与之相关的实际"蓝色"概念。

然而，在指令精调中，模型的训练者开始将模型同时训练在"发现的"数据和人类创建的特定数据上（这被称为"监督学习"，例如从带注释的示例中学习）。人类注释者会编写一些类似于"请总结此文本"的指令，并附上文本和对应的摘要，或者编写"将此文本转换成正式语言"的指令，并附上文本以及转换后的正式语言。类似的指令会被创建很多（如摘要、翻译等），然后将这些指令添加到模型的训练数据中。

为什么这很重要呢？从本质上讲，模型仍然在进行语言建模，通过学习预测下一个单词。但是，人类注释者向文本中注入了一定程度的"接地"信息，将一些符号（如"总结"、"翻译"、"正式"）与它们所表示的概念/任务一起使用。

由于这些符号（或"指令"）总是出现在文本开头，它们在某种程度上与其他数据独立，使得模型能够将人类的"摘要"概念与生成摘要的行为相关联。换句话说，这有助于模型学习用户在"指令"中要求"摘要"的交际意图。

有些人可能会认为，这样的情况在大规模文本集合中自然发生，模型已经从中学习到了，那么还有什么新的变化呢？然而，我认为，直接从指令中学习可能比从非指令数据中学习要容易得多（例如直接陈述"这是一只狗"与从人们谈论狗的内容中推断出来的）。此外，将训练数据的分布转向这些注释用例可以从根本上改变模型的行为和其所具备的"接地"程度。相比之下，使用显式指令数据所需的训练文本要少得多。

此外，最新一代的模型还使用编程语言代码进行训练，其中包括自然语言指令（以代码注释的形式）和相应的编程语言代码。这一点的重要性在于它提供了一种非常直接的"接地"形式。

我们在文本流中拥有两个独立的系统：人类语言和编程语言。

我们观察到这两个系统之间的直接互动：人类语言描述概念（或意图），然后以相应程序的形式进行实现。这两个系统之间的直接交互实际上是"形式到意义的配对"，相对于仅从形式中学习，我们可以从这种交互中学到更多的东西。（此外，我猜测最新的模型还通过执行程序及其输出进行了训练，这是一种更强大的"接地"形式：指称。这不仅仅是语言建模了。

最后是RLHF（人类反馈的强化学习）。RLHF指的是模型观察两个人之间的对话，一个扮演用户角色，另一个扮演"AI"角色，演示在不同情境下AI应该如何回应。这种方法可以帮助模型学习如何进行对话，并在对话状态中跟踪信息（这在仅从发现的数据中学习时非常困难）。这些人类指令也是我们从模型中观察到的所有"不恰当的..."和其他公式化/模板化回应的来源。这是一种通过示范来训练模型展现"良好行为"的方法。

以上是ChatGPT的三种能力。当然，该模型可能还具备其他能力，这就是为什么我认为它与传统的语言模型有很大不同的原因，也是为什么它可能不符合我们（或我）对语言模型的某些限制的期望，以及为什么它在许多任务上表现更好：ChatGPT是一种有监督模型，具备访问外部模态的能力，并通过演示显式地训练以遵循给定对话形式的指令。

5
还缺少什么？

以下是一些关于语言模型的常见争论。这些争论确实存在，但并不具有启发性，或者与我所讨论的不相关：

- 语言模型的训练成本很高，使用起来也很昂贵。然而，随着时间的推移，成本会降低，并且在更广泛的背景下考虑时，语言模型的总能耗相对于其他人类活动的能耗来说微不足道。

- 模型存在偏见和刻板印象。这是因为模型模拟人类语言，而人类本身就具有偏见和刻板印象。因此，在应用模型于实际任务时需要谨慎，但从科学的角度来看，这并不降低模型的有效性、有用性或趣味性。

- 模型并不能真正理解语言，但这并不影响我们关注它能够做到什么，并对其缺点进行优化。

- 模型永远无法真正理解语言，但我们可以关注其在某些方面的出色表现，并从其他途径深入探究语言理解。

- 模型不能像人类一样理解语言，但它们可以提供关于语言结构的有用信息，而我们可以从其他渠道获取模型无法提供的信息。

- 仅通过形式训练无法学到有意义的内容，但模型并不仅仅通过形式训练，具体情况请参见前面的部分。

- 模型只是根据统计规律连接先前见过的片段，这是一个令人惊讶且令人敬佩的成就。尽管连接方式可能存在错误，但模型仍然可以选择出“有意义”的连接方式。

- 我们无法预知这些技术可能对社会产生的影响，但这并不妨碍我们研究其潜在影响。我们可以以谨慎的态度进行研究，而这并不会降低其趣味性、有效性或研究价值。

- 模型不会引用来源，但这不是语言模型的核心问题。我们也很少以特定单一来源归因知识，而且可以通过复制人类的理性化解释或先查找来源再引用的有意识过程来解决这个问题。

从更建设性的角度来看，我们可以探索如何将“语言和推理”的核心知识与特定事实的知识分开，以及如何实现“知识”的知识。

我理解你“想要某些应用有引用功能”的想法，因为不想受到模型的误导。但我认为，这并不是语言模型的核心问题。人们在真正意义上也并不“引用信息来源”，我们很少将知识归因于特定的单一来源，即使这样，我们也往往是出于理性化解释或先查找来源再引用的有意识过程。这种情况是可以复制的。从应用的角度来看（例如想开发一个搜索系统、论文写作系统或通用问答系统），人们当然可以致力于将表达与来源联系起来，可以通过生成过程或后处理步骤，或者先检索再生成的设置。确实有很多人这样做了，但这与语言理解并不真正相关。我认为更有意义，或者更有建设性的问题是：（1）如何将“语言和推理”的“核心（core）”知识与关于“事情（things）”的特定事实的知识分开；（2）如何实现“知识”的知识（knowledge of knowledge，见下文）。

目前有哪些真正的局限和缺失？

对于目前的“大型语言模型”（包括最新版的ChatGPT），存在一些挑战需要解决。我个人认为这些问题可能不是非常完善，但它们在某种程度上阻碍了模型对语言的“完全理解”。以下是这些模型尚未能够完成，或者在完成时表现不佳的一些任务：

1. 多文本相互关联：在训练过程中，这些模型将文本视为整体或独立的信息片段进行处理。虽然它们可能能够发现文本中的共同模式，但它们缺乏将文本与现实世界中的“事件”相关联的概念。如果这些模型在训练中遇到多个描述同一事件的新闻报道，它们无法知道这些文本都在描述同一个事件，并且无法区分与描述相似但不相关的事件有关的多个文本。因此，这些模型无法从它们所“阅读”的所有文本中形成一致且完整的世界观。

2. 时间概念：模型在训练过程中没有考虑事件发生的先后顺序。除了明确提到的时间信息外，它们实际上没有时间的概念。因此，虽然它们可能学习到一些局部的意义，比如“奥巴马在2009年成为总统”，并且能够推断出其他事件发生在此之前或之后，但它们无法理解时间的流逝概念。例如，如果模型在不同的文本中读到“奥巴马是美国现任总统”和“奥巴马不再是总统”，它们无法确定这些信息的先后关系和当前的真实情况。它们可能同时认为“奥巴马是美国现任总统”、“特朗普是美国现任总统”和“拜登是美国现任总统”这些陈述都是正确的。此外，这些模型实际上也没有有效的方式来解释类似“X是Y的最新专辑”这样的陈述以及它们之间的关系。

3. “知识”的概念：模型实际上并不真正“知道自己知道什么”，甚至不了解“知道”的含义。它们所做的只是猜测下一个标记的流程，这个猜测可能基于已经获取的确切知识，也可能只是纯粹的猜测。模型的训练和训练数据没有明确的

4.数字和数学：大型语言模型使用的单词片段并不适合进行数学计算，无法准确表示数字和数字之间的关系。虽然在一些涉及数字的问题上表现不错，但在数字和数学表示方面仍有改进的空间。

5.罕见事件、高召回设置和高覆盖设置：模型更关注常见和可能的情况，对于罕见事件的学习和回忆能力存在怀疑。模型可能无法很好地学习和回忆罕见事件，以及回忆所有事件的能力。

6.数据饥饿：大型语言模型对数据的需求量非常大，这是当前面临的主要技术问题。模型需要大量训练数据才能达到优秀的性能。然而，大多数语言没有像英语那样的大量数据，特别是没有很多有价值的数字形式数据。这导致在其他语言上复制英语理解的成果变得困难。

7.地理和文化差异：机器翻译可以在某种程度上解决语言差异问题，但在文化、规范、故事和事件等方面仍存在差异。不同地区有着不同的文化背景和特点，这些差异无法通过简单的翻译来传达。

8.数据饥饿和英语/美国中心化的问题：数据饥饿和英语/美国中心化的结合是一个重要的问题，特别是对于那些关心社会影响的人来说。这种情况需要引起我们的重视。

9.模块化：如何将核心语言理解和推理与具体事实性知识分开是一个重要问题。通过将核心语言理解和推理模块与知识模块进行模块化和分离，可能能够更好地解决数据饥饿和文化知识差距的问题，更好地处理和控制偏见和刻板印象，并且能够免费获取知识的知识。

为什么这很重要？因为这意味着在其他语言中很难复制英语在语言理解方面所取得的成就。比如，对于像我的母语希伯来语、德语、法语、阿拉伯语，甚至是中文或印地语这样更为常见的语言来说，以及非洲和菲律宾等“资源较少”的语言，复制英语的理解水平都具有挑战性。

虽然这些语言也可以获得大量数据，但并不像英语数据那样丰富。虽然通过“指令训练”技术可能需要较少的数据，但为每种新语言创建指令数据是一项巨大的工作。此外，如果我们相信在编码和语言方面进行训练的重要性（我确实相信），那么在实现其他语言的类似模型时将面临另一个巨大的障碍。

那么，翻译能够解决这个问题吗？毕竟，在机器翻译方面我们取得了很大的进展。我们可以将文本翻译成英语，然后在英语上运行模型，最后再将结果翻译回原语言。虽然这种方法可以在一些表面层面上起作用，但地理区域和语言之间存在差异。不同地区有着独特的文化、规范、故事和事件，与英语地区的文化、规范、故事和事件在各个方面都存在差异。即使是像“城市”这样简单的概念，在不同的社群和地理位置也会有所不同，更不用说“礼貌”或“暴力”等概念了。此外，还有人物、历史事件、重要地点、植物、风俗等方面的“事实”知识，这些在英语的训练数据中并未涵盖，也无法通过简单的翻译来传达。

因此，如果我们希望在英语以外的语言中应用语言理解和AI技术，数据饥饿是一个实实在在的问题。

对于那些关心社会影响的人来说，数据饥饿和英语/美国中心化的结合是一个需要认真考虑的重大问题。

7 结论

大型语言模型的能力令人惊叹。尽管语言建模本身并不足以满足所有需求，但“当前的语言模型”实际上不仅仅是语言模型，它们可以实现许多超出我们预期的功能。然而，即使我们对于“包容性”的语言理解不感兴趣，大型语言模型在这方面的表现仍然有所欠缺。这一点对于我们关注的问题同样适用。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

关于大型语言模型的争论和局限

作者 | Yoav Goldberg

1

引言

2

完美语言建模就是AI完备

构建大型语言模型并不能解决所有问题

4

自然语言建模 vs 精心策划的语言建模

5还缺少什么？

目前有哪些真正的局限和缺失？

7

结论

5
还缺少什么？