大语言模型真能“理解”语言吗?
神经现实 X Posthumanism
摘要 /Abstract
本文旨在探讨近年来人工智能研究界的一个大热议题:大语言模型是否能像人类一样理解自然语言,从而理解语言所描述的物理场景和社会场景?我们总结了支持方和反对方的论证,以及这些论证背后的、更广义的智能科学的关键问题。我们认为,应该发展这样一种智能科学,使其能够为不同形式的‘理解’、这些不同形式理解的长处和局限、以及如何整合不同形式的认知等问题提供启发。
何谓理解?哲学家,认知科学家与教育家对这一问题的兴趣都由来已久,但几乎都集中在人类与其它动物如何理解的问题上。不过,随着近期大型人工智能系统,尤其是所谓“大语言模型”的兴起,人工智能社群内部开始了一场激烈的辩论:机器是否能真正理解自然语言,从而理解语言所描述的物理场景和社会场景?这场辩论不仅仅是学术争论。机器在多大程度上理解我们的世界、又以何种方式理解,这一问题与实际生活息息相关:我们能否信任机器驾驶车辆、诊断疾病、看护老人、教育孩子?在对人类有影响的任务中,总体而言机器能否表现稳定、机制透明?此外,当前的辩论也体现出,对于“智能系统如何进行理解”的问题存在一个有趣分歧:即依赖统计相关性的心智模型与依赖因果机制的心智模型之间的分歧。
直至不久前,人工智能研究界对于机器理解的问题都尚有普遍的共识:尽管人工智能系统在许多特定任务上都能展现出看似智能的行为,它们并不能像人类一样理解自己处理的数据。面部识别软件不能理解面孔是身体的一部分,不能理解社会互动中面部表情的作用,也不能理解什么是“面对”令人不快的情况。它不能理解人类理解面部概念的无数种方式。同样,语音识别软件与机器翻译软件也不能理解它们处理的语言,自动驾驶系统不能理解司机和行人之间用以避免交通事故的微妙眼神交流和肢体语言的含义。
诚然,这些人工智能系统常常产生难以预测的错误,也缺乏强大的泛化能力。这些都是人工智能系统脆弱的体现,也是它们并不具备理解力的关键标志。然而,在过去几年里,一种新的人工智能系统在研究界崭露头角,它广受欢迎并具有重大影响力,改变了一些人对“机器能够理解语言”的可能性的看法。这些系统被称为大语言模型(LLMs)、大规模预训练模型(Large Pre-Trained Models)或基础模型(Foundation Models)[11]。它们是拥有数十亿到数万亿参数(权重)的深度神经网络,在包括大量网络数据、在线图书馆和其它几TB数据的自然语言语料库训练集中“预训练”过。这些网络在训练期间的任务是预测输入句子的隐藏部分,这一方法被称为“自监督学习”。由此产生的网络是一个复杂统计模型,能够描述训练数据中的单词和短语是如何相关的。
这种模型可被用于生成自然语言,可以进行特定语言任务的微调[58],或者受到进一步训练以更好地匹配“用户意图”[65]。像OpenAI著名的GPT-3[12],更新版本的ChatGPT[69],以及谷歌的PaLM[16]这样的大语言模型都有惊人的表现。它们可以生成非常类似真人产出的文本、对话,甚至在有些情况下能表现出类似真人的推理能力[83],即使它们并没有特别训练过推理。大语言模型是如何完成这些了不起的成就的?这对普通人和科学家来说都是谜。这些网络的内部运作方式很大程度上是不透明的,即使是构建它们的研究人员对如此大规模的系统也只有极为有限的直觉。神经科学家特伦斯·赛诺夫斯基(Terrence Sejnowski)这样描述大预言模型的出现:“临界点到了,就好像突然出现了一个能神奇地以类人方式与我们交流的外星人。只有一件事是清楚的——大语言模型不是人类……它们行为的一些方面看似体现了智能,但如果这不是人类智能,它们智能的本质又是什么?”[70]
尽管目前最先进的大语言模型令人惊叹,但它们依然饱受脆弱性和非人错误的困扰。然而,随着参数数量和训练数据的规模不断扩大,这些网络在显著改善[82]。这种现象导致该领域的一些人声称,大语言模型——或许是多模态(multi-modal)版本的大语言模型——在拥有足够大的网络和训练数据集的情况下,将会达到人类级别的智能和理解。一种全新的人工智能口号出现了:“规模就是一切。”[18, 22]
这种主张是人工智能研究界在“如何看待大语言模型”的激辩里其中一方的典型言论。这一派认为,这些网络能够真正理解语言,并能以一种通用的方式进行推理(尽管“尚不及”人类水平)。比如,谷歌的LaMDA系统在文本上经过预训练,而后在对话中进行过微调。它在对话中表现出令人信服的交流能力,以至于使一位人工智能研究者认为,LaMDA系统“真正理解各种各样的概念”[1],甚至“在通往意识的道路上大步前行”[3]。另一位机器语言专家将大语言模型视为人类水平通用人工智能的前兆:“我们已经开始看到拥有一定程度普遍智能的知识系统出现” [54]。另外一些人则认为大语言模型“很可能已经抓住了‘意义’的重要方面,且以一种十分近似人类认知的方式工作。正如人类认知一样,意义是从概念中产生的”[67]。那些否认此类主张的人被批评为推行“人工智能否认主义”[2]。
辩论的另一方则认为,就GPT-3或LaMDA这样的大型预训练模型而言,无论它们的语言输出多么流利,它们都不具备理解能力,因为它们并没有对于世界的经验,或“心智模型”(mental model)。这些模型在大量文本中训练、预测单词时,只学会了语言的形式,却并没有学会语义[8,9,55]。一篇近期的观点(opinion)文章强调,“一个仅仅通过语言训练的系统永远也不能接近人类智能,即使从现在训练到宇宙热寂也不能”并且“很显然,这些系统注定只能获得浅薄的‘理解’,永远无法接近人类的深刻思考”[13]。另一位学者则认为,用智能、主体性、以及理解来谈论这些系统都是使用了“错误的范畴”。大语言模型是人类知识的压缩储存库,更接近图书馆和百科全书,而非有智能的主体[33]。比如,人类知道“挠痒痒”会让我们笑出来是什么意思,这是因为我们都有身体。一个大语言模型可以使用“挠痒痒”这个词,但它显然从未有过如此感受。要理解“挠痒痒”,就是要把一个词映射到一种感受上,而非映射到另一个词上。
那些声称“大语言模型不能理解”的人认为,尽管大语言模型对答如流的程度令人讶异,但这种惊讶的来源在于,我们对统计相关性能在如此大规模的模型上产生的效果不够了解。任何认为大语言模型具备理解力或者意识的人都陷入了伊莱莎效应(Eliza effect)[37]——这一效应以约瑟夫·韦岑鲍姆(Joseph Weizenbaum)在1960年代创建的聊天机器人“伊莱莎”命名。尽管它的程序极为简单,却仍然能够诱使人们相信,它能理解他们[84]。伊莱莎效应指的是人类的一种天然倾向,即在看到机器展现出微弱的类人语言或行为迹象时,就会倾向于认为它们具有理解力和主体性。
约瑟夫·韦岑鲍姆(Joseph Weizenbaum)在麻省理工学院测试远程工作。
—
Elmundo.es
2022年的一项调查显示,自然语言处理领域的研究者在这场辩论中有明显的立场分歧。其中一个调查问题询问了受访者大语言模型原则上是否有可能理解语言,“对一些仅基于文本训练的生成模型(即语言模型),如果提供足够的数据和计算资源,它们就能真正理解自然语言。”在480名受访者中,几乎刚好一半的人(51%)同意这个陈述,另一半人(49%)则不同意[57]。
对那些认为当前或近未来的大语言模型能具备理解能力的人而言,他们的依据来自大语言模型在几个方面的表现,其中包括对模型回应提示的文本质量的主观判断(尽管人类的主观判断可能受伊莱莎效应的影响),以及更加客观的、在用于评估语言理解和推理能力的基准数据集上的表现。比如,评估大语言模型的两个标准是通用语言理解评估(GLUE)[79]及其后继版(SuperGLUE)[80] 。这些大规模数据集中的任务有“文本推断”(给定两个句子,是否可以从第一个句子中推断出第二个句子的含义?),“上下文中单词的含义”(同一个词在两个不同的句子中是否有相同的含义?),以及对一般疑问句的回答等任务。OpenAI的GPT-3有1750亿个参数,在这些任务上的表现优异得惊人[12],而谷歌的PaLM拥有5400亿个参数,在同一任务上甚至能表现得更好[16],通常能够在相同任务上与人类持平,甚至超越人类。
这些结果对大语言模型中的理解意味着什么?研究人员在为这些基准评估命名时使用的术语,“一般语言理解”“自然语言推理”“阅读理解”“常识推理”等暗示了这样的预设,即人类水平的理解对于这些任务来说是必要的。但这些任务是否真的需要如此程度的理解能力?未必如此。举例来说,考虑其中一个基准,即论证推理理解任务[36]。在这个例子中,给定一个自然语言的“论点”与两个陈述,需要完成的任务是判断哪个陈述与论证相一致。数据集中的一个例子如下:
论点:犯人也应该有投票的权利。一个17岁时偷过车的人不应终生被剥夺成为完整公民的权利。
陈述A:盗窃车辆是犯罪。
陈述B:盗窃车辆不是犯罪。
大语言模型BERT[21]在这个基准评估问题上取得了接近人类的表现[62]。也许有人就此得出结论,BERT能像人类一样理解自然语言的理论。不过,有个研究组发现,在陈述中特定语词(比如“不”)的出现能预测正确的答案。如果研究者改变数据集来防止这些简单相关性的产生,BERT的表现就骤降至随机猜测的水平[62]。这就是“捷径学习”(shortcut learning)的一个例子。捷径学习是机器学习领域中一个常被提及的现象,它指的是,在某个特定的基准任务上,一个学习系统是因为数据中的虚假相关性才表现良好,而非因为类似人类的理解力。一般而言,这种相关性对执行同样的任务人类而言并不是显而易见的。虽然在用于评估语言理解等任务的几个基准中,研究者已经能发现并排除一些捷径,但还有更多尚未被发现的捷径可能隐蔽地存在。谷歌的LaMDA或PaLM等预训练语言模型拥有数百亿参数规模、训练数据达到数百亿甚至数万亿词,它们具备惊人的能力来编码这种相关性。因此,对于衡量人类理解力而言合适的基准可能并不适用于对此类机器的评估[15, 24, 50]。在这些大语言模型(或其近期后继模型)的规模下,有可能任何评估都包含着复杂的统计相关性,从而在不需要人类水平理解力的情况下也能近乎完美地完成任务。
- Vec Stock -
虽然“类人水平的理解”并没有严格的定义,但它似乎并不是基于当今大语言模型学习的那种大型统计模型。相反,它基于概念——关于外部范畴、情境、事件的内部心理模型,以及关于个体自身内部状态和“自我”的内部心理模型。对人类来说,理解语言(以及非语言信息)的前提是具备语言或其它信息所描述的概念,而不只关乎语言符号的统计属性。事实上,认知科学史的很大一部分是对概念本质的探究,以及对“理解”如何从概念(包括潜在的因果知识)的一致、层级化关系中产生的探究。这些模型使人类得以将自己的知识和经验抽象化,以便进行稳定的预测、概括、类比,组合推理、反事实推理、积极干预世界以验证假设、并向他人解释自己的理解[29, 32, 38, 41, 45, 73, 74]。而这些正是当今人工智能系统,包括最先进的大语言模型所缺乏的能力,尽管规模愈来愈大的大语言模型已经展现出了这些通用能力的微弱火光。
有人论证道,恰恰是这种类型的理解催生了纯统计模型不可能具有的能力[19, 27, 44, 66, 76]。虽然大语言模型展现了杰出的形式语言学能力,即能够生成语法流畅的类人语言,但它们依旧缺乏人类语言功能所必需的概念理解能力——那种能在真实世界中稳定地理解和使用语言的能力[52]。有趣的是,我们可以把这种功能性的理解类比成“将形式化的数学工具应用于物理理论”。比如,对于量子力学的一个长期批评就是,尽管它提供了有效的计算手段,却没有提供概念理解[42]。
人类概念的确切本质究竟是什么,关于这一问题的争论多年来热度未消:概念究竟是领域特定(domain-specific)且先天决定的,还是更加通用且后天习得的[14, 30, 31, 53, 75, 85]?概念在多大程度上是基于具身的隐喻[28, 46, 61],在多大程度上是通过动态的、基于情境的刺激在脑中表征[5],又是在何种条件下以语言[20, 23, 51]、社会学习[4, 81, 26]和文化[7, 60, 63]为基础?研究者们在这些问题上都意见不一。
尽管这些争论仍在持续,但概念(以上文中描述的因果心智模型的形式存在)长期以来被视作理解人类认知的单位。人类理解(无论是个体还是集体的理解)的轨迹是对世界高度压缩的、以因果关系为基础的模型的发展,就像从托勒密的挨圈运动(epicycle)到开普勒的椭圆轨道,再到牛顿用引力术语描述的、对行星运动的简洁因果解释的进展。与机器不同,人类似乎对这种形式的理解有很强的天然驱动力,无论是在科学领域还是在日常生活中[34]。这种形式的理解需要较少的数据、简化的模型、清晰的因果关系,以及对机制的强直觉(mechanistic intuition)。
- Jason Solo -
“大语言模型是否有理解能力”这一争论的关键问题如下:
(1)讨论这些系统能否“理解”是不是犯了范畴错误(category error)——将语言个例(token)之间的联结误认为是物理、社会和心理经验个例之间的联结?简言之,是不是说,这些模型永远不可能具有理解能力?
或者反之(2)有没有一种可能,这些系统(或它们的后继者)在缺乏物理经验的情况下,实际上已经创造出了某种基于概念的(concept-based)、对人类理解能力而言至关重要的丰富心智模型?如果确实如此,扩展这些已有的模型,或许就能够产生更接近我们期望的概念?
又或者(3)如果说这些系统目前无法产生这些概念,要是将其规模扩大到难以想象的程度,那么扩大后的超大规模统计相关系统能否产生出相当于人类理解功能的能力?亦或是更进一步,超大规模的系统能产生全新形式的、人类难以通达的高阶逻辑?如果到了这个地步,我们还有理由说这类相关性是“虚假的”,这类解决方案是“捷径”吗?
也许,我们不应把这些系统的行为视作“没有理解、空有能力”(competence without comprehension),而应该视作某种前所未有的、非人形式的“理解”?这些问题不再独属于抽象哲学思辨的领域。随着人工智能系统对我们日常生活的渗透,其能力、稳健性、安全性与伦理问题日益涉及到对现实的关切。
虽然“大语言模型能否理解”问题的辩论双方都有支持其观点的强直觉,现存的认知科学方法尚不足以回答大语言模型能否理解的问题。一些研究人员已经将原本设计用于评估人类理解和推理机制的心理测试应用于大语言模型,并且发现,在某些情况下,大语言模型在心智理论(theory-of-mind)测试中表现出类人的反应[1, 78],也在推理测试中表现出类人的能力和偏见[10, 17, 48]。尽管此类测试能被视作测量人类更一般能力的可靠测试,它们却可能并不适用于人工智能。正如前文所述,大语言模型具有从训练数据与输入的个例(token)中习得联结性的强大能力,并能够用这些联结来解决问题。
与之不同,人类则会使用能够反映我们真实世界经验的、经过压缩的概念。如果把为人类设计的测试应用在大语言模型上,那么对结果的诠释就会有赖于对人类认知的预设,而这些预设对大语言模型来说可能完全不成立。若要取得进展,科学家就需要开发能适用于各种不同类型智能和理解机制的新基准和新探测方法。这些不同的智能类型就包括我们自己创造出的“异类的、类心智的实体”[71]。对此类问题研究者已经有了一些初步的探索,或许可以沿着这些方向推进[49, 64]。
- PixxlTeufel -
随着大语言模型规模越来越大、能力越来越强,对于大语言模型是否拥有理解能力的争论也越发体现出,我们有必要扩展现有智能科学的边界,如此才能容纳更宽泛意义上“理解”的概念,使之既适用于人类,也适用于机器。正如神经科学家特伦斯·赛诺夫斯基所指出的,“专家们对大语言模型智能的不同看法表明,基于自然智能的旧理念已经有所欠缺了”[70]。如果大语言模型和类似模型能以一种前所未有的规模利用统计相关性来工作,那么或许这也能被视为一种新的“理解”形式,一种能带来超人般预测能力的“理解”形式。正如Deepmind的AlphaZero和AlphaFold系统[40, 72],它们分别在国际象棋和蛋白质结构预测的领域带来了如同“外星人”般的直觉[39, 68]。
因此,可以提出这样的论点:近年来,人工智能领域已经创造出了具有新型理解模式的机器。随着我们在探索智能之本质这一疑难问题上的进展,这些概念大家族中的新成员也将不断丰富。而正如不同的物种能更好地适应不同的环境,不同的智能系统也能更好地适应不同的问题。那些需要大量已编码知识才能达到最优表现的问题,依旧是大语言模型等大规模统计模型擅长的领域,而那些我们知之甚少却有强因果机制的问题则更需要人类智能。未来我们需要面对的挑战就在于,开发新的科学方法,以揭示不同形式智能如何理解的具体机制,厘清它们的优势和局限,并学习如何整合这些多样化的认知模式。
作者:Melanie Mitchell & David C. Krakauer
译者:杨吟竹 | 排版:阿不鲸 | 封面:Jason Solo
“神经现实”与“Posthumanism”公众号联合发布
原文地址:https://doi.org/10.1073/pnas.2215907120
本文转载自公众号“神经现实”
凡本公众号转载、引用的文章 、图片、音频、视频文件等资料的版权归版权所有人所有,因此产生相关后果,由版权所有人、原始发布者和内容提供者承担,如有侵权请联系删除。
微信扫码关注该文公众号作者