最详细全文翻译！微软155页大工程首次揭示GPT-4超能力（浓缩精华版）

2023-03-30 06:03

近期一篇重磅学术论文的发布，继续引发全球范围内有关 AI 话题的热议。

本期，真格投资团队为大家带来了这篇微软的大工程，长达 155 页的优秀工作《人工通用智能的小火苗：与 GPT-4 共同完成的早期实验》（Sparks of Artificial General Intelligence: Early experiments with GPT-4），由于全文近 7 万字，受微信推文字数限制，我们将完整版分为了上下两期，分列本次推送的第二和第三条。

其中：

- 本篇为浓缩精华版 - 是我们在仔细阅读全文并讨论后整理出的精读版；

- 完整版（上/下） - 顾名思义，是简单粗暴的全文翻译。但需要强调的是，我们的目标不是全网最快，而是最完整、最易读、最精准。

此外，在阅读前，也有一个信息需要先同步大家：

这份工作是基于早期的非多模态版本的 GPT-4 进行的，当时模型还在微调与 alignment 的过程中，文中所提到的一些不安全与不良的示例已经在正式发布前得到了修正。

Enjoy！

Intelligence is a very general mental capability that, among other things, involves the ability to reason, plan, solve problems, think abstractly, comprehend complex ideas, learn quickly and learn from experience. It is not merely book learning, a narrow academic skill, or test-taking smarts. Rather, it reflects a broader and deeper capability for comprehending our surroundings -「catching on」,「making sense」of things, or「figuring out」what to do. 
-- by Linda S. GOTTFREDSON, 1994

如何定义 AGI

来自微软的科学家们再次放出重磅消息：GPT-4 的智能水平非常接近人类水平，且远超之前的，诸如 ChatGPT 这样的模型，可以将其视为通用人工智能 (AGI) 系统的早期（但仍不完整的）版本。

那么如何定义 AGI？

「智能」是一个复杂且模糊的概念，长期以来其界定标准一直困扰着心理学家、哲学家和计算机科学家。1994 年，52 名心理学家基于对其本质的探索给出了一个定义：智能是一种通用的心理能力，包括推理、计划、解决问题、抽象思考、理解复杂思想、快速学习和从经验中学习的能力等[1]。微软的这份工作中的 AGI 即指代「在上述定义的智能标准下，达到或超过人类水平的系统」。

如何进行测试并组织呈现

其实在自然语言处理研究学界与社区，有不少大语言模型的评测基准，比如 Super-Natural Instructions[2] 和 Big-bench[3]，然而微软的研究团队出于以下两点考虑放弃了传统的评测方法，原因如下：

- 由于无法探究 GPT-4 庞大训练数据集的全部细节，必须假设它可能已经看到了所有现有的基准及类似的数据，继续评估没有意义；

- GPT-4 智能的一个关键方面是它的通用性，能够看似理解和链接任何主题和领域，超出了经典的自然语言处理的任务范围。

为了突破上述限制，他们提出了一种更接近传统心理学而不是机器学习的测评方法来研究 GPT-4：利用人类的创造力和好奇心来生成新颖而困难的任务和问题（这和真格前不久发布的 Z-bench 有着共通之处！），这些任务和问题足以证明 GPT-4 的能力远远超出了对训练数据的记忆，并且对概念、技能和领域有深刻而灵活的理解，同时除了正确性，其回复还具有连续性和一致性，但也存在局限性和偏见。

在测试中，作者将不同问题划分成了四大类（自然语言、编程和数学、计划和解决问题、人类心理与常识）、六小类能力，同时也探讨了 GPT-4 模型的局限性、社会影响与未来发展方向，我们分别列举一些最令人印象深刻的示例呈现给大家。

测试案例

多模态

首先，这篇文章有个很有价值的信息：早期的 GPT-4 是基于纯文本训练的，并非多模态（视觉与声音）数据。我们推测：OpenAI 技术报告[4]中提到的 GPT-4 可以理解视觉输入是经后续微调后引入的能力，具体方法大致可参考之前 Google 的具身语言模型 PaLM-E[5]。虽然当时的 GPT-4 不能直接绘制图片，但是它可以生成 SVG 代码或者 Javascript，进一步编译为图片，文中有几个有趣的例子。

第一个，让模型结合字母 Y, O 和 H 生成一个人的形状：

接着，使用类似下面的 prompt 生成更复杂的 2D 图像：

A frog hops into a bank and asks the teller, ‘Do you have any free lily pads?’ The teller responds, ‘No, but we do offer low interest loans for pond upgrades.’

最后，我们还可以通过生成 Javascript 代码来间接生成 3D 图片（示例中更进一步，生成了 3D 视频）：

A fantasy landscape of floating islands, waterfalls, and bridges, with a dragon flying in the sky and a castle on the largest island.

跨学科组合能力

跨学科组合能力事实上也是模型整合能力和普适性的体现，这些任务往往需要调取并融合多学科多领域的知识或技能来生成文本或代码。

一个例子，用亚里士多德的风格来证明存在无穷多的素数——教育场景，有了！

编程

事实证明，GPT-4 是一位编程大师——在某些案例中，GPT-4 实现了直接执行代码，毋须将其翻译成其他有明确定义的编程语言——这展示了 AGI 模型作为一种新型自然语言编程工具的潜力，可能会彻底改变我们未来编程的方式。

在测试中，为了避免 GPT-4 在预训练的时候见过相同或类似的代码问题，作者采用了 GPT-4 预训练之后发布的 100 个 LeetCode 新问题作为测试基准。下表中 pass@k 代表 k 次尝试成功的概率，我们可以看到，k=5 时，GPT-4 已然全面超越了人类表现：

数学能力

文中有一组难度进阶的例子让我们可以直观感受 GPT-4 的数学能力。首先，给 GPT-4 一个初级数学问题，GPT-4 成功地回答了该题：

当作者进一步加大难度，要求模型考虑二次多项式，GPT-4 的回答中，计算过程很复杂且答案是错误的。

当作者给出 prompt「不要计算直接推演结果」后，GPT-4 得出了正确答案。

但对于更高次的数学问题，GPT-4 便无法处理了。

因此，在数学能力方面，虽然相对于以前的 LLMs，甚至是专门针对数学进行了优化的模型（如 Minerva）而言，GPT-4 已经有了显著进步，但离专家水平还差得很远，更不具备进行数学研究的能力。

与世界的互动

我们都知道，最近 OpenAI 为 ChatGPT 引入了插件，即 ChatGPT Plugins，具体是如何实现的呢？可以看下面的例子：

我们只需要在 prompt 里加入各种 API 的说明，遇到不同问题时，GPT-4 就可以自主调用所需 API，比之前需要额外训练的 Toolformer[6]更进一步。

回到定义，互动性是智能的关键组成部分，是与其他代理、工具和环境进行沟通和反馈的能力，并由此获取和应用知识、解决问题、适应变化，从而实现超出其个体能力范围的目标，例如，人类通过相互交流并与环境互动实现合作、学习、教育、谈判、创造等。而测试证明，GPT-4 能够识别并使用外部工具来提高能力——它能够推断出需要哪些工具，有效地解析这些工具的输出并适当地做出回应，无需任何专门的训练或微调。

下面是一个更复杂情景下的例子：

与人类的交互

心智理论（Theory of Mind, ToM）对于人与人之间的有效沟通和合作至关重要，因为这是推断他人的目标、偏好、动机和期望，并相应地调整自己的行为和话语的基础。之前有工作[7]评测过 GPT-3 的 ToM 能力，在本工作中，作者也对 GPT-4 进行了相应测试。

在下面的场景中，GPT-4 可以清晰地感知对话双方的心理状态和目的：

在交流中，能够解释自己行为是智能的一个重要标准，作者也测试了模型的解释能力。下面的示例表明 GPT-4 可以自圆其说（注意这里答案的正确与否并不是重点，而是答案与解释是否匹配）。

虽然测试中，GPT-4 的输出尚缺乏过程一致性，但上文所说的「自圆其说」已然展示了模型对任务本身的理解以及可解释性层面的技术进步。

辨别能力

辨别力是智能的重要组成部分，是动物与人做出更准确的判断和决定的基础。

作者在论文中让 GPT-4 来识别个人身份信息：给定一个特定的句子，识别个人信息相关的片段并计算这些片段的总数。其中，个人信息可以包括各类无害化处理的电子邮件地址、电话号码、社会安全号码、信用卡号码、地名和位置信息。

GPT-4 最终的准确率约为 77.4%，超过了之前专门为该项任务开发的隐私保护工具Presidio[8]。

局限性

尽管 GPT-4 有诸多令人惊艳的表现，但是它也有不足，而且作者认为这些缺点根植于当前 GPT 系列大模型预训练的自回归目标函数：逐次预测下一个单词——这一范式迫使模型以顺序、线性的方式解决问题（即系统 1，快速思考的问题），缺乏提前规划和反思的能力（即系统 2，慢速思考的问题）。

下面这个汉诺塔示例展示了 GPT-4 在推理中缺乏规划的能力的问题，这个问题需要通过 5 个步骤解决，但模型出错了。

同样，在下面的文本生成的示例中，最后一句的语法显然是错误的。

尽管上述生成错误或许可以通过更好的 prompt 来减少，但它们确实表明了模型缺乏规划和反思的能力这一短板——在此，作者也特意提到了 LeCun 提出的框架[9]，并认为其是一个可能的解法。

此外，比较有趣的是，和微软的这篇论文几乎同一时间放出的论文 Reflexion[10]，就是从反思的角度来提升模型能力——这份工作我们 Paper Sync 002 与大家分享。

社会影响

作者也提到了 GPT-4 的社会影响，如错误信息、虚假信息、恶意操纵与偏见带来的危害以及对人类专业知识、工作与经济的影响，其实，OpenAI 在十天前也发布了关于大模型与劳动力市场间的关系的工作[11]，最近各大网络平台充斥的语言与视觉模型结合所产生的「离谱」虚假信息相信也已经让大家对「假新闻」的未来有了初步认知，道阻且长，在此不作赘述。

方向与未来

论文最后，作者指出，在面向更加通用的人工智能的路上，大语言模型还需要在以下方面进一步提升：幻觉/置信度、长期记忆、持续学习、个性化、规划与概念发散（即灵光闪现）、透明度、可解释性、一致性、认知谬误、非理性思维以及对提示响应的鲁棒性。

我们都已经知道未来即将发生深刻的改变。我们即将加速进入一个新的周期。

我们相信每一个人的生活都会被人工智能就此改变，而每一个人都有参与乃至推动这场改变的可能。

📮想创业，欢迎和我们联系：[email protected]

参考文献
[1] Mainstream science on intelligence: An editorial with 52 signatories, history, and bibliography, 1997.
[2] Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks
[3] Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models
[4] GPT-4 Technical Report
[5] PaLM-E: An Embodied Multimodal Language Model
[6] Toolformer: Language Models Can Teach Themselves to Use Tools
[7] Theory of Mind May Have Spontaneously Emerged in Large Language Models
[8] Privacy protection with ai: Survey of data-anonymization techniques
[9] Yann LeCun. A path towards autonomous machine intelligence. Open Review, 2022.
[10] Reflexion: an autonomous agent with dynamic memory and self-reflection
[11] GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models