ChatGPT是怎么变得这么强的?拆解追溯ChatGPT各项能力的起源
©作者 | 符尧、彭昊等
多年以后,面对行刑队,奥雷里亚诺·布恩迪亚上校将会回想起父亲带他去见识冰块的那个遥远的下午。 —— 《百年孤独》 加西亚·马尔克斯
2020版初代GPT-3与大规模预训练
语言生成:遵循提示词(prompt),然后生成补全提示词的句子 (completion)。这也是今天人类与语言模型最普遍的交互方式。 上下文学习(in-context learning):遵循给定任务的几个示例,然后为新的测试用例生成解决方案。很重要的一点是,GPT-3 虽然是个语言模型,但它的论文几乎没有谈到“语言建模”(language modeling)——作者将他们全部的写作精力都投入到了对上下文学习的愿景上,这才是 GPT-3 的真正重点。 世界知识(world knowledge):包括事实性知识(factual knowledge)和常识(commonsense)。
语言生成的能力来自于语言建模的训练目标(language modeling)。 世界知识来自 3000 亿单词的训练语料库(不然还能是哪儿呢)。 模型的 1750 亿参数是为了存储知识,Liang et al.(2022)的文章进一步证明了这一点。他们的结论是,知识密集型任务的性能与模型大小息息相关。 上下文学习的能力来源及为什么上下文学习可以泛化,仍然难以溯源。直觉上,这种能力可能来自于同一个任务的数据点在训练时按顺序排列在同一个 batch 中。然而,很少有人研究为什么语言模型预训练会促使上下文学习,以及为什么上下文学习的行为与微调(fine-tuning)如此不同。
从2020版GPT-3到2022版ChatGPT
指令微调不会为模型注入新的能力——所有的能力都已经存在了。指令微调的作用是解锁/激发这些能力。这主要是因为指令微调的数据量比预训练数据量少几个数量级(基础的能力是通过预训练注入的)。 指令微调将 GPT-3.5 的分化到不同的技能树。有些更擅长上下文学习,如 text-davinci-003 ,有些更擅长对话,如 ChatGPT。 指令微调通过牺牲性能换取与人类的对齐(alignment)。OpenAI 的作者在他们的指令微调论文中称其为“对齐税”(alignment tax)。许多论文都报道了 code-davinci-002 在基准测试中实现了最佳性能(但模型不一定符合人类期望)。在 code-davinci-002 上进行指令微调后,模型可以生成更加符合人类期待的反馈(或者说模型与人类对齐),例如:零样本问答、生成安全和公正的对话回复、拒绝超出模型它知识范围的问题。
Code-Davinci-002和 Text-Davinci-002,在代码上训练,在指令上微调
3.1 复杂推理能力的来源和泛化到新任务的能力
响应人类指令:以前,GPT-3 的输出主要训练集中常见的句子。现在的模型会针对指令/提示词生成更合理的答案(而不是相关但无用的句子)。 泛化到没有见过的任务:当用于调整模型的指令数量超过一定的规模时,模型就可以自动在从没见过的新指令上也能生成有效的回答。这种能力对于上线部署至关重要,因为用户总会提新的问题,模型得答得出来才行。 代码生成和代码理解:这个能力很显然,因为模型用代码训练过。 利用思维链(chain-of-thought)进行复杂推理:初代 GPT3 的模型思维链推理的能力很弱甚至没有。code-davinci-002 和 text-davinci-002 是两个拥有足够强的思维链推理能力的模型。 思维链推理之所以重要,是因为思维链可能是解锁突现能力和超越缩放法则(scaling laws)的关键。请参阅上一篇博文。
能够响应人类指令的能力是指令微调的直接产物。
对没有见过的指令做出反馈的泛化能力是在指令数量超过一定程度之后自动出现的,T0、Flan 和 FlanPaLM 论文进一步证明了这一点 使用思维链进行复杂推理的能力很可能是代码训练的一个神奇的副产物。对此,我们有以下的事实作为一些支持: 最初的 GPT-3 没有接受过代码训练,它不能做思维链。 text-davinci-001 模型,虽然经过了指令微调,但第一版思维链论文报告说,它的它思维链推理的能力非常弱——所以指令微调可能不是思维链存在的原因,代码训练才是模型能做思维链推理的最可能原因。 PaLM 有 5% 的代码训练数据,可以做思维链。 Codex 论文中的代码数据量为 159G,大约是初代 GPT-3 5700 亿训练数据的 28%。code-davinci-002 及其后续变体可以做思维链推理。 在 HELM 测试中,Liang et al.(2022)对不同模型进行了大规模评估。他们发现了针对代码训练的模型具有很强的语言推理能力,包括 120亿参数的 code-cushman-001.。 我们在 AI2 的工作也表明,当配备复杂的思维链时,code-davinci-002 在 GSM8K 等重要数学基准上是目前表现最好的模型 直觉来说,面向过程的编程(procedure-oriented programming)跟人类逐步解决任务的过程很类似,面向对象编程(object-oriented programming)跟人类将复杂任务分解为多个简单任务的过程很类似。 以上所有观察结果都是代码与推理能力 / 思维链 之间的相关性,但不一定是因果性。这种相关性很有趣,但现在还是一个待研究的开放性问题。目前看来,我们没有非常确凿的证据证明代码就是思维链和复杂推理的原因。
此外, 代码训练另一个可能的副产品是长距离依赖,正如 Peter Liu 所指出:“语言中的下个词语预测通常是非常局部的,而代码通常需要更长的依赖关系来做一些事情,比如前后括号的匹配或引用远处的函数定义”。这里我想进一步补充的是:由于面向对象编程中的类继承,代码也可能有助于模型建立编码层次结构的能力。我们将对这一假设的检验留给未来的工作。
text-davinci-002 与 code-davinci-002 Code-davinci-002 是基础模型,text-davinci-002 是指令微调 code-davinci-002 的产物(见 OpenAI 的文档)。它在以下数据上作了微调:(一)人工标注的指令和期待的输出;(二)由人工标注者选择的模型输出。 当有上下文示例(in-context example)的时候,Code-davinci-002 更擅长上下文学习;当没有上下文示例/零样本的时候,text-davinci-002 在零样本任务完成方面表现更好。从这个意义上说,text-davinci-002 更符合人类的期待(因为对一个任务写上下文示例可能会比较麻烦)。 OpenAI 不太可能故意牺牲了上下文学习的能力换取零样本能力 —— 上下文学习能力的降低更多是指令学习的一个副作用,OpenAI 管这叫对齐税。 001 模型(code-cushman-001 和 text-davinci-001)v.s. 002 模型(code-davinci-002 和 text-davinci-002) 001 模型主要是为了做纯代码/纯文本任务;002 模型则深度融合了代码训练和指令微调,代码和文本都行。 Code-davinci-002 可能是第一个深度融合了代码训练和指令微调的模型。证据有:code-cushman-001 可以进行推理但在纯文本上表现不佳,text-davinci-001 在纯文本上表现不错但在推理上不大行。code-davinci-002 则可以同时做到这两点。
3.2 这些能力是在预训练之后已经存在还是在之后通过微调注入?
code-davinci-002 的基础模型可能不是初代 GPT-3 davinci 模型。以下是证据: 初代的 GPT-3 在数据集 C4 2016-2019 上训练,而 code-davinci-002 训练集则在延长到 2021 年才结束。因此 code-davinci-002 有可能在 C4 的 2019-2021 版本上训练。 初代的 GPT-3 有一个大小为 2048 个词的上下文窗口。code-davinci-002 的上下文窗口则为 8192。GPT 系列使用绝对位置嵌入(absolute positional embedding),直接对绝对位置嵌入进行外推而不经过训练是比较难的,并且会严重损害模型的性能(参考 Press et al., 2022)。如果 code-davinci-002 是基于初代 GPT-3,那 OpenAI 是如何扩展上下文窗口的? 另一方面,无论基础模型是初代的 GPT-3 还是后来训练的模型,遵循指令和零样本泛化的能力都可能已经存在于基础模型中,后来才通过指令微调来解锁(而不是注入) 这主要是因为 OpenAI 的论文报告的指令数据量大小只有 77K,比预训练数据少了几个数量级。 其他指令微调论文进一步证明了数据集大小对模型性能的对比,例如 Chung et al.(2022)的工作中,Flan-PaLM 的指令微调仅为预训练计算的 0.4%。一般来说,指令数据会显著少于预训练数据。 然而,模型的复杂推理能力可能是在预训练阶段通过代码数据注入 代码数据集的规模与上述指令微调的情况不同。这里的代码数据量足够大,可以占据训练数据的重要部分(例如,PaLM 有 8% 的代码训练数据) 如上所述,在 code-davinci-002 之前的模型 text-davinci-001 大概没有在代码数据上面微调过,所以它的推理/思维链能力是非常差的,正如第一版思维链论文中所报告的那样,有时甚至比参数量更小的 code-cushman-001 还差。 区分代码训练和指令微调效果的最好方法可能是比较 code-cushman-001、T5 和 FlanT5 因为它们具有相似的模型大小(110 亿和 120 亿),相似的训练数据集(C4),它们最大的区别就是有没有在代码上训练过/有没有做过指令微调。 目前还没有这样的比较。我们把这个留给未来的研究。
text-davinci-003和ChatGPT,基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)的威力
text-davinci-003 和 ChatGPT 在撰写本文时才发布不到一个月。 ChatGPT 不能通过 OpenAI API 被调用,所以想要在标准基准上测试它很麻烦。
所有三个模型都经过指令微调。 text-davinci-002 是一个经过监督学习指令微调(supervised instruction tuning)的模型 text-davinci-003 和 ChatGPT 是基于人类反馈的强化学习的指令微调(Instruction tuning with Reinforcement Learning from Human Feedback, RLHF)。这是它们之间最显着的区别。
翔实的回应:text-davinci-003 的生成通常比 text-davinci-002 长。ChatGPT 的回应则更加冗长,以至于用户必须明确要求“用一句话回答我”,才能得到更加简洁的回答。这是 RLHF 的直接产物。 公正的回应:ChatGPT 通常对涉及多个实体利益的事件(例如政治事件)给出非常平衡的回答。这也是 RLHF 的产物。 拒绝不当问题:这是内容过滤器和由 RLHF 触发的模型自身能力的结合,过滤器过滤掉一部分,然后模型再拒绝一部分。 拒绝其知识范围之外的问题:例如,拒绝在 2021 年 6 月之后发生的新事件(因为它没在这之后的数据上训练过)。这是 RLHF 最神奇的部分,因为它使模型能够隐式地区分哪些问题在其知识范围内,哪些问题不在其知识范围内。
所有的能力都是模型本来就有的,而不是通过RLHF 注入的。RLHF 的作用是触发/解锁突现能力。这个论点主要来自于数据量大小的比较:因为与预训练的数据量相比,RLHF 占用的计算量/数据量要少得多。 模型知道它不知道什么不是通过编写规则来实现的, 而是通过 RLHF 解锁的。这是一个非常令人惊讶的发现,因为 RLHF 的最初目标是让模型生成符合人类期望的回答,这更多是让模型生成安全的句子,而不是让模型知道它不知道的内容。
ChatGPT:通过牺牲上下文学习的能力换取建模对话历史的能力。这是一个基于经验的观测结果,因为 ChatGPT 似乎不像 text-davinci-003 那样受到上下文演示的强烈影响。 text-davinci-003:恢复了 text-davinci-002 所牺牲的上下文学习能力,提高零样本的能力。 我们不确定这是否也是 RLHF 或其他东西的副产品。根据 instructGPT 的论文,这是来自于强化学习调整阶段混入了语言建模的目标(而不是 RLHF 本身)。
总结当前阶段GPT-3.5的进化历程
语言生成能力+基础世界知识+上下文学习都是来自于预训练( davinci ) 存储大量知识的能力来自 1750 亿的参数量。 遵循指令和泛化到新任务的能力来自于扩大指令学习中指令的数量( Davinci-instruct-beta ) 执行复杂推理的能力很可能来自于代码训练( code-davinci-002 ) 生成中立、客观的能力、安全和翔实的答案来自与人类的对齐。具体来说: 如果是监督学习版,得到的模型是 text-davinci-002 如果是强化学习版(RLHF),得到的模型是 text-davinci-003 无论是有监督还是 RLHF,模型在很多任务的性能都无法超过 code-davinci-002 ,这种因为对齐而造成性能衰退的现象叫做对齐税。 对话能力也来自于 RLHF( ChatGPT ),具体来说它牺牲了上下文学习的能力,来换取: 建模对话历史
增加对话信息量 拒绝模型知识范围之外的问题
GPT-3.5 目前不能做什么
我最近遇到的一个例子是:ChatGPT 坚持认为 3599 是一个质数,尽管它承认 3599=59*61。另外,请参阅 Reddit 上关于游得最快的海洋哺乳动物的例子。 然而,模型信念的强度似乎存在不同的层次。一个例子是即使我告诉它达斯·维达(星球大战电影中的人物)赢得了 2020 年大选,模型依旧会认为美国现任总统是拜登。但是如果我将选举年份改为 2024 年,它就会认为总统是达斯·维达是 2026 年的总统。
生成如何做豆腐脑的方法。做豆腐脑的时候,中间很多步骤模糊一点是可以接受的,比如到底是做咸的还是做甜的。只要整体步骤大致正确,做出来的豆腐脑儿就能吃。 数学定理的证明思路。证明思路是用语言表达的非正式的逐步解法,其中每一步的严格推导可以不用太具体。证明思路经常被用到数学教学:只要老师给一个大致正确的整体步骤,学生就可以大概明白。然后老师把具体的证明细节作为作业布置给学生,答案略。
一个例子是严格的数学证明,要求中间步骤中不能跳,不能模糊,不能错。 但这种严格推理到底是应该让语言模型做还是让符号系统做还有待讨论。一个例子是,与其努力让 GPT 做三位数加法,不如直接调 Python。
模型的内部知识总是在某个时间被切断。模型始终需要最新的知识来回答最新的问题。
结论
“因为山就在那里。”——乔治·马洛里,珠穆朗玛峰探险先驱
常见问题
这篇文章中的这些说法更像是假设(hypothesis)还是结论(conclusion)?
复杂推理的能力来自于代码训练是我们倾向于相信的假设(hypothesis) 对没有见过的任务泛化能力来自大规模指令学习是至少 4 篇论文的结论(conclusion)
GPT-3.5 来自于其他大型基础模型,而不是 1750 亿参数的 GPT-3 是有根据的猜测(educated guess)。
所有这些能力都已经存在了,通过 instruction tuning,无论是有监督学习或强化学习的方式来解锁而不是注入这些能力是一个比较强的假设(strong assumption)。主要是因为 instruction tuning 数据量比预训练数据量少了几个数量级。
结论(conclusion)= 许多证据支持这些说法的正确性;假设(hypothesis)= 有正面证据但不够有力;有根据的猜测(educated guess)= 没有确凿的证据,但某些因素会指向这个方向
为什么其他模型(如 OPT 和 BLOOM)没有那么强大?
OPT 大概是因为训练过程太不稳定
BLOOM 的情况则未知。如果您有更多意见,请与我联系
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者