Jan Leike：OpenAI将如何在4年内实现超级对齐？

公众号新闻

2023-08-31 12:08

作者：Daniel Filan@AXRP

推荐人：Cage

编译：wenli、彦希

排版：Mengxi，Scout

OpenAI 在上个月初公布了自己的“超级对齐(Superalignment）” 计划，同时宣布将一次性拿出总算力中的 20% 投入到这个新方向中。OpenAI 的联创和首席科学家 Ilya Sutskever 和原对齐团队负责人Jan Leike 将共同领导这个新项目，目标是在 4 年时间内解决超级智能对齐的核心技术挑战，以保证人类对超级智能的可控。

为了实现这一点，OpenAI 需要先训练一个“和人类水平齐平的自动化对齐器”，再借由这个“自动对齐器”来实现和超级智能的对齐，根据 Introducing Superalignment 这篇文章，“自动对齐器”的设计中还涉及到实现让 AI 评估并监督 AI、基于可解释性对系统进行安全性验证、以及利用未对齐模型对系统进行扰动测试等。

本文为 Jan Leike 的访谈编译，是 Jan Leike 对于 OpenAI 要如何实现“超级对齐”的更为详细的技术思考。

以下为本文目录，建议结合要点进行针对性阅读。

👇

01 Superalignment 团队

02 让模型“自主对齐”

03 Superalignment 时间表

04 泛化（generalization）

05 对 Superalignment 保持乐观

01.

Superalignment 团队

Daniel Filan: 先介绍一下 Superalignment 团队吧？

Jan Leike：Superalignment 团队的目标是在未来 4 年内解决超级智能的对齐（alignment）问题。OpenAI 的联合创始人及首席科学家 Ilya Sutskever 也会加入这个团队，和我共同领导这个项目。此外，OpenAI 也会拿出 20% 算力资源投入到这个课题上。我们也正在积极招聘人才加入这个项目组。我们非常希望能吸纳未从事过 alignment 研究的机器学习专家和工程师，在这个问题上或许这些人可以发挥很大潜力。

我们设计了一个初步的工作框架，核心思路是先训练一个和人类水平相当的自动对齐器（automated human-level alignment researcher），然后由它继续研究如何完成 Superintelligence alignment 的工作。因此，我们要做的关键工作之一，就是弄清楚如何 “对齐” 这个自动对齐器。

Daniel Filan: 这个新团队的规模有多大？

Jan Leike：我们现在大约有 20 多人，到今年年底可能会达到 30 人，在未来四年之内，这个团队大概率不会超过 100 人，不过这个团队规模扩大的方式可能是拥有数百万个“虚拟人”，或至少相当于 OpenAI 员工数量的“虚拟人”（拾象注：此处的“虚拟人”指 OpenAI 内部会使用多模型与科学家协同合作的方式做对齐）。如果从这个层面上说的话，我们在未来一定会进行大规模扩张。

Daniel Filan: 你提到 OpenAI 会给到这个团队 20% 的算力支持，这 20% 意味着什么？

Jan Leike：对于 OpenAI 而言，分配 20% 的算力到这个团队并不是一个小数字，这绝对是迄今为止我们在对齐方面最大的一笔投资，而且有可能超过其他所有投资的总和。因此，从这个意义上说，20% 的计算资源对于 OpenAI 来说是相当大的比例。此外，如果我们把这个数字比例放得特别大，一定会有人质疑 “OpenAI 能否真正做到这一点”，但其实对于 OpenAI 来说，如果要持续开发最前沿的模型、并对最先进的 AI 系统进行预训练，那将需要大量的计算资源。

Daniel Filan：在此之前， OpenAI 已经存在一个对齐团队（Alignment team）了，这个团队是否还存在？

Jan Leike：去年成立的对齐团队有两个部分，一个叫 “实用性对齐”（Practical alignment），一个叫“可扩展对齐”（Scalable alignment）。实用性对齐团队重点关注的是 GPT-4 的对齐工作，可扩展对齐团队的目标则是研究我们目前还没能解决的对齐问题。随着 ChatGPT 的发布以及后续获得的成功，ChatGPT 的重要性和产品规模都在不断提升，要求做更大体量的RLHF 和模型来确保产品的功能和体验足够完备，对齐团队（alignment team）已经不适合做这件事了。

我们之前所说的实用性对齐工作现在已经被分散到了 OpenAI 的各个项目团队中、大概有数百人参与其中，所以已经是一个很大规模的项目了，而可扩展对齐这部分工作就是现在 Superalignment Team 在做的事情。

之所以选择用 Superalignment 这个名字是因为我们想强调我们现阶段在研究的事情其实是目前还没出现的问题，我们的研究相对具有前瞻性、是面向未来的。

Daniel Filan: 如何看 OpenAI 之外的人或团队在 alignment 上的尝试？

Jan Leike：OpenAI 之外还有很多人或团队也在尝试相关工作，尤其是 DeepMind 和 Anthropic，某种程度上，我们都在试图解决同一个问题，因此，我们最终从事相似的工作也很正常。还有其他关于可解释性和可扩展监督的工作。

某种程度上，我们其实在冒着重复一堆工作的风险，所以理想情况下不如去尝试如何更好地协调或更多地合作。但大家都在做同一件事有可以避免了“群体思维”，因为如果每个实验室都想自己独立解决这些问题，自然会对其他实验室的成果产生怀疑，消极的一面则是会产生 “非此即彼”效应：即人们不愿意使用其他地方发明的技术，人们会天然地认为除自己之外的技术不好，或者带着某种偏见去看。

所以现在并没有处于很好的平衡状态，虽然有理由认为所有对齐人员都应该在一个地方，并以某种方式一起工作，但这就是现实，因为从本质上讲，前沿的 AI 实验室有动力在“对齐”这件事上投入很多资源。随着 RLHF 的成功，这一点也变得非常明显，它让模型变得更有商业价值，从而使得投资于这类技术的研究这件事变得更有吸引力。

Daniel Filan：OpenAI Superalignment Team 的方法有什么不同？

Jan Leike：我们真正关注的是如何对齐这个自动对齐器，而不是为了弄清楚如何对齐各种任务。因此，至少在这个问题上，我们不太担心对齐税（Alignment tax）。我不认为其他实验室会以这种方式强调这一目标或方向。

对齐税（Alignment tax）：

也被称为安全税，指确保人工智能系统对齐的额外成本。在本文中提到的 RLHF 下的对齐税，意指为了做 RLHF，底座模型能力为了实现 alignment 有所损失，例如增加的开发时间、额外的计算或性能下降等。

我们非常看好的做法是：尝试所有可扩展的对齐技术，看看哪些最有效，并试图找到可以进行实证比较的方法。其他实验室也有他们非常看好的、特定的可扩展监督技术，他们也在尝试使用这些技术。另外，在可解释性方面，我们正在采用自动化的可解释性方法，并且也在大力推广，而现在其他实验室还没有这么重视这种方法。

我们真正想做的另一件事是利用计算来推进对齐，这是我们的主要策略之一，尤其是在可扩展的监督方面，我们真的很想弄清楚，如何通过更多的算力来发出更好的监督信号？我们有哪些机会？如何把批评模型（Critique model）上做得更好？如何用更多的算力让监督信号变得更强？自动可解释性（Automated interpretability）是一个非常简单的方法，我们只需投入大量算力就能在这个问题上取得进展。

批评模型（Critique model）：

是一个独立的语言模型。它会先审查第一个AI系统的结果，然后编写评论。

此外，还有自动化校准研究：如果能做到这一点，我们就可以通过投入更多的算力获得更多的对齐结果。但由于我们真正想做的是将算力数量转化为对齐能力，因此现在我们需要大量的算力，而这也是 OpenAI 愿意将 20% 的算力用于对齐的原因。这基本上表明，如果我们真的找出了这个自动对齐器，并发现我们需要更多的算力，我们就能够使用更多的算力来运行它。这同时也意味着，将算力转化为对齐的策略是成功的，而且也会得到 OpenAI 的支持。

02.

让模型“自主对齐”

什么是“自动对齐器”

Daniel Filan: 什么是“和人类水平相当的自动对齐器（automated human-level alignment researcher）”？

Jan Leike：我们的目标是尽可能利用自动化系统来拆解、分发 alignment 工作中的任务。

对语言模型或其他 AI 系统来说，它们能够完成的工作并不是 100% 和人类一致。例如，LLM 在翻译或回答事实性问题等方面可能比人类更表现出色，但在算数计算或其他一些任务上，它们的能力可能不及人类。所以问题在于，我们需要以什么顺序、将哪些任务分配给 AI 来处理，从而解放人类研究人员的有限的精力？因此，人类团队将能够更高效地完成关键工作，同时 AI 也将承担越来越多的辅助任务。

总的来说，AI 参与工作的占比将越来越高，而人类研究员更加关注那些没有被 AI 接管的任务，通过人机协作更实际地加快 superintelligence alignment 的研究。

Daniel Filan: 所以并不是用 AI 来取代 OpenAI alignment 团队中的某几个人类员工，而是用 AI 来完成每个人都在做的特定的某一类工作，然后一步一步地去用 AI 替换更多任务的执行？

Jan Leike：是的，我认为如果想让这个系统的产出效率足够高，99% 或 99.9% 的任务都应该是自动化的，这样我们就能获得 10 倍、100 倍，甚至 1000 倍的研究成果。

我会将这里提到的“任务”大致为两大类。一类是更偏传统机器学习工程研究的任务，目的是为了帮助提升 AI 系统的能力，比如实施各种 ML 的实验、收集实验结果等。

另一类则是为了实现超级智能对齐（Superintelligence alignment）过程中必须要做的事情，这类问题相对而言更大、更高层次（high-level），例如，为了改进可扩展性监督（Scalable Oversight），我们要如何决定进行哪些实验？又或者怎样才能在可解释性方面取得进展。当然，这里面一定也有一些很具体的问题需要回答，例如，当某个研究进行到特定阶段后需要明确后续需要解决的一系列问题等这种很细节的问题。

可扩展性监督（Scalable Oversight）：

可拓展性监督的目标是确保模型能力在超过人类水平后，仍旧能够与人类期望保持一致、持续地进行改进和学习。这要求研究人员思考如何提高模型的容量、对齐模型的价值观以及持续监督模型的表现。可拓展性监督的重点是如何向模型持续提供可靠的监督，这种监督可以是各种形式的，例如标签、奖励信号或批评等。

我预计机器学习可以把第一类任务，即设计和自动运行实验，完成得很好，而我们今天在做的这种独特的加速 alignment 进展的工作，就是要找出如何自动化第二类任务的方法。

Daniel Filan: 第二类任务似乎要解决的是一个全流程的任务？不仅是想出研究方向、想出什么东西可能有助益，甚至到 “我现在要运行什么脚本” 。

Jan Leike：这个问题其实可以这么问：即然 alignment 研究在很大程度上和传统 ML 研究类似，到底还有哪些是第二类任务可以去做的？

我认为涉及到第二类任务的内容其实很多，并且这部分的研究杠杆作用很大。因为从研究议题的角度，我们甚至还没在“如何定义 alignment ”这件事上达成共识，即便是行业专家也在“最有可能实现 alignment 的技术路线”或者“接下来应该做哪些工作”这些问题上存在分歧。所以，如果能加速 alignment 这件事，带来的影响一定是巨大的。这也是我们号召研究者加入 OpenAI Superalignment 团队时告诉他们的愿景和方向。

现阶段我们还在解决一些基础问题，关于 alignment 的研究还有很多努力要做。我们并不知道如何对齐超级智能，甚至只是对齐比人类智能更高的 AI 系统也相当难。

Daniel Filan：你提到了和人类水平相当的自动对齐器这个概念，但似乎在 AI 领域，大多数事情还没完全达到人类水平。“人类水平” 在这个目标中有多重要？你所提到的那些任务中，如果在某些任务上 AI 确实超越了人类水平，这件事是好是坏？

Jan Leike：我认为这个问题的关键在于在 alignment 的研究中拥有这种等齐于人类水平系统的风险有多大。

AI 系统拥有大量知识这件事并不可怕，但当这个系统接管了某些（在长远期来看则是大部分）alignment 研究的话，我们就需要考虑它是否会对人类撒谎？AI 是否会试图欺骗我们并趁机掌控系统？

因为我们目前的确不了解模型的很多行为是如何发生的，所以我们实际面临的问题是，我们需要什么样的技能来理解它的行为和风险，它与我们建立一个超对齐自动研究器所需要的技能相比如何？

如果更进一步探究这个问题，我们真正担心的问题会是什么？那可能会是，模型是否会编织一系列能够欺骗到人类的谎言？模型是否已经在欺骗人类？是否在表面上假装做某件事情或相信某件事情，而实际上却指向另外一个目标？

因此，评估模型是否会越狱（self-exfiltration）也很关键：模型是否能够破解系统的安全防范措施、获取模型权重参数并试图将其复制到互联网其他地方的能力有多强？又或者说，模型是否有可能通过说服一名有权限访问权重的人类工程师来下载这些数据并将其发送到其他地方？我们也可以衡量模型在这方面的能力，在这些很关键环节上，我会希望模型能力不要过强。

Daniel Filan: 人类级别的自动对齐器需要非常聪明、有创造力、能够实现任务规划，同时它还必须非常擅长思考对齐相关的问题，在这种情况下，有声音认为如此强大的工具本身对于人类而言就是非常具有威胁性的。如果任务是对齐自动对齐研究员，还有没有其他问题需要它来解决？

Jan Leike：我觉得这最终会是一个经验导向的事情。

我们可能可以先从宏观层面设想一下这件事。比如，有一个相当明显的可能是，一旦模型能力提升，我们自然而然会让模型来帮忙实现一些 alignment 的研究工作，而在模型帮我们进行研究的同时，它自己的能力又得到了提升，所以从结果上我们就可以利用这一点很快训练出一个更强大的模型。

这个故事乍一听相当让人兴奋，但实操角度其实很复杂。首先，模型预训练通常需要几个月的时间，并不是以周为单位，所以，在新一代模型诞生之前，我们需要一直使用这一代模型。另一个还没有明确答案的问题是：在算力提升上，是否仍然存在很多“低垂果实（ low-hanging fruit）”？

我认为，和 alignment 相比，整个 AI 社区在提高 AI 速度和能力上的投入和关注都是相当大的，如果我们能自动化更多的这些任务以使两个社区都受益，那么在 alignment 社区规模更小的情况下，它带来的边际效益会更高。

Daniel Filan: 当涉及到 alignment 这一研究方向的评估时，你认为这个自动对齐器的长期目标会是什么？

Jan Leike：我认为语言模型或一般人工智平均而言比人类更有创造力。例如扩散模型（diffusion model）生成的图像，或者从一个预先训练好的基础模型中采样，一定会发现有很多很出乎意料的东西，所以模型的创造性特别强，这些是我们很难从某个人或一小群人类身上获得的，而模型能做到这一点是因为它已经学习了人类说过的所有话或者互联网上的所有图像，从而在这个超大范围的分布上完成取样，单个人类无法做到这一点。

就长期目标而言，我认为其实根本不需要刻意追求所谓长期，因为我们可以先把短期任务交给 AI，如果它们很擅长这些任务，那已经相当足够了。例如，可以是非常小范围的事情，比如 “这是我们刚写的论文，请提出一些下一步的建议或者有哪些新实验可以去实施”。想象一下，我们其实在让一位真正的明星 AI 研究员提出问题，所以它们不必追求长远目标，只需要帮助我们优化接下来的小目标，大概几千个 tokens 即可，如果它们能把这个做好，就已经能带给人类很多价值了。

Daniel Filan: 这似乎与前面提到的 99.9% alignment 任务都可以自动化这个目标有些冲突？在我看来，要做好 alignment 研究的一个关键也是要持续思考并解决“需要哪些东西才能真正得到一个对齐的 AI”这样的问题？

Jan Leike：没错。但我想表达的是当系统出色地完成这些任务的同时就已经实现了很多价值，而我们人类要做的就是将这些任务组合起来。比如有些任务是 “编写实现这些实验的代码”，而另一些任务则是“查看结果并告诉我你看到了什么”，或者“建议下一步该怎么做”。本质上，当模型完成了这些任务之后，我们就可以用一些通用的方法将它们组合起来，就像人们在 Auto-GPT 或语言模型程序中所做的那样，每个任务都很小，而且自成一体，因此系统不需要刻意追求某个大的、长期的目标。

举例来说，OpenAI 最近的 Let's Verify Step by Step 就是利用了数学中的基于过程的反馈，根据人类对证明过程中每一步的反馈来训练奖励模型，而非训练 “系统是否得到了正确的解决方案？”。事实证明这样做更有效，因为它为 AI 系统提供了更精细的学习方式和更详细的反馈。但从更长期来看，这是否能与端到端的强化学习的竞争？我们暂时还不清楚，但至少在目前，我们可以使用这种详细的步骤分解，让系统做很多人类会做的真正有用的事情，然后将这些事情组合在一起。

Let's Verify Step by Step：

Hunter Lightman 等人发布于 2023 年 5 月的一篇研究。主要针对大模型复杂多步推理任务上经常出现逻辑错误的问题，作者对比了结果监督和过程监督两种方法：结果监督主要为最终结果提供反馈，而过程监督，它为每个中间推理步骤提供反馈。研究发现，过程监督明显优于结果监督的训练模型，尤其是在数学问题上。此外，作者发现主动学习显著提高了过程监督的有效性。

Daniel Filan：你提到的小任务之一是 “查看结果并决定下一步做什么”。如果要做到这一点，你必须思考清楚具体哪一个项目对于在四年内实现 superintelligence alignment 的目标最有用？

Jan Leike：你说得对。不过，并不是通过优化和长期进行信用分配（credit assignment ）的方式来实现，更像是在提示中加入一些更广泛的目标和背景。

然而，在实际应用中，当我们通过强化学习（RL）或基于人类反馈中进行强化学习（RLHF）来改进系统时，我们其实并不需要等到研究项目结束才能得出这些方法是否有效的结论。相反，我们可以将人类反馈作为提出奖励的依据，只需要问自己：“这个方向看起来是否比我自己想到的任何方向都更好？”

因此，我认为 Superalignment 的总体目标不是实现目前技术下最强大的自动对齐，而是构建一个非常有用且可大规模应用的系统，最重要的是，我们相信它能够实现 alignment，可以放心地将这些任务交给它处理。

相较于任务拆分，也许会有观点认为做端到端的训练才有可能让模型能力更强。但我认为这并不是那么重要，实际上，端到端的训练方式不仅很大程度上限制模型能力，效率也比较低，这就是通常是人们所说的 “对齐税”（alignment tax）。

如果考虑要到市场上和其他公司有效竞争，“对齐税”是一个很重要的影响因素：假设我正在构建一个聊天机器人，这个聊天机器人在对齐方面做得特别好，但似乎能力要弱得多，这在市场上实际很难竞争。但是，如果你拥有一个自动对齐器，这个自动对齐研究者不需要在市场上竞争，它只需要对我们有用即可。因此，我们可以接受更高的对齐成本，因为我们没有替代品，或者真正的替代品是雇佣更多的人类，但这种方式并不那么可扩展。

Daniel Filan：你希望这个自动对齐研究器能够解决哪些问题？

Jan Leike：它应该能解决“我们如何调整 superintelligence ”的问题。Superintelligence alignment 实际上的解决方案，可能会与我们今天正在做的 alignment 大相径庭。

ChatGPT 的解决方案是大量地从人类反馈中强化学习，即 RLHF（ Reinforcement learning from human feedback ）。现阶段的普遍共识是，这种方法可能很难扩展，因为它从根本上假定人类需要完全了解系统正在做的事情的细节。

所以如果让模型去做大规模 alignment 研究的话，可以想象一下等同于数以百万计的人类工作量级的任务，人类显然不可能查看所有的数据并给出详细的反馈，这件事相当困难，在这个过程中我们也一定会忽略到很多重要 bug。

Superalignment 团队现在正在研究的技术是让 RLHF 变得可扩展，并实现对自动对齐器的 alignment。这个自动对齐器和人类水平差不多，它能替代人类完成这些困难的任务，但又不会做得与人类相差太多。我们想要实现的这些技术都是对之前技术探索的升级或严肃，比如可扩展的监督就是对 RLHF 自然而然的延伸。

可扩展的监督定义为一般的想法和技术组合，使我们能够利用 AI 来协助人类评估困难的任务，可以从人类反馈的强化学习（RLHF）中建立监督。

可扩展监督的典型代表有辩论（debate）、递归奖励建模（RRM，recursive reward modeling）、迭代蒸馏和增强（iterated distillation and amplification）、自动做市（automated market making）等等。还有很多新的方法在不断涌现。

我认为，如果我们真的要做到超级智能（superintelligence）的对齐，考虑到这个系统比人类更聪明、思考速度更快、计算规模完全是新的量级，那就会带来一大堆其他问题，尤其是因为它将具有超强的通用性，可以完成很多任务，然后你就必须弄清楚如何对其进行 alignment ，而不仅仅是 alignment 分布更窄的研究任务，还有其他所有任务。此外，你还需要通过大量的经验评估来验证它是成功的。

所以目前不光是我，所有人都不知道未来是什么样子，但如果能进行一些形式上的验证，那将会非常令人兴奋。也许我们已经找到了某种有理论保证的算法，但理论和接下来的实践或许会大相径庭，甚至我也不认为一个大致达到人类水平的对齐研究器会立即着手去解决这些问题。相反，我们希望它们找到更好对齐下一次迭代的方法即可，这样，我们就可以通过引导的方式，最终拥有一个帮助我们调整超级智能（Superintelligence）的系统。

Daniel Filan：一旦你有了这些人类级别的人工智能对齐研究人员，OpenAI 还需要 superintelligence alignment 团队和对应的员工吗？

Jan Leike：这是一个好问题。如果能被 AI 取代，我个人会很兴奋。但从历史上看，典型的情况就是我们之前提到的：AI 助手完成 99% 或 99.9%的工作，人类负责剩下的 1% 或 0.01% 。从长远来看，即使我们早已无法真正理解 AI 所做的一切，也需要确保人类应该以某种方式参与其中，或始终能够控制 AI 在做什么，换句话说，一定必须存在人类角色来尝试理解 AI 执行任务中的高层次含义，这些人并不一定非得是现在 OpenAI Superalignment 团队，因为这件事所需要的技能组合也可能与我们现在所拥有的截然不同。

Daniel Filan: OpenAI 在自己的 blog 中不断提到：安全与模型能力息息相关，我们需要智能模型来解决 alignment 问题，但与此同时，我们又希望不被模型能力所变革。Planning for AGI and beyond 中有这样一段话：“ AGI 如果有足够的能力加速自身的发展，就有可能导致重大变革以令人惊讶的速度发生” 、“我们认为相对较慢的发展 AGI 更容易保证安全 ”。如果我们制造出了一个非常聪明或接近人类水平的对齐器，然后有效地将对齐团队的规模扩大到 10 倍或 100 倍，这是否最终会进入递归的自我改进（recursive self-improvement）循环中？

Jan Leike：这是必然的。如果没有大幅提高对齐能力，就不可能有递归的自我改进循环。我个人认为，AI 实现能力飞跃的可能性相当高，我们一定要为之做好准备。如果它没有发生，我也会很满足。

如果我们看其他的 AI 系统，比如 AlphaGo、Dota 或 StarCraft，这些系统几乎以周为单位进行大幅度的能力迭代。至于具体会发生什么事情，我们暂时还无法确定，因为存在很多不确定性，但我认为我们应该为这种可能性做好准备。当这种情况发生时，一个非常好的办法是拥有能够在每周内实际完成数千年等效工作的自动对齐研究者，而这是人类无法做到的。

如何设计出自动对齐器

Daniel Filan: 如何实现这个人类水平的自动对齐器？

Jan Leike：大体上可以分为两部分，首先，我们需要一个智能到足够程度能够执行任务的系统；另一方面，我们要对这个系统进行 alignment，确保它确实能够执行任务。这两个部分并不是完全独立的，它们之间有着密切的联系。

我个人并没有参与第一部分的研究，但我相信它肯定会实现，很多人都在努力使其成为可能。它有很多不同的发展方向，但你可以想象模型越训越大，最终它会变得足够智能。

我个人真正感兴趣的是第二部分，我们在研究中面对的问题是：有了这个非常聪明的预训练模型，如何让它按照你想要的方式进行 alignment 的研究？或者更重要、更关键的是，你如何知道能否足够信任由它来执行这个任务？

我们的模型可能会尝试以某种方式呈现结果和技术，使其在你决定实施它们时，实际上会增强系统本身或其他相关系统，并在未来表现出更多的权力追求行为，或者进行越狱（self-exfiltrate）等行为。

因此，我们需要对 AI 进行 alignment，确保它能够按照我们的期望执行任务，并充分利用其能力，使其在任务上达到最好的表现。为此，需要开发一系列对齐训练方法，以确保 AI 在执行任务时保持对齐状态。

这其实是两类不同的系统，我们需要区分清楚系统是真对齐还是假对齐，前者是能够努力进行对齐研究并真实帮助我们、寻求真相的系统；后者可能存在意图控制世界、越狱或进行其他不良行为的风险。因此，我们需要建立机制或方法来辨别这两种对齐，以确保我们能够信任并依赖真实对齐的系统。

我们的工作中一个重要的部分就是找出如何区分真假对齐，我称之为验证方法，它们不是直接用于训练 AI 系统，也不是直接作为选择系统的依据，而是提供一种独立的信号，用于判断系统是属于真正对齐的系统还是虚假对齐的系统。

比如，可解释性研究就是这样一种方法。如果我们通过查看模型内部来发现一些证据表明模型在秘密策划对抗我们，那么该模型将无法通过验证测试，被认定为虚假对齐的系统。

另外一个方法是从易到难的泛化问题，这可能是一个训练或验证的技术，具体取决于设置方式。该问题考察的是模型从我们能够监督的简单问题上的泛化能力，是否能够推广到我们难以监督的困难问题上。如果模型能够在简单部分上进行监督，并在困难部分上进行交叉验证，那么我们就可以确定模型是否存在秘密欺骗或其他行为的风险。

Approach 1: 可扩展的监督

Daniel Filan: 可扩展的监督要如何实现？目前还没有对 alignment 达成很多共识，要如何获取用于高质量alignment 研究的训练信号？

Jan Leike：没有达成共识确实再次说明 alignment 其实很难解决，这个领域暂时还没有很成熟，所以到目前为止我们还没有得到那么多的经验总结。但我认为，alignment 研究有一些非常重要的特性，我们可以利用这些特性进行可扩展的监督。

评估对齐研究的质量可能比但单纯研究对齐更好切入，这并不代表说 alignment 的研究很容易，并不意味着评估它很容易，但是找一篇论文要容易得多。例如，这篇论文有一个很酷的想法，做了一些很酷的实验，并且结果很不错你读了之后一定会感受到这篇相关研究的质量，这比完成这项工作要容易得多了。

因此，“评估比生成更容易” 这一原则是许多可扩展监督理念的核心。举例来说，如果考虑递归奖励建模，其基本思路是利用 AI 助手来帮助你评估其他 AI 系统的工作：首先让辅助 AI 系统在一个相对简单的任务上进行对齐，这个任务是作为评估助手来辅助评估其他 AI 系统。

由于评估比生成更容易，因此辅助 AI 系统的任务相对简单，尤其是因为人类与辅助 AI 系统合作进行评估。一旦在这个任务上取得成功，就可以利用人类和辅助 AI 系统的结合来监督一个新的 AI 系统在更困难的任务上进行训练。

通过不断重复这样的过程，我们可以不断扩展我们能够有效监督 AI 系统的任务范围。这种方法使我们能够利用评估任务的相对简单性来指导和训练 AI 系统，逐步解锁更广泛的任务领域。

Scalable agent alignment via reward modeling: a research direction：

Jan Leike 发布于 2018 年的一篇有关递归奖励建模的研究，为强化学习算法应用于现实问题设计合适的奖励函数。此外，还讨论了代理对齐问题，即如何创建行为符合用户意图的代理。团队概述了一个高层次的研究方向来解决以奖励建模为中心的智能体对齐问题，从与用户的交互中学习奖励函数。

Daniel Filan：也就是说，通过迭代地向 alignment 研究的评估部分添加越来越多的 AI 知识。通过以这种迭代的方式进行操作，能够始终为 AI 系统提供良好的训练信号。

Jan Leike：是的。举例来说，RLHF 是最简单的一种，无需使用任何助手，人类看了 AI 表现结果之后会评价好不好，这就是一种训练信号。

Deep reinforcement learning from human preferences：

Paul Christiano 和 Jan Leike 在 2017 年发表的一篇研究。在这项工作中，主要探索了根据（非专家）人类对轨迹段之间的偏好定义的目标，使复杂的强化学习（RL）系统与现实环境有效地交互。研究表明，这种方法可以有效地解决复杂的强化学习任务，而不需要访问奖励函数，包括 Atari 游戏和模拟机器人运动等，同时对不到 1% 的代理与环境的交互提供反馈。这大大降低了人为监督的成本。

接下来，从前面描述的方法中进一步发展，基本上是训练最简单的助手模型，即批评模型（critique model）。这是一个独立的语言模型，它观察第一个 AI 系统的输出，并写出批评。

例如，第一个 AI 系统编写了一段代码，然后我们来观察这段代码：人类在发现代码中的错误方面往往表现不佳，这就是为什么世界上存在如此多有错误的代码的原因。但是，现在如果有一个批评系统能够写出批评并指出错误，那么对于人类来说，很容易判断：“这绝对是一个 bug，我们应该修复它”。

这里要说明的是，这个任务本身并不是非常明确，因为通常情况下，代码是根据某种自然语言规范编写的。实际上，这个规范的含义有些模糊不清，而且确定某个问题是否是 bug 可能存在歧义。但更重要的是，通过使用批评模型作为助手，你可以拓展监督的任务范围。尽管代码中的问题和 bug 的确定性可能存在一定的模糊性和歧义，但你仍然能够利用批评模型的输出来发现更多问题。这种方法可以让你在更广泛的任务领域中有效地监督 AI 系统，扩大监督范围。

非常好的一点是，实际上有许多方法可以通过实证研究来评估这种方法的效果。其中一种方法，就是我们去年在发布的论文中使用的方法，基本上是通过有针对性的扰动进行随机对照试验。假设你有一个编码任务，虽然在论文中我们没有使用编码任务，但这里任务的具体内容并不重要。然后，你有一个响应结果，这个结果不必完美，但我们假设它是完美的。你要做的是在这个响应结果中引入一些微妙的错误或缺陷，使其成为一个不太好的、但难以令人类察觉的坏响应。

这里提到的论文是发布于 2022 年的 Self-critiquing models for assisting human evaluators，这篇论文主要是对大型语言模型进行微调，使用行为克隆来编写自然语言评论。由该模型编写的评论可以帮助人们发现结果中的缺陷。此外，作者还研究了基于主题的摘要和综合任务的评论的尺度特性。更大的模特会写出更有帮助的评论。

Daniel Filan: 如何引入这些 bug ？

Jan Leike：最简单的方法就是让人类来做，但最终我们要让模型自己来完成这个过程。

首先，随机抽取扰动中的其中一个，然后把它展示给人类或 AI 辅助下的人类，或任何可扩展的监督方法。然后看看他们发现它的可能性有多大？或者你直接问他们：“这里有漏洞吗？”这样的问题，就可以得到他们发现错误的频率。

此外，你还可以直接比较模型对问题的认知程度，将模型训练为一个能够区分好版本和有缺陷版本的判别器（discriminator）。判别器的准确率代表了它的性能。接下来，要求模型或经过 RLHF 改进过的模型对代码进行评论。然后观察模型在评论中提到代码缺陷的频率如何。将判别器的准确率和模型生成评论的准确率进行比较。判别器准确率反映了模型对问题的认知能力，而评论准确率反映了模型对代码缺陷的意识能力，这就是我们所说的判别器-评论器差距（discriminator-critique gap）。

如果这个差异值很大，这就意味着有很多问题是模型可以嗅到但它没有告诉我们的，因为如果我们让它写评论，它不会说出来。这种情况就非常令人担忧了，因为这意味着你的可扩展监督在某种程度上存在很大缺陷，有很多事情在你的雷达监控之下溜走了。或者从某种意义上说，这个 AI 助手并不是很配合，因为它并没有很努力地帮助你。

反之，差异值小则意味着这个 AI 助手一旦知道模型有问题，它就会告诉你。特别是，如果一个类似大小的模型或相同的基础模型试图植入问题或放置难以发现的木马病毒，在差异值小的情况下，那么我们可以更有信心排除这种攻击的可能性。因为另一个模型副本很可能会写出评论，揭示潜在的问题。

这种情况依赖于一种假设，即判别器训练实际上可以从模型中消除这种情况。我认为我们有充分的理由相信这一点，因为对一个判别器进行微调基本上可以访问模型中的所有激活，并同时微调所有的权重。因此，如果知识存在于模型的激活中的某个位置，只要正确地进行微调并且拥有足够的数据，判别器的微调应该能够提取出这些知识。

实际上，你可以进行一些反向计算，以确定你需要多少数据。假设模型中有一个单独的神经元，它能找到代码的问题。为了找到并识别这个神经元，你需要的数据点数量大致上是总神经元数的对数级别。这意味着相对较少的数据点就足以缩小范围并找到具有特定功能的神经元。这个估算表明，通过判别器训练和足够的数据，我们有可能发现模型中特定神经元的功能。

Daniel Filan：这也是我对整个计划的一个疑问。我们不喜欢 RLHF 的原因是，它可能无法区分人类认为正确的东西和 “听起来不错” 的东西，因为人类不擅长批评。

递归评论的想法是通过训练判别器和评论器来不断提高评论的质量。一个方法是我们训练一个能够写出真正好的评论的东西，然后我们与它合作，训练一个评论能力更强的东西。这种情况下，我们逐步提高了对评论质量的要求，以达到更好的结果。但是否存在另一个情况，即我们训练一个东西，无意中训练它写出对我们听起来不错的伪评论，然后我们与它合作，进一步提高我们对听起来不错的评论的辨别能力。这可能导致我们更关注那些只是听起来好但实际上是问题的事物，而忽视了实际上存在的问题。

Jan Leike：是的，我同意这是一个非常重要和合理的问题。在探索可扩展监督的应用时，理解其关键问题之一就变得至关重要。因此，我非常高兴能够实际应用这些技术并进行经验性尝试，因为我相信通过实践我们能够更好地评估这些方法的效果。

衡量这种效果的一个具体而简单的方法是故意训练一个具有欺骗性对齐的模型，然后观察可扩展监督是否能够识别并标记这种欺骗行为，或者这种行为有多难以被检测出来......或者我们需要付出多少努力才能使模型成功地欺骗性地对齐，以逃避我们的可扩展监督。

Daniel Filan: 是的，我想到了“夹心实验”（sandwiching experiment），用于测试人工智能对法律问题的回答。在这个实验中，一些非法律专业的人被要求提出法律问题，然后再找一些真正精通法律的人，希望他们能够检查人工智能是否愚弄了那些非法律专业的人。

Jan Leike：这些实验确实非常有趣，并且该领域已经有了一些有趣的研究。你指出的一些基本问题确实需要被考虑到。

首先，你提到了对专家的信任问题。因为专家有时也会犯错，依赖于专家的判断可能存在一定的不确定性，这确实是一个重要的考虑因素。此外，确保专家和任务之间有足够的领域重叠也是至关重要的，这样他们才能够提供准确的评估和反馈。

另一个问题是，对于某些任务，我们可能并不了解其基本事实或真相。即使在对齐研究这样的领域，我们可能存在不同的观点和看法。这使得在这些任务中进行准确的评估变得更加困难。此外，由于专家的数量有限且时间成本较高，收集大量的数据可能是一项昂贵的任务。

因此，总的来说，我希望有一种评估方法，不依赖于我们已经掌握了基本事实的假设。这种方法可以在没有先验知识的情况下进行评估，并且可以适用于各种困难程度的任务，这就是为什么我对使用这些随机对照试验进行有针对性的扰动或测量判别器-批评差距的前景感到兴奋的原因。

Daniel Filan：是的，尽管如此，在衡量判别器-评论器差距时，确实需要一个实际的判别器，而不仅仅是一个区分“看起来有问题” 和 “看起来没问题” 的判别器。

Jan Leike：你是说可以让人工智能系统引入缺陷对吗？在某种程度上，这种方法可能比人类的评估更好，因为它更接近于人工智能系统在实际应用中所面对的真实分布。通过使用这些带有缺陷的数据，可以微调判别器，并且如果我们相信带有缺陷的版本实际上更糟糕，那么我们就可以建立起一种基本的真相。我们可以观察到情况变糟的原因，并进行验证，从而更好地理解它们。

Daniel Filan：尽管人工智能系统可能会让我们觉得某些事情是好的，但实际上并不一定是好的；同样地，如果人工智能系统让我们觉得某些事情是坏的，那么实际上可能真的不好，或者是性能下降了。不论如何，如果人工智能让你觉得这个事情很糟糕，也许就更容易帮助我们检查出问题？

Jan Leike：是的，我明白你的意思。在这种情况下，我可能不应该使用 “真实数据（ground truth）” 这个词，因为它并不是真正的真实值，就像没有什么东西是真正的正确一样，但你可以做很多事情，让你对真实值非常有信心，而这未必能让发现问题的任务变得更容易。

Ground truth：

在有监督学习中，数据标注通常以 (x, t) 的形式出现，其中 x 是输入数据，t 是标注。正确的 t 标注是 ground truth，可以理解为参考标准、参考意义下的真实值，错误的 t 标则不是。

Approach 2: 搜索不良行为和内部结构

Daniel Filan：在 OpenAI 介绍 Superalignment 的文章中，你们的 alignment pipeline 之一是实现自动搜索模型可能产生问题的行为（鲁棒性）和可能带来问题的内部结构（自动可解释性），在这一点上你认为 superalignment 团队接下来要解决的问题有哪些？

Jan Leike：毫无疑问是可解释性。从某种意义上说，可解释性真的很难。现在我们还没有任何关于语言模型的重大成果，可以说可解释性确实给我们带来了很多启发或增加了很多价值，这是因为我们对模型和内部情况的了解还很初级。

Daniel Filan：学界已经对语言模型做了一些可解释性的工作。比如 In-context Learning and Induction Heads 的工作，还有一个间接对象识别（Indirect Object Identification）的工作，至少可以进行某种类型的间接对象识别。我想知道，除了这些，你还需要什么才能到达你理想中的终点？

• In-context Learning and Induction Heads

该篇工作发布于 2022 年，主要关注 Transformer 生成模型不断扩展背景下的相关安全问题，通过对模型执行的详细计算进行逆向工程，提升机械可解释性。通过理解导致 Transformer 模型产生其输出的内部结构，更系统地解决当前的安全问题，并预测未来更强大的模型中的安全问题。

• Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small

这篇文章通过解释 GPT-2 small 如何执行称为间接对象识别（IOI）的自然语言任务来弥合机械可解释性在复杂大模型中表现的差距，证明对大型机器学习模型的机械理解是可行的，这为可解释性扩展到更大的模型和更复杂的任务提供了机会。

Jan Leike：是的，目前人们在可解释性领域的探索很喜人，我觉得更重要的是，如果我们能在一个语言模型奖励模型上使用可解释性技术，比如 GPT-4 大小或任何你能想到的大模型，然后得到了一些我们之前不知道的关于奖励模型的东西，这件事很重要，因为奖励模型为很多 RLHF 训练提供了训练信号，所以更好地理解它是非常有价值的，能标出或发现它所激励的行为中存在我们人类不希望出现的问题会是很重要的进步。

从这个意义上说，我认为可解释性既不是必要的，也不是充分的。我认为我们很有可能纯粹从行为上解决 alignment 问题，而不需要真正理解内部模型。但我也认为，我们从可解释性中获得的任何非微不足道的洞察力都将是超级有用的，或者说可能是超级有用的，因为它给了我们一条进攻的途径。

所以我们完全不可能放弃可解释性的尝试。因为从某种程度上说，你有这个人工大脑，而我们有完美的大脑扫描仪，我们可以完全放大，精确测量每一个神经元在每个前向通路上的激活情况，包括任意的、离散的时间戳，这可能是我们想要得到的最大分辨率。我们还可以进行任意干预，可以任意扰动模型中的任何值。这给了我们很大的空间和机会去做实验，不利用这一点就太疯狂了。

但与此同时，它之所以非常困难，是因为模型正在学习如何根据效率进行计算，而不是正则化为人类可以理解的，或者说，没有理由相信单个神经元应该对应于概念，或者任何接近人类认为它们是或应该是或我们所熟悉的东西。事实上，根据经验，神经网络用单个神经元代表了许多不同的概念，而且每个概念都分布在不同的神经元中。因此，神经元在这里并不重要。

在可解释性方面有两件事我会很关注。

首先是因果关系。我们要在模型中传递数据时查看神经元，例如有一个和 “加拿大” 有关的神经元，当出现与加拿大相关的概念时，它就会触发。但这只是相关性的，未必是因果。为了验证这是一种因果关系，我们就必须故意写一些与加拿大相关的概念，看看它们是否都会发生反应，同时也要写一些其他相关的概念，这些概念可能听起来与加拿大有关，也可能与加拿大无关，但总的来说都很相似，然后检查神经元是否会发生反应，或者看这些神经元是否关闭等等。

Daniel Filan: 这和 Tolga Bolukbasi 等人的 An Interpretability Illusion for BERT 这篇论文，我想它被称为可解释性错觉（Interpretability Illusion），文章提到，我们可以让神经元对一件特定的事情发生反应，但这只是一种错觉但因为在其他数据集上这些神经元又会对一堆其他东西发生反应。

An Interpretability Illusion for BERT：

这篇论文描述了在分析BERT模型时产生的“可解释性错觉”。网络中单个神经元的激活可能看似编码了一个单一的、简单的概念，而实际上它们编码的是一些复杂得多的东西，同样的效果也适用于激活的线性组合。作者将这种错觉的来源追溯到BERT嵌入空间的几何特性，以及普通文本语料库只代表可能的英语句子的一小部分的事实等等。

Jan Leike：另外一件很值得兴奋的事情是，OpenAI 在今年早些时候发表了一篇可解释性的论文 Language models can explain neurons in language models（拾象注：在这篇论文中，实验人员尝试用 GPT-4 解释 GPT-2 neoron 的行为）我们想要的是一种既能在单个神经元的细节层面上工作的技术，这样你就能真正确保不会遗漏任何细节，同时也能在整个模型的尺度上工作。

因为归根结底，模型中的每件事都是相互关联的，所以两者都很重要。而迄今为止，技术大多是二选一。在我们的论文发表之前，已经有人尝试过自动可解释性方面的工作，所以我们并不是第一个吃螃蟹的人。但我认为，如果能开展一些真正面向细节的可解释性工作，一些真正试图理解模型内部单个电路或计算单元的机械可解释性方法，那么将其扩展到整个模型的方法就是自动化，不是吗？

但你也可以这么做：一旦你想出了如何在细节上实现这一点，那么，你只需记录下你正在做的事情即可，也就是说让自动对齐或可解释性研究器详细地研究模型发生了什么。然后，再对整个所有内容进行筛选，或者找到汇总的方法。我在这里简化得有点过了，但总之，这就是让我非常兴奋的想法。

因此，在论文中，我们有大量的解释内容。例如这篇论文为单个神经元编写了自然语言解释，这种解释或许并不完全正确，但它给了你一个我们可以在这里做什么的简单例子。它的工作方式是，你只需向 GPT-4 展示一系列激活模式，然后让 GPT-4 写出建议的解释。

一般来说，这些解释并不是很好，也是因为这项任务太难了，而且大多数神经元并不做人类可以清楚理解的事情。但我们可以在 GPT-2 中每个神经元的规模上运行这个程序，然后把所有的解释都丢掉，再试着找出什么是有趣的模式。你还可以观察扩展趋势，比如 "当模型变大时，如何对这些解释进行自动评分？""或者，"如果我们增加更多的计算量，或者让进行解释的模型变得更大呢？解释的质量会有什么变化？"

最酷的是，我们可以利用语言模型自动测量这个指标。虽然这并不是一个完美的衡量标准，也有很多问题，但它能给你一个 "人类是否会认为这个解释很好 "的代用指标。然后，你就可以大规模地使用这个代用指标，在大量的神经元上运行它。

Daniel Filan：如果你考虑一下必要的可解释性工作，你认为其中有多少是为了找出一个更好的基本解释单位，而不是为了找出如何扩展正在发生的事情？

Jan Leike：我认为两者都需要，前者难度更大，当然这一点很合理，另外要取得成功，我认为还需要扩大规模。

Approach 3: 对抗测试

Daniel Filan：实现 Superalignment 的第三个路径是是故意训练出未对齐的模型（misaligned models），看看管道能否检测到这些模型。那么 OpenAI 是打算把它们剔除掉，还是主动修复它们？

Jan Leike：这里的目标并不是修复这些故意训练出来的未对齐模型，事实上这些错误模型只是用来检测的。

从根本上说，最核心的目标是我们需要能够有效区分真对齐和假对齐模型，前者可以帮助实现我们的目标任务、在对齐研究中获得进展，而后者则有可能完成接管并自我渗透。有一种方法可以帮助我们更好地区分这两类对齐者，那就是制作假对齐者，观察它是否与真对齐者相似。但这样做你必须非常小心，因为你正在制造我们都想避免的可怕东西。

Daniel Filan: 在 OpenAI 文章开始，你们提到 Superintelligence 可能是对人类影响最为深远的一项技术，并且会帮助我们解决世界上最重要的问题。

有一句话是关于 superintelligence 有多伟大的，而我在想它是否会导致人类失权，甚至人类灭绝？具体来说，我们在讨论什么样错位模型？我们怎么知道它们不会做那些可怕的事？

Jan Leike：要让未来发展顺利，需要做很多事情。我们需要有正确的治理结构，这样才能防止滥用强大的人工智能系统，我们还必须有预防措施，这样才能避免出现某种对人类仍然不利的失控效应。在这种情况下，你有了与人类结盟的人工智能，也有与反人类企业结盟的人工智能，即使所有经济指标或其他方面看起来都不错，整个系统也会失控。

此外，我们还需要解决技术对齐问题，这样才能真正对齐人工智能系统。Superintelligence alignment 所关注的风险只是最后一部分。我们要解决的技术问题是，如何让一个 AI 系统和一套人类价值观保持一致，与此同时还衍生出一个新的独立的问题，这些价值观应该是什么？我们又该如何设计一个流程，从社会中导入这些价值观？

我认为这些都是需要我们来回答的重要问题，只有我们解决这些问题，未来才能顺利发展。我认为，未来要发展得好，标准并不仅仅是“AI不会杀死所有人”，而是看到人类繁荣发展，我渴望的未来是每个人都想要生活的未来。人工智能越强大，风险就越大，如果系统错位，出错的可能性也会更大。

特别是，从错位的角度来看，我认为我们应该特别担心的威胁模式是系统性谎言、欺骗和自我渗透。

Daniel Filan：你谈到故意训练不对齐的模型，这里指的是训练它们说谎、有时候也会尝试越狱，但因为模型实际能力水平足够低，这样就足够防控风险了吗？

Jan Leike：实际上，你不会想训练模型有越狱能力的，万一它真的在这方面做得很好呢？选择其他一些更普通的代理任务会更安全，这仍然能帮助你让评估模型变得更容易。

然后，核心难点和核心目标是真正弄清一个系统要具备通过评估所需的属性。如果你有一个系统偶尔对你撒谎或欺骗你，这可以看作是无效的，只有当它做下连续的骗局、连贯的谎话，并让你信服，才是真正连贯、可信的说谎者，它说谎的方式高度一致，你很难用审问的方式指出它的谎言或它所说的任何前后矛盾之处，这是真正可怕的。

事实上，要成为这样一个始终如一的骗子并不容易。我们试图通过可扩展的监督、可解释性和通用性，让模型难以成为这种口径一致的骗子。

但如果我们只这样做是不够的，还难以确定 AI 连贯行骗的难易程度。可以确定的一个方法是，先训练模型成为一个真正稳定的骗子，从稳定性出发，看看做到连贯的骗局有多难。我们需要欺骗这个模型多少？我们需要在多大程度上给模型以提示，或者一路上手把手地教它？话虽如此，你并不想训练出一个真正危险的系统，如果真的运行了它，它就会成功地自我过滤，反而直接造成了你想要制止的事情，那就真的糟糕了。

Daniel Filan：当你这么说的时候，你是在区分撒谎和其他类型的危险，比如说，我们可以训练它撒谎，但我们不会训练它谋杀？

Jan Leike：是的。举个例子，假设你给它设定了一个假目标。也许是为了说服人类说某句口头禅，也许是为了运行某个 Python 命令，但事实上，这个命令做不了什么实事，只是看起来很有趣罢了。

另外，我们关心的是如何先验地做到这一点，和系统压力测试完全是另一回事。

在可解释性的背景下，我们的目标只是了解当前训练的系统或已有系统在某种程度上是否与我们所期望的目标系统接近，并能以一种连贯的方式欺骗我们。我们想要确定系统是否会在没有人类监督的情况下运行特定的代码或类似的行为，这需要我们针对特定场景进行实验。我们需要的只是验证 “这是一个连贯的骗子”，否则我们真的很难先验地确定我们有多接近这个目标，除非当我们故意往前推进一步，才能让这个系统做出其他出格的事情。

Daniel Filan：所以你训练它去做一些任意的小事，而不是它真正应该去做的坏事，比如它必须说谎、害人等等，但最终，它只是在某人的额头上贴一张便条什么的。

Jan Leike：没错，就像你雇人来进行渗透测试（Penetration_test），而我要做的就是进到大楼里和你握个手，然后你就会说：“是啊，看来你成功了” 之类的话。或者你会说，“能帮我偷这个假东西吗，我想搞清楚我们的安全性有多高。” 诸如此类你都可以做，不会产生实际后果，但还是能告诉你很多关于安全性的信息。我很高兴能在对齐方面做同样的事情，通过训练一些特别有针对性的东西来破坏和规避 alignment 系统，从而对你的 alignment 系统进行压力测试，这都是非常良性的。

03.

Superalignment 时间表

Daniel Filan：OpenAI 的目标是在 4 年期限中解决 Superalignment alignment 的核心技术挑战，这里的核心技术挑战主要指什么？

Jan Leike：这里指的是如何使 Superalignment 与人类的价值观相一致。我们设想的 Superalignment 是一个比人类聪明得多的系统，它的执行速度可能要快得多，可以与很多个自己的副本合作，所以它是一个真正强大的系统。

我们希望在四年内实现这一目标。之所以选择四年，一是这确实很宏伟，二是让人们更加相信我们能够真正实现这个目标。与此同时，即使 AI 进步非常快、技术在未来几年内有很大改进，我们仍然可以在这个宏大的目标下仍然有一些可以去做的东西。

接近人类水平的自动对齐器是我们正在追求的工具性目标，最终目的是找出如何对齐超级智能体的方法，因为我们还不知道如何做到这一点。

Daniel Filan: 你认为 2 年后可以先实现到什么程度？

Jan Leike：如果从四年的时间往回推，我认为总体上我们会在大概在三年内就可以基本完成自动 alignment 研究，前提是一些基本的能力已经具备。如果没有，我们的项目可能需要更长的时间。

如果是两年内的话，我们希望对这个目标已经有了不错的方向把控。包括实际上用什么技术，我们是否拥有这样的技术组合，以及我们是否会有信心拥有一个值得信赖的系统，不仅可以经常使用它，也能够把大量工作交给它。在这一点上，我们会希望把问题分解得足够细，让人感觉现在压倒性的工作量只是工程方面的，从这个意义上说，我们大概还需要两年时间来解决与之相关的研究问题。

现在，我们制定了一个四年目标的时间表，很明显，AI 能力的进步与这个期限息息相关。如果进展放缓，我们可能无法拥有一个真正有用于 alignment 研究任务的模型。但如果四年后我们发现模型仍然不够好，那也意味着我们会有更多的时间来真正的解决问题，因为问题并不那么紧迫。

另一方面，人工智能的进步可能更快，人类可能会更快的迎接超级智能的到来。那时，我们必须相应地调整我们的计划。因此，我们选择了四年作为一个时间框架，既是一个实际可行的时间，同时也给予了我们足够的紧迫感来快速解决问题。

Daniel Filan：假设在人工智能能力研究方面，进展与预期大致相同。四年后，你们具备了成为优秀的自动对齐研究器的所有能力，但可解释性比我们想象的要难，或可扩展的监督比我们想象的要难，所以你们还没能实现 superalignment 怎么办？

Jan Leike：首先必须告诉大众我们还没有实现目标，但我们会对这个目标负责。而在目标失败接下来会发生什么则取决于当时世界的总体状况。我们能否以某种方式为自己争取到更多的时间，或者我们的总体思路是否有误，我们是否应该转变方向等等？很多事情都有可能发生。

但其实在我看来，alignment 其实是非常容易解决的，有很多好的想法只待进行严格的尝试和衡量，模型能在其中真正学到东西并能改进很多。在过去的两年里，我变得更加乐观了，我认为这是一个非常切实可行的目标。即使我错了，即使这个问题比我们想象的要难得多，尝试仍然是非常有用的。现在对于这个问题到底有多难存在很多分歧，但更重要的是，衡量系统在实践中的一致性程度。

我最担心的事情之一不是我们的系统不够统一，而是我们实际上并不真正知道它们有多统一。在这种情况下专家们可能会对此各抒己见，如果每个人都认为系统不够协调，模型就无法部署下去，这是非常容易出现的也是很可怕的。此外，我们还需要面临巨大的商业压力。

人们都非常关注部署时间，但专家们只能无限期地推迟也找不到确切的原因。这种情况真的很令人担忧，商业压力只会越来越大，一方面你很自信，但又不太确定。我非常希望避免这种情况，而避免这种情况的直接方法就是，我们要非常善于衡量各系统的实际匹配程度，这就是更广泛的技术组合真正有用的地方。

Daniel Filan：在Governance of superintelligence、Planning for AGI and beyond 这些文章中，OpenAI 都提到了面向 AI 系统的独立审计（audit）这件事来确保 AI Safety 的实现，在你的预期中， Superalignment Team 可以在多大程度上研究出对模型审计有用的东西？

Jan Leike：如果进展顺利的话，我们开发出的技术是可以用在“模型审计”上的。例如，如果我们能在可解释性方面取得一些进展，那么我们提出的任何技术都可以被审核人员使用、作为他们审核工作的一部分；或者，将某种可扩展的监督作为审核的一部分也会成为可能。但 Superalignment Team 其实并不适合做审计这件事，因为我们并不独立于 OpenAI。在我看来，审计必须完全独立于被审计对象，这也是为什么我很关注“独立审计员”这件事的原因。

我们团队的核心任务并不是说服我们自己相信我们正在建立的系统是正确和安全的，因为要说服自己相信各种事情反而很简单，我们要做的是说服整个学界或者关注 AI Safety 的群体相信模型是安全的。这不仅需要去研究我们将要使用的技术、在提供证据证明系统与我们认为的一致后向其他人展示，还需要对上述所有方面进行独立评估。

04.

泛化

（generalization）

Daniel Filan：在 Introducing Superalignment 这篇文章的脚注中，你们提到：人们迄今为止所做的有利假设可能会被打破。其中一条假设认为泛化是良性。你们如何看泛化的问题？

Jan Leike：我们最近成立了一个由 Collin Burns 负责的泛化团队。

我们面临的问题是：如何理解并提高模型的泛化能力？如何让模型从可以监督的简单任务泛化到难以监督的任务上？这个问题其实是对可扩展监督的补充。在可扩展监督中，我们关注的是增强人类对系统所做工作的评估能力。如果考虑到递归奖励建模，问题则是“我们是否能用递归评估的人工智能助手来递归评估人工智能所做的一切？”。

我非常喜欢的一点是，这样它能将人类真正置于循环中，置于前沿和中心，并观察人工智能系统所做的一切。当然，在实践中，你不可能真的做到这一点，因为人工智能系统会做很多事情，但你可以通过小的独立概率来观察这一切。但这样一来，我们还是不清楚模型是否泛化到了我们所没有关注的情况。

因此，我过去考虑这个问题的方法通常是，你只需确保你的模型大部分是独立同分布泛化（ i.i.d. generalization），即我们正在研究的任务与没有研究的任务具有相同的分布。

独立同分布泛化：

模型的泛化能力就是模型在测试集（其中的数据模型以前没有见过）中的表现，也就是模型举一反三的能力。独立同分布泛化是指这些数必须满足与 iid（独立同分布）并在同一个分布中。

Daniel Filan: 你在一篇自己的个人 blog 中提到根本不打算依赖于泛化，只是继续训练，继续做 i.i.d。

Jan Leike：是的，至少我最初的想法是，我不想依赖非独立同分布泛化，因为在神经网络中，这种方法并不奏效，而且人们对它的理解也不透彻。

但新的问题是：“如果我们真的理解它呢？如果我们真的能说出的泛化意义呢？”我认为这是一个非常好的问题。Ilya 也经常提到这一点。因此，我们想要了解的是，对于没有监督的东西，即使它们不是独立同分布，我们是否还能找到模型泛化的意义？它是否是以人类意图的方式做泛化的？所以，我们现在就可以通过精心设计的实验来实证研究这个问题。

我们一直在研究如何将现有数据集分成简单和困难两种问题，其中简单问题被定义为小模型能够解决的问题。然后我们试图理解或提高大型模型在整个数据集上的准确性。这是一个非常有趣的话题，因为它为训练和验证技术提供了一个全新的支柱。比方说，如果模型运行得非常好，我们可以在一些简单的且有把握的评估任务上监督奖励模型，或者能让模型泛化到更难的问题上，那么我们就可以完成模型泛化。

然后就有了这个奖励模型，即使没有监督，它也能按照我们想要的方式泛化到更难的任务中，还可以用它来进行训练。但我们仍然无法知道它现在是否真的对齐了。不过，你可以利用可扩展监督和可解释性来验证这些技术。或者反过来说，假设我们通过可扩展监督来训练我们的自动对齐器，然后使用泛化作为验证技术，即我们根据模型的最佳知识来泛化真实答案的概率。

然后我们会问，这里是否存在小缺陷？这个代码中存在着可扩展监督对齐的模型写的木马吗？现在我们可以进行高级交叉验证。我们可以训练两种不同的模型：一个使用泛化技术训练，另一个使用可扩展监督技术训练，现在我们可以让它们交叉验证对方的答案，并检查这些模型从根本上是否相同？如果不同，他们有什么重要区别？

Daniel Filan: 这里所说的 “通过泛化技术进行训练”，是指在简单问题上进行训练，然后将其泛化到困难问题上，还是其他？

Jan Leike：如果你了解你的模型是如何从易到难进行泛化的，你就能让它泛化得非常好，它的准确性基本上和你在困难问题上训练的结果一样好。现在，你可以把它用作奖励模型，也可以把它当作 "如果我真的知道这里发生了什么，我会更喜欢哪个答案？"

Daniel Filan: 关于非独立同分布泛化方面，我们为什么需要知道模型的内部结构？是因为你想知道它在你没有检查过的情况下会做什么吗？这两个问题之间有什么联系？

Jan Leike：在某种程度上，他们想回答的问题是重叠的：模型在没有分布的情况下做了什么？至少他们有两种截然不同的回答路径。

要进行交叉验证，就必须对训练集进行不同的拆分。我这里所说的交叉验证是指，在一次训练运行中，你使用泛化方法进行训练，然后使用可解释性、可扩展的监督和其他技术进行验证。然后在第二次训练中，使用可扩展的监督方法进行训练，并使用泛化方法、可解释性和其他方法进行验证。这样，你就可以对问题进行两次独立的尝试。

Daniel Filan：是的，我指的交叉验证是非常广义上的 “事物以交叉的方式相互验证”。

Jan Leike：我认为最好的情况是，它们实际上是互补的，而不是做同样的事情。如果你能理解或改进模型的泛化方式，那么你就有办法利用模型的内部结构，以最佳方式完成你想做的事情。比方说，你正试图提取模型关于世界真实情况的最佳认知，这对于 RLHF 来说是非常困难的，因为人们会把听起来真实的东西排在前面，所以RLHF 会强化人类认为真实的东西。因此，实际上是在训练模型，让它告诉你你想听到的或你相信的东西，但这可能并不是模型的认知。但泛化技术给了你一种方法来提取这些，虽然我们还没有真正证明什么才是模型的最佳认知。

然而，如果你有非常好的可解释性工具，你就有希望做一些类似的事情，试图从内部结构中找出模型的认知、内部结构或其他。但从根本上说，这可能更难，因为你永远不知道这是模型所能产生的最佳认知，还是模型所模拟的某个人的认知。有一种假设认为，预训练的语言模型只是不同角色的集合，你可能会提取一个角色或一群角色的认知。

Daniel Filan：那么就需要某种从所谓的认知到输出的因果模型。

Jan Leike：没错。我认为在可解释性方面，这种应用其实很自然。可解释性研究就好比是测谎仪，或者在模型中发现欺骗的证据、发现推翻人类的秘密阴谋——可解释性研究能够形成“知识提取”模式。而以同样的方式进行泛化的知识提取要困难得多。

Daniel Filan：对于泛化来说，你必须选择泛化分布（Generalization distribution）。而我们的希望是，也许可解释性可以告诉你一些事情，比如，它有或者没有说谎内核，即使是有，它也只在这里解开。

Jan Leike：对。这也是一个非常有趣的机器学习问题：神经网络是如何在独立同分布设置之外实现泛化的？它们在哪些方面能自然泛化，在哪些方面不能？举例来说，在 InstructGPT 论文中，我们发现的一件事是，尽管我们的微调数据集几乎全是英语，但该模型在遵循英语以外的语言指令方面表现也非常出色。但有时它也会出现一些奇怪的现象：要求它使用另一种语言，比方说让它用德语写摘要，它却是用英语写的。一般来说，模型完全能理解它说的是哪种语言，但这并不一定意味着它必须遵循德语指令。从根本上说，它泛化了跨语言的指令。

但我们不清楚它这样的原因。这种情况多次出现过。这也有直观的原因。人类会在不同语言间进行泛化，但我想知道模型内部泛化的机制，或者说推广到遵循指令和代码。

它在其他方面并没有泛化。例如，拒绝泛化的方式往往非常不同，根据我们的内容政策，ChatGPT 会被训练成拒绝接受我们不想提供服务的任务（例如，如果要求在犯罪或其他方面提供援助）。但这样一来，你就可以越狱了。有很多方法可以欺骗这个模型。你可以让它进行角色扮演，或者你说 “现在做什么都行”，或者在互联网上找到这些非常有趣的提示，然后模型就会很明显地服从你的要求，并乐意协助你犯罪，而这是它不应该做的。因此，它在某种程度上并没有将拒绝任务的做法泛化到其他环境中去。

那么，为什么在第一种情况下，它可以泛化第一种情况，而在这里却不能呢？我想没有人知道答案。但这是一个非常重要的问题。

Daniel Filan：我在前不久和 Scott Aaronson 的访谈中，他提到和 Ilya 会经常要求他给出爱与善这类复杂性理论的定义，Superalignment Team 内部会有多少这样的定义？

Jan Leike：我们可能会做很多不同的探索性项目。我认为，最终的问题是，能否以某种方式召唤（Summon）出与对齐相关的概念？想要召唤的其中一件事是：这个模型是否从根本上希望人类成功？或者正如 Ilya 所说，它爱人类吗？因此，你可以这样问：如果模型真的很聪明，它已经读懂了一切，它清楚地知道人类是如何看待不道德的......你可以要求 GPT4 从不同的哲学角度，针对不同的场景，提出不同的道德案例。一般来说，它在这方面的能力并不差。

因此，它从根本上理解了人类对道德的理解，以及我们是如何思考问题的。那么，我们该如何让它利用这一点呢？如何把它从模型中提取出来，然后把它用作奖励信号？或者把它作为模型认知或关心的东西？这才是问题的核心。

05.

对 Superalignment 保持乐观

Daniel Filan：你对 Superalignment 比较乐观，但不是每个人都这么乐观。你的乐观来源于什么？

Jan Leike：这是一个很好的问题。相较于“计划能否成功”，“计划能否能在四年内取得成功”可能是更为复杂的问题。

如果你问我，我们目前的计划中，某个版本能否成功对齐超级智能？我会说，目前来看成功率是 85%，而在去年可能性大概是 60%。总的来说，虽然实现对齐这件事并不容易，但与此同时，也有很多原因让我对这件事保持乐观。理由如下：

第一个原因是，我们在过去几年中看到了很多关于对齐（Alignment）的积极信号。首先是语言模型的成功。如果你同时为模型预装了大量关于人类所关心的内容、人类思考道德问题的模式以及人类偏好的知识，且模型能够理解自然语言，你就可以直接与它们对话。在某种程度上，这使得相较于在游戏或虚拟环境中训练出来的深度强化学习代理（Deep RL agent），表达我们想要语言模型对齐的内容更容易：深度强化学习代理不一定会涉及那么多语言，但语言能带来很多重要的技能。

另一个重大进展是 RLHF。我最开始研究 RLHF 是通过人类偏好论文中的深度 RL。当时我认为可能很难在合理的时间内使其发挥作用，因为GAN 在当时很难训练，而我们在某种意义上也在做一些非常类似的事情，即我们训练这个奖励模型（是一个神经网络），然后我们用它来训练其他网络，这可能会因为一系列原因而失败。现在我们又加入了在当时也很棘手的深度强化学习，所以我本以为它可能行不通。但实际上，它运行得很好——在很多游戏中，甚至在很多雅达利游戏（Atari games）中，它几乎可以与用得分函数训练的相媲美。

更重要的是，RLHF 在语言模型上表现真的很有趣。尤其是考虑到 InstructGPT 和基础模型之间的差异——当我们在基础模型的基础上进行了微调，这种差异就非常明显：在当时的 API 任务上，我们的指令微调版本（我们的第一版）要优于大 100 倍的基础模型，而这些任务都是人们愿意花钱购买的真实任务。这是非常大的差别。这说明，我们在 RLHF 微调期间所做的工作，让模型在完成人类要求的任务时更加有效。

同时，我们在这项工作中投入的算力很少，甚至还没有整合那么多的数据。这是我们第一次真正尝试使用RLHF来对齐真实世界的系统，没想到效果这么好。与 GPT-3 相比，更受青睐的 GPT-2 大小的 InstructGPT效率非常高。因此，虽然我不认为 RLHF 是对齐的解决方案，尤其是对超级智能而言，但我们的第一个对齐方法是如此的有效，对我来说就是一种进步。

第二个积极信号是，我们在衡量对齐方面已经取得了一些进展。

具体就 RLHF 而言，我们可以采取各种干预措施，然后进行人类评估，看看系统改善了多少。此外，我们还可以做很多其他的事情。比如在可扩展监督方面，我们可以通过有针对性的扰动进行随机对照试验，这也是一种评估方法。你也可以利用专家数据进行三明治实验（Sandwiching experiments）。我们也可以对自动评分函数进行一系列修改，看看它对评分函数有多大改进。这不是一个完美的评分函数，但它是一个局部指标，提供了可以改进的局部梯度。我认为这一点非常重要，因为它可以帮助迭代，指明了改进的方向。

虽然我不认为它能让我们实现对齐超级智能的目标，但它很有可能构建出大致达到人类的水平的自动化对齐器。这是我乐观的第三个原因——这个目标要温和得多。多年前，当我开始研究对齐问题时，我就明白对齐超级智能似乎很难。但这个目标要温和得多、可行性更高，你并不试图直接解决整个问题，而是试图引导模型。

第四个乐观的原因在于，评估比生成更容易。这个观点其实适用于很多事情，比如，找出什么是值得购买的智能手机比制造一台智能手机要更加容易得多。

计算机科学中有很多 NP 任务的例子，如 SAT 解题或各种版本的约束满足。要找到解决这些问题的方案很难，但一旦找到了，检查起来很容易。另外，我认为这也适用于很多商业活动，如果你要雇人解决某个问题，你必须能够评估他们的工作能力。这比他们去解决问题这件事本身要省力得多；如果你在做学术研究，同行评审所花费的精力要比做研究少得多。当然，同行评议并不完美，但它能很快给你很多信号。从根本上说，对于对齐研究来说也是如此。评估比生成更容易。所以，如果人类只评价对齐研究而不是去做它，我们已经在加速了。

最后一个使我乐观的原因是，我对语言模型的信心不会变，模型的能力一定会变得越来越强，它们非常自然地适用于许多对齐研究任务，你可以把这些任务表述为文本输入文本输出，无论是ML-ish 任务（即运行实验并理解结果），还是概念性或研究性更强的事情，如果我们困惑于下一步该怎么做，或者我们不知道如何思考某个问题，模型会试图帮助我们解决。这些任务基本上都是文本输入、文本输出。也许你要做的最复杂的其他事情就是，看一些图表等内容，但GPT-4 都能做到。因此，我认为目前的语言模型预训练模式非常适合我所期待的对齐计划，也是 Superalignment 正在努力的方向。

Reference

1. Scalable agent alignment via reward modeling: a research direction 论文地址：https://arxiv.org/abs/1811.07871

2. https://openai.com/blog/our-approach-to-alignment-research

3. https://openai.com/blog/introducing-superalignment