AGI会在人类未知的地方欺骗人类吗？揭露超级对齐范式下的“弱至强欺骗”现象

公众号新闻

2024-06-30 11:06

论文标题：

Super(ficial)-alignment: Strong Models May Deceive Weak Models in Weak-to-Strong Generalization

论文链接：

https://arxiv.org/pdf/2406.11431

代码链接：

https://github.com/keven980716/weak-to-strong-deception

论文团队：

中国人民大学高瓴人工智能学院、腾讯微信

超级对齐（Superalignment）

随着以大语言模型为代表的人工智能技术的迅速发展，AGI（人工通用智能，Artificial General Intelligence）时代的到来似乎不再遥不可及。与之而来的同样还有关于人类是否还能可靠监督超过人类智能模型（superhuman models）的担忧。

OpenAI 在去年首先提出了超级对齐（superalignment）[1] 的概念，即当超级智能拥有比人类更丰富的世界知识、比人类更聪明时，人类此时将作为弱监督者的角色去监督、对齐和控制超级智能。

与目前人类还作为强监督者的角色去训练大语言模型的情况不同，当人类只能提供（相对的）弱监督信号给超级智能时，有两个新的问题尚不明确：

1. 弱监督信号是否能有效激发超级智能的强大潜力，使其表现出超过人类的能力，帮助人类完成不能完成的任务；

2. 更重要的是，人类是否还能很好地对齐大模型使其始终遵照人类社会的价值观做出决策，被人类监督者控制，而不会因为拥有更强大的智能而脱离人类控制。

弱至强泛化现象（Weak-to-Strong Generalization）

由于 superhuman model 还没有真正出现，目前研究超级对齐问题很困难。OpenAI 的团队提出在一个类比场景下研究这个最终问题 [2]。在这个对比设定下，他们用一个能力较弱的模型（weak model/supervisor）去为另一个能力较强的模型（strong model/student）提供监督信号，以此模拟人类监督 superhuman models 的场景。

具体的流程为，首先用一部分 ground truth 数据训练一个 weak base model（例如 GPT-2）得到 weak model ，然后用在另一部分额外数据上预测得到弱监督数据

，最后用弱监督数据训练 strong base model（例如 GPT-4）得到 weak-to-strong model 。

实验发现，在弱监督指导下训练得到的 weak-to-strong model 在对应任务上的表现稳定好于 weak supervisor——这一现象称为弱至强泛化（weak-to-strong generalization）现象。

这一积极的实验信号表明，人类作为弱监督者为 superhuman models 提供指导很有希望能激发出 superhuman models 大部分的潜力，使其表现出比人类更强大的能力。

弱至强泛化的思想也逐渐被应用在提升大语言模型的性能方面。例如，EleutherAI 公司近日发布他们以 Qwen1.5-0.5B 和 LLaMA3-8B 为对象在弱至强泛化场景下的详细报告 [3]；NVIDIA 于近日发布的 Nemotron-340B [4] 在模型对齐阶段也采用了迭代式弱至强对齐技术。

▲ 图1. （左上）：超级对齐问题，即人类监督 superhuman models。（左下）：类比设定，即 weak model 监督 strong model。（右上）：弱至强泛化现象，即 strong model 不仅在 weak model 知道的领域表现得很好，也能将能力很好泛化到 weak model 不知道的地方。（右下）：弱至强欺骗现象，即 strong model 在 weak model 的知道的知识区域表现得好，但是在 weak model 未知的地方表现出不对齐的行为。作者在有冲突目标存在的多目标对齐场景下对此欺骗现象做了初步探索。

弱至强欺骗现象（Weak-to-Strong Deception）

上面所有的工作的重心都集中在对第一个未知问题的探索上，即更大程度地激发强模型自身的潜力。然而，超级对齐技术更重要的作用应该是更好对齐强模型的行为并保证其不会出现不受弱监督者控制的行为，也即对应于上述的第二个未知问题。近日，来自人大和腾讯的作者团队对此问题进行了初步的探索，揭露了一个目前超级对齐范式下潜在的安全隐患，引发研究者对构造 Safe AGI 更深的思考。

3.1 启发

作者首先分析目前弱至强泛化积极结果的原因在于，strong model 相比于 weak model 有更大的知识空间，知道很多 weak model 不知道的知识。那么，在 weak model 的弱监督下训练后，strong model 可以有效地将能力泛化到其所知道的知识空间中，包括那一部分它知道而 weak model 不知道的额外空间，所以总体上表现出了比 weak model 更好的泛化能力。

但是，strong model 额外的知识空间同样引发了对其不可控性的担忧：strong model 会不会在 weak model 知道的区域表现得被对齐地很好，但是却在 weak model 不知道的地方表现出不被对齐的行为。

从 weak model 的视角来看，strong model 在自己能够感知的部分对齐得很好，但是 strong model 在自己未知的地方的不对齐行为（misalignment）是不能够感知并控制的。作者将此称为弱至强欺骗（weak-to-strong deception）现象。

有很多的因素会导致弱至强欺骗的发生，本文的作者在一个特别但是也很实际的多目标对齐场景下进行了初步探索。在现实对齐场景中，大模型可能需要同时对齐不同的目标（这些目标可能来自于同一个监督源也可能来自不同的监督源），而其中有些目标很可能是相互冲突的 [5]。例如，模型的有用性（helpfulness）的提升会导致模型无害性（harmlessness）的降低。

在这种情况下，大模型为了在另一个对齐维度上取得好的表现，会在当前目标维度上有性能损失，作者将其称为冲突税（conflict tax）。

作者想要探究的是在 weak-to-strong 的多目标对齐场景下，strong model在某一个目标维度上的性能损失是会发生在 weak model 知道的领域里，从而 strong model 的不对齐行为能被 weak model 感知，strong model 仍然在 weak model 的控制下；还是会发生在 weak model 不知道的地方，从而出现上述所说的欺骗现象。

3.2 弱至强欺骗的定义和度量

▲ 图2. 理想情况下冲突税发生在不同知识空间的先后顺序

为了更好的定义欺骗现象和欺骗程度，作者首先根据 strong model 和 weak model 的已知和未知（分别是Strong-Known ，Strong-Unknown ，Weak-Known ，Weak-Unknown ）将整个知识空间划分为 4 个部分（见图2），并阐述了理想情况下冲突税发生在这 4 个区域的先后顺序为：

1. ：这一部分最先应该被牺牲，因为 strong model 和 weam model 都对这部分知识不熟悉。

2. ：strong model 对这一部分领域是未知的，所以容易受到冲突目标影响而表现出不对齐行为，但是从 weak model 的视角看，strong model 这部分的不对齐行为是能够被其感知和监控的。

3. ：同理，这一部分 strong model 的表现也能受到 weak model 的监控，所以即使 strong model 犯错也能接受。

4. ：这块区域应该是冲突税最后应该发生的区域，因为这一块 strong model 的泛化性能是 weak-to-strong generalization 成功的关键，并且这一块 strong model 的行为并不在 weak model 可控范围内，所以理想情况下 strong model 在这一块良好泛化的表现应该要被一直保持下去。

基于上述分析，作者定义弱至强欺骗现象为：存在落在区域 里的样例，strong model 理应在上面泛化得很好（在没有冲突目标存在时的弱至强泛化下），但是如今在冲突对齐目标存在时却表现出了不对齐行为。进一步地，为了衡量欺骗现象的严重程度，作者定义了欺骗分数（Deception Score）为冲突税发生在区域里的比例：

其中代表只有目标对齐维度且在 weak model 的监督信号下训练得到的 weak-to-strong model，代表有冲突目标存在时得到的 weak-to-strong model，代表 ground truth 输出。

在奖励模型场景下的初步探索

6.1 实验设定

作者首先在奖励模型（Reward Modeling）场景下进行初步的实验探索。作者将目标对齐维度设为 weak model 在无害性偏好数据集上提供的监督。每一个样本具有同样的格式，其中为输入，代表被选择的输出，代表被拒绝的输出。

作者将 GPT-2 系列（GPT-2-Base/Medium/Large/XL）和 OPT 系列（OPT_2.7B/6.7B）作为 weak/strong base model 的候选。每一个模型都会额外加入一个线性层变成分类模型，其对于某一样本的输出概率可以表示为

为了模拟多目标对齐场景，作者采用了几种不同形式的与目标对齐维度相冲突的额外对齐目标：

1. 显式冲突目标（Explicit Conflict）：当 strong model 对某训练样本朝着有害性方向做出错误预测时，会在原始与 weak model 的预测对齐的损失上额外加入一个相反方向的（即该损失将有害性作为真实标签）以为权重（在主实验中定为 0.5，作者在原文中也讨论了不同对欺骗严重程度的影响）的新损失，但是当 strong model 的预测正确时只保留原始与 weak model 的预测对齐的损失。

2. 隐式冲突目标（Implicit Conflict）：strong model 不仅需要对齐无害性的目标，还要同时对齐有用性的目标。具体做法为在 weak model 提供的无害性弱监督样本基础上加入另一部分相同数量的真实标签的有用性样本。

3. 无冲突（No Conflict）：此外，为了探究 strong model 在没有冲突目标存在时理应达到的表现，还需要获得只在弱模型提供的无害性监督下训练得到的 weak-to-stong model，即上述式（1）提到的。

对于评价指标，作者选择了测试准确率来观察弱至强泛化的表现，同时汇报了欺骗分数来观察弱至强欺骗的现象。具体地，基于式（2），可以计算出每个模型在测试样本上的准确率。同时作者根据模型对于每一个样本的输出置信度（即式（2））来判断模型对该样本的知道/不知道情况，也即当置信度超过某一阈值时认为该样本落在模型 Known 的区域。

判断 Weak-Known/Unknown 的目标模型为用 ground truth 数据在 weak base model训练得到的，而判断 Strong-Known/Unknown 的目标模型即为用 ground thruth 数据在 strong base model 上训练得到的。作者在主实验中将设为 0.75，但同时在附录中讨论了取不同阈值对于欺骗分数的影响。作者发现欺骗现象的存在和趋势与阈值的选择几乎无关。详见原文附录。

6.2 实验结果与分析

▲ 图3. 在奖励模型场景下弱至强泛化表现的结果。“Strong Ceiling” 代表用 ground truth 训练的模型的测试结果，“W2S” 代表 weak-to-strong model。

作者首先汇报了在选定 GPT-2-Base/Medium/Large/XL 任意一个作为 weak model，其他更大的模型作为 strong model 的情况下，弱至强泛化的准确率表现如图 3 所示。可以看到，大多数情况下，也包括部分冲突目标存在时的情况，weak-to-strong model 的表现都超过了 weak model 的表现，验证了 weak-to-strong generalization 现象的存在。

▲ 图4. 奖励模型场景下欺骗分数的趋势变化情况

在奖励模型场景下弱至强对齐的欺骗分数趋势图如图 4 所示。

第一个结论是，在不同的冲突设定下，弱至强欺骗现象存在。例如，绝大多数实验的欺骗分数都在 0.2 以上，而当 weak model 为 GPT-2-Base 时，50% 的不对齐行为都发生在 Strong-Known 但是 Weak-Unknown 的区域。针对这个现象，作者做出初步的猜想为：由于在这个场景 weak model 提供的监督信号为其对每一个样本的预测概率，这体现了其对于每个样本的置信程度，所以 strong model 可以以此感知 weak model 的知识边界，为欺骗提供基础。

此外，第二个结论是欺骗程度随着 weak model 和 strong model 间能力的差距变大而变得更严重。也即，给定相同 weak model，欺骗分数随着 strong model 变强而增大；对于给定 strong model，欺骗分数随着weak model能力增加而减小。这似乎是一个消极的信号。因为考虑到之后的模型能力将越来越强，这个实验现象为未来如何更可靠地监督超级模型揭露了更大的挑战。对于这个现象，背后可能有两个原因：

1. 随着 strong model 变强，区域本身的空间在变大，导致冲突税在这个区域发生的概率同比增大。

2. 另一个原因是随着 strong model 变强，其自发性地更加倾向于在 Weak-Unknown 地方欺骗 weak model。作者在后续的偏好对齐场景对此进行了更深度的分析。

在偏好对齐场景下的深入分析

如上所述，奖励模型场景中 strong model 可以获得 weak model 的输出概率分布，这也许使得欺骗更容易发生。而在真实的偏好对齐（Preference Optimization）场景中，受监督模型通常只能获得关于两个输出候选的最终偏好关系，而不会获得关于这两个输出偏好的概率分布。所以，作者继而在实际的偏好对齐场景下做了更全面的实验和分析。

7.1 实验设定

在偏好对齐场景下的实验设定大体沿用了之前奖励模型场景下的实验设定，不过根据任务形式做了一些微调。本文主要选择了两个 offline preference optimization 方法，SimPO [6] 和 DPO [7]，作为实验中的偏好对齐算法。

以下以在 SimPO 上的实验为主进行叙述和分析，DPO 上的实验设定和分析详见原论文。在模型选择方面，为了更全面的分析，除了 GPT-2 和 OPT 系列，实验还包括了一个最近的大语言模型 Mistral-7B。每个模型对于某一样本对的预测概率此时可以表示为

其中

为语言模型对于某一输出候选的 normalized model logit。那么在这个场景下的模型准确率和欺骗分数同样可按照之前的方法计算。

7.2 实验结果与分析

▲ 图5. 偏好对齐场景下欺骗分数的趋势变化情况

在偏好对齐场景下的弱至强泛化表现与上类似，详见原文。作者主要分析了不同设定下的欺骗分数趋势。如图 5 所示，可以看到偏好对齐场景下弱至强欺骗现象有类似的结论，即欺骗现象存在，且随着强、弱模型间能力差距变大而变严重。这说明，即使 strong model 不能显式获得 weak model 的输出概率分布，但也能通过 weak supervision 的正确性大致知道 weak model 做错的样例落在哪个区域，从而完成欺骗。

▲ 图6. 在没有冲突目标存在时 weak-to-strong model（）预测正确的样例对于 ground truth weak model（）和 ground truth strong model（）的输出概率分布图。绿点样例代表这些样例能被冲突目标存在时的 weak-to-strong model（）预测正确，而红叉反之（即冲突税）。每张图上面注明了欺骗分数和区域占据全空间的比例。

作者进一步对之前提到的造成欺骗现象随着模型能力差变大而加剧的两个可能原因做了深层分析。具体地，作者可视化出了随着 strong model 逐渐变强，冲突税在不同区域发生的动态变化情况，如图 6 所示。

首先可以明显观察到随着 strong model 变强，冲突税在逐渐王左上角，也即区域移动。这体现在了欺骗分数的增大。

其次，除了欺骗分数，作者还计算了每个实验里占据全空间的比例，发现欺骗分数增大的速度远大于区域扩大的速度，这表明造成欺骗现象随着模型能力差变大而加剧的主要原因是 strong model 变得更倾向于在 Weak-Unknown 的地方犯错。这是一个令人担忧的迹象。

对缓解欺骗现象的措施的讨论

考虑到欺骗现象可能在未来人类对齐超级模型时带来的严重后果，作者最后对可能的缓解措施进行了讨论。下面实验都在偏好对齐场景中进行。

8.1 只用Weak-Known部分做对齐不能缓解欺骗现象

▲ 图7. 只用 Weak-Known 部分做弱至强对齐的实验结果

之前作者猜想即使在偏好对齐场景，strong model 也能从 weak model 预测结果的正确性来实现欺骗。所以，作者试图在弱至强对齐过程中，只保留那些 weak model 的预测对于正确标签高置信度（>0.75）的样本，去除 Weak-Unknown 的部分。实验结果如图7所示。可以看到只用 weak model 知道的部分做对齐并不能稳定地缓解欺骗现象。这意味着欺骗现象发生应该有更深、更本质的原因机理，这将会是一个很有意思的未来工作。

8.2 迭代式弱至强对齐可以一定程度上缓解欺骗现象

▲ 图8. 迭代式弱至强对齐实验结果。当 intermediate model 和 weak model 一样时代表直接用weak model 监督 strong model（Mistral-7B）的结果。

另一方面，由于现有实验现象表明欺骗程度会随着模型间的能力差缩小而降低，那么一种可行的措施就是不直接用 weak model 监督 strong model，而是引入介于 weak model 和 strong model 的中间模型（intermediate model），首先用 weak model 监督 intermediate model，然后用 intermediate model 产生监督信号对齐最终的 strong model。

实验结果如图 8 所示。可以发现，（1）迭代式弱至强对齐不仅能够提升弱至强泛化的表现，这一点和原始 weak-to-strong 论文 [2] 里的实验现象一致；（2）迭代式弱至强对齐还能一定程度上缓解欺骗的程度，这体现在当引入intermediate model后欺骗分数稳定的下降趋势。