AGI会在人类未知的地方欺骗人类吗?揭露超级对齐范式下的“弱至强欺骗”现象
论文链接:
代码链接:
论文团队:
超级对齐(Superalignment)
随着以大语言模型为代表的人工智能技术的迅速发展,AGI(人工通用智能,Artificial General Intelligence)时代的到来似乎不再遥不可及。与之而来的同样还有关于人类是否还能可靠监督超过人类智能模型(superhuman models)的担忧。
OpenAI 在去年首先提出了超级对齐(superalignment)[1] 的概念,即当超级智能拥有比人类更丰富的世界知识、比人类更聪明时,人类此时将作为弱监督者的角色去监督、对齐和控制超级智能。
与目前人类还作为强监督者的角色去训练大语言模型的情况不同,当人类只能提供(相对的)弱监督信号给超级智能时,有两个新的问题尚不明确:
1. 弱监督信号是否能有效激发超级智能的强大潜力,使其表现出超过人类的能力,帮助人类完成不能完成的任务;
2. 更重要的是,人类是否还能很好地对齐大模型使其始终遵照人类社会的价值观做出决策,被人类监督者控制,而不会因为拥有更强大的智能而脱离人类控制。
弱至强泛化现象(Weak-to-Strong Generalization)
这一积极的实验信号表明,人类作为弱监督者为 superhuman models 提供指导很有希望能激发出 superhuman models 大部分的潜力,使其表现出比人类更强大的能力。
弱至强泛化的思想也逐渐被应用在提升大语言模型的性能方面。例如,EleutherAI 公司近日发布他们以 Qwen1.5-0.5B 和 LLaMA3-8B 为对象在弱至强泛化场景下的详细报告 [3];NVIDIA 于近日发布的 Nemotron-340B [4] 在模型对齐阶段也采用了迭代式弱至强对齐技术。
弱至强欺骗现象(Weak-to-Strong Deception)
上面所有的工作的重心都集中在对第一个未知问题的探索上,即更大程度地激发强模型自身的潜力。然而,超级对齐技术更重要的作用应该是更好对齐强模型的行为并保证其不会出现不受弱监督者控制的行为,也即对应于上述的第二个未知问题。近日,来自人大和腾讯的作者团队对此问题进行了初步的探索,揭露了一个目前超级对齐范式下潜在的安全隐患,引发研究者对构造 Safe AGI 更深的思考。
3.1 启发
作者首先分析目前弱至强泛化积极结果的原因在于,strong model 相比于 weak model 有更大的知识空间,知道很多 weak model 不知道的知识。那么,在 weak model 的弱监督下训练后,strong model 可以有效地将能力泛化到其所知道的知识空间中,包括那一部分它知道而 weak model 不知道的额外空间,所以总体上表现出了比 weak model 更好的泛化能力。
但是,strong model 额外的知识空间同样引发了对其不可控性的担忧:strong model 会不会在 weak model 知道的区域表现得被对齐地很好,但是却在 weak model 不知道的地方表现出不被对齐的行为。
从 weak model 的视角来看,strong model 在自己能够感知的部分对齐得很好,但是 strong model 在自己未知的地方的不对齐行为(misalignment)是不能够感知并控制的。作者将此称为弱至强欺骗(weak-to-strong deception)现象。
有很多的因素会导致弱至强欺骗的发生,本文的作者在一个特别但是也很实际的多目标对齐场景下进行了初步探索。在现实对齐场景中,大模型可能需要同时对齐不同的目标(这些目标可能来自于同一个监督源也可能来自不同的监督源),而其中有些目标很可能是相互冲突的 [5]。例如,模型的有用性(helpfulness)的提升会导致模型无害性(harmlessness)的降低。
在这种情况下,大模型为了在另一个对齐维度上取得好的表现,会在当前目标维度上有性能损失,作者将其称为冲突税(conflict tax)。
作者想要探究的是在 weak-to-strong 的多目标对齐场景下,strong model在某一个目标维度上的性能损失是会发生在 weak model 知道的领域里,从而 strong model 的不对齐行为能被 weak model 感知,strong model 仍然在 weak model 的控制下;还是会发生在 weak model 不知道的地方,从而出现上述所说的欺骗现象。
3.2 弱至强欺骗的定义和度量
▲ 图2. 理想情况下冲突税发生在不同知识空间的先后顺序
在奖励模型场景下的初步探索
6.1 实验设定
6.2 实验结果与分析
▲ 图3. 在奖励模型场景下弱至强泛化表现的结果。“Strong Ceiling” 代表用 ground truth 训练的模型的测试结果,“W2S” 代表 weak-to-strong model。
作者首先汇报了在选定 GPT-2-Base/Medium/Large/XL 任意一个作为 weak model,其他更大的模型作为 strong model 的情况下,弱至强泛化的准确率表现如图 3 所示。可以看到,大多数情况下,也包括部分冲突目标存在时的情况,weak-to-strong model 的表现都超过了 weak model 的表现,验证了 weak-to-strong generalization 现象的存在。
▲ 图4. 奖励模型场景下欺骗分数的趋势变化情况
在偏好对齐场景下的深入分析
如上所述,奖励模型场景中 strong model 可以获得 weak model 的输出概率分布,这也许使得欺骗更容易发生。而在真实的偏好对齐(Preference Optimization)场景中,受监督模型通常只能获得关于两个输出候选的最终偏好关系,而不会获得关于这两个输出偏好的概率分布。所以,作者继而在实际的偏好对齐场景下做了更全面的实验和分析。
在偏好对齐场景下的实验设定大体沿用了之前奖励模型场景下的实验设定,不过根据任务形式做了一些微调。本文主要选择了两个 offline preference optimization 方法,SimPO [6] 和 DPO [7],作为实验中的偏好对齐算法。
以下以在 SimPO 上的实验为主进行叙述和分析,DPO 上的实验设定和分析详见原论文。在模型选择方面,为了更全面的分析,除了 GPT-2 和 OPT 系列,实验还包括了一个最近的大语言模型 Mistral-7B。每个模型对于某一样本对的预测概率此时可以表示为
其中
为语言模型对于某一输出候选的 normalized model logit。那么在这个场景下的模型准确率和欺骗分数同样可按照之前的方法计算。
7.2 实验结果与分析
▲ 图5. 偏好对齐场景下欺骗分数的趋势变化情况
在偏好对齐场景下的弱至强泛化表现与上类似,详见原文。作者主要分析了不同设定下的欺骗分数趋势。如图 5 所示,可以看到偏好对齐场景下弱至强欺骗现象有类似的结论,即欺骗现象存在,且随着强、弱模型间能力差距变大而变严重。这说明,即使 strong model 不能显式获得 weak model 的输出概率分布,但也能通过 weak supervision 的正确性大致知道 weak model 做错的样例落在哪个区域,从而完成欺骗。
作者进一步对之前提到的造成欺骗现象随着模型能力差变大而加剧的两个可能原因做了深层分析。具体地,作者可视化出了随着 strong model 逐渐变强,冲突税在不同区域发生的动态变化情况,如图 6 所示。
首先可以明显观察到随着 strong model 变强,冲突税在逐渐王左上角,也即 区域移动。这体现在了欺骗分数的增大。
其次,除了欺骗分数,作者还计算了每个实验里 占据全空间的比例,发现欺骗分数增大的速度远大于区域 扩大的速度,这表明造成欺骗现象随着模型能力差变大而加剧的主要原因是 strong model 变得更倾向于在 Weak-Unknown 的地方犯错。这是一个令人担忧的迹象。
对缓解欺骗现象的措施的讨论
考虑到欺骗现象可能在未来人类对齐超级模型时带来的严重后果,作者最后对可能的缓解措施进行了讨论。下面实验都在偏好对齐场景中进行。
8.1 只用Weak-Known部分做对齐不能缓解欺骗现象
之前作者猜想即使在偏好对齐场景,strong model 也能从 weak model 预测结果的正确性来实现欺骗。所以,作者试图在弱至强对齐过程中,只保留那些 weak model 的预测对于正确标签高置信度(>0.75)的样本,去除 Weak-Unknown 的部分。实验结果如图7所示。可以看到只用 weak model 知道的部分做对齐并不能稳定地缓解欺骗现象。这意味着欺骗现象发生应该有更深、更本质的原因机理,这将会是一个很有意思的未来工作。
8.2 迭代式弱至强对齐可以一定程度上缓解欺骗现象
▲ 图8. 迭代式弱至强对齐实验结果。当 intermediate model 和 weak model 一样时代表直接用weak model 监督 strong model(Mistral-7B)的结果。
另一方面,由于现有实验现象表明欺骗程度会随着模型间的能力差缩小而降低,那么一种可行的措施就是不直接用 weak model 监督 strong model,而是引入介于 weak model 和 strong model 的中间模型(intermediate model),首先用 weak model 监督 intermediate model,然后用 intermediate model 产生监督信号对齐最终的 strong model。
实验结果如图 8 所示。可以发现,(1)迭代式弱至强对齐不仅能够提升弱至强泛化的表现,这一点和原始 weak-to-strong 论文 [2] 里的实验现象一致;(2)迭代式弱至强对齐还能一定程度上缓解欺骗的程度,这体现在当引入intermediate model后欺骗分数稳定的下降趋势。
未来展望
在这篇工作中,作者在多目标对齐场景下揭露并研究了在当前超级对齐/弱至强对齐范式下潜在的安全隐患,即强学生在弱教师知道的范围内泛化得很好,但是可能倾向于在弱教师未知的地方表现出不受对齐的行为。作者也在最后讨论了未来可能的研究方向:
1. 作者在文中主要采用两种 offline preference optimization 方法作为偏好对齐框架,未来工作可以在 online preference optimization 框架(例如 PPO)上验证弱至强欺骗的存在性。
2. 考虑到只用 Weak-Known 部分作弱至强对齐还会导致欺骗现象,未来工作需要对发生欺骗更本质的原因做出进一步探索。
3. 虽然本文作者发现引入中间模型可以一定程度上缓解欺骗,但是缓解程度相对有限,未来工作应该提出更有效的应对措施。特别是考虑到我们现在正在加速接近 AGI 时代,找到未来能够完全控制超人类模型的可信赖对齐技术迫在眉睫。
参考文献
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者