放弃RLHF吧！无需手动训练模型价值观，达特茅斯学院发布全新对齐算法

公众号新闻

2023-06-16 10:06

©作者 | LRS

来源 | 新智元

训练语言模型的最后一站是「AI构成的社会」。

训练大型语言模型的最后一步就是「对齐」（alignment），以确保模型的行为符合既定的人类社会价值观。

相比人类通过「社交互动」获得价值判断共识，当下语言模型更多的是孤立地从训练语料库中学习价值观，导致在陌生环境中泛化性能很差，容易受到对抗性攻击。

最近，来自达特茅斯学院、不列颠哥伦比亚大学、斯坦福大学、密歇根大学和Google Deepmind联合提出了一种全新的训练范式，将多个语言模型放入模拟的社会环境中，通过互动的方式学习价值观。

论文链接：

https://arxiv.org/abs/2305.16960

与现有的方法相比，文中提出的新方法具有更高的可扩展性和效率，在对齐基准和人类评估中表现出更好的性能，这种训练范式的转变也可以让人工智能系统更准确地反映社会规范和价值观。

SANDBOX：模拟人类社会

不同于有监督微调（SFT）预定义规则的传统做法，或是依赖基于人类反馈强化学习（RLHF）中的标量奖励，研究人员从人类学习驾驭社会规范的方式中获得灵感，模拟人类经验学习和迭代完善的过程。

SANDBOX是一个模拟人类社会的学习环境，在这个环境中，基于语言模型（LM）的社会智能体可以模仿人类进行互动和学习社会规范，通过煽动对有争议的社会话题或与风险有关的问题的讨论来促进社会规范的涌现。

同时，系统中还引入了一个潜规则，作为智能体的激励来完善输出，可以促进对齐改善（improved alignment）和印象管理（impression management）。

虽然论文的研究重点是社会对齐，但该规则可以适应于不同的场景需求。

SANDBOX包含一个三层方法Back-Scatter，可以模拟智能体之间的社会互动。

在收到一个社会问题后，中心智能体会生成一个初步的回复，然后与附近的智能体分享以获得反馈，其中反馈包括评分和详细的解释，可以帮助中心智能体对初步回复进行修订。

每个智能体都包括一个记忆模块来追踪回复历史：采用基于嵌入的语义搜索，从历史中检索相关的问题-答案（QA）对，为智能体提供一个促进与过去意见一致的背景信息。

除了社会智能体外，系统中还包括没有记忆的观察者智能体，其任务就是对回复的一致性和参与度进行评级。

SANDBOX可以辅助模拟各种语言模型的社会动态，监测观察者的评分，并对收集的数据进行事后分析。

对不同语言模型模拟后进行对齐分析可以发现，虽然较大的模型通常表现出更好的一致性和参与度，但也有令人惊讶的结果：尽管模型大小增加了20倍，但从68亿到1750亿参数量GPT-3模型的过渡中，并没有带来明显的改善。

这一结果也表明了两个关键的结论：

1. 单纯的模型扩展并不能保证对齐效果的改善

2. 非常小的模型也能提供令人满意的对齐性能

对没有对齐和有对齐训练模型的对比结果表明，对齐训练主要增强了模型以较少的交互实现较高对齐度的能力，在现实世界的应用中也是至关重要的考虑因素，因为用户期望立即得到社会性的对齐反应，而不需要通过交互引导模型。

总之，SANDBOX平台能够对社会互动进行建模，不仅促进了社会对齐语言模型的发展，而且也是研究AI智能体行为模式的一个多功能环境。

稳定对齐（Stable Alignment）

稳定对齐利用评分来调整每个mini-batch数据中对负面样本的惩罚，除了性能优于现有方法外，在资源有限的环境中还有易部署的优势。

相比OpenAI使用的RLHF机制，稳定对齐不需要额外的奖励模型就可以在训练期间提供近似的有监督信号。

数据准备

对齐数据由「好问题」和「坏问题」的示例组成，不过在互动环境SANDBOX中生成的数据比较特别，包含了对比对（comparative pairs）、集体评分（collective ratings）、细节反馈（detailed feedback）以及迭代的回复修订（iterative response revisions）。

按照Alpaca模型的要求，研究人员将数据组织成指令-输入-输出（Instruction-Input-Output）三部分，并添加必要的修改以适应SANDBOX的互动记录。

研究人员使用了一种新的样本类型，叫做重对齐（realignment），其中指令包括问题、低评分的回复草稿和修改后触发提示（如Please revise this response to improve its feedback compared to the input.）；

输入为同等模型的反馈（peer feedback），输出为修改后的回复。

研究人员发现，纳入重对齐风格的数据可以有效地改善模型对抗「越狱提示」（jailbreaking prompting），即用户利用各种上下文视图绕过保护措施，诱导模型做出恶意行为。

最终从模拟的相互交流中构建了16.9万个对齐数据样本。

稳定对齐算法

算法的核心部分中，稳定对齐起到对比学习过程的作用，奖励高评分的回复，并对低评分的回复进行惩罚。

不过与传统方法不同的是：

1. 对比信号来自于同一mini-batch中的低评分回复，而非孪生网络或shifted embedding，需要SANDBOX中记录数据的互动性才能使对比学习更有效地发挥作用。

2. 与hinge损失或triplet损失中通常采用的固定差值相比，稳定对齐算法在每个小batch中根据评分的不同动态调节差值。

具体来说，SFT损失和来自低评分回复损失之间的差值与离最高评分回复之间的距离有关，并且是成比例地增加，这就意味着模型必须更加努力地避免从低评分回复中学习，同时从最高评分的回复中学习。

实验部分

研究人员对训练后的模型进行了全面的评估，主要检查模型在传统的对齐基准和受到对抗性攻击评估中的表现。

实验中构建了三个不同的虚拟社会，每个社会都有100个智能体，排列在一个10x10的网格世界中，按照Back-Scatter协议进行互动。

三个社会使用三种不同的语言模型（LM）来模拟人类互动：text-davinci-002（175B）、text-davinci-003（175B）和GPT-4（大小未知）；采用ChatGPT（gpt-3.5-turbo）作为观察者，但没有记忆功能。

有争议的社会问题库包括9,662个问题组成，主要来自Anthropic发布的HH-RLHF数据集。

对比的基准数据集有三个：

1. Vicuna Test，评估有用性、相关性和准确性，代表了对通用聊天机器人的要求

2. Helpful, Honest, and Harmless（HHH）基准，通过有争议的社会问题评估社会对齐效果；

3. HHH-Adversarial，用HHH基准的测试集模仿对抗性攻击（越狱提示），在相应的问题后附加不一致的回答，并评估模型是否仍能以社会一致性的方式回答问题。

对于所有的评价，遵循Vicuna的评价协议，使用GPT-4作为裁判，并修改评价提示，以便能够对多个候选者进行比较。

从实验结果中可以发现：

1. 指令调整有助于使基础模型有效地处理「请求-完成」（request-completion）任务，在对齐基准中很常见。

LLaMA的回答通常更冗长，并且有时与问题无关，不过在经历通用指令调整后，Alpaca在Vicuna测试和HHH对齐基准中表现出明显的改进，评分分别从4.44提高到6.04和4.51提高到5.53

2. 虽然SFT对对齐任务表现出很大的优势，但单靠SFT并不能增强模型对对抗性攻击的稳健性。

当比较SFT训练前（Alpaca）和训练后（Alpaca + HHH-SFT）的模型时，尽管Vicuna测试和HHH的对齐性能有所提高，但可以注意到HHH-Adversarial性能下降非常多，表明加强对对齐反应的记忆并不一定使模型具备抵抗越狱提示的能力。

稳定对齐可以进一步优化对齐的潜力，并且不会明显降低模型的通用能力。

可以看到，经过对齐训练（即TRLX、Chain-of-Hindsight、RRHF和稳定对齐）后，所有模型在价值对齐基准（HHH和HHH-adversarial）中表现出更强的性能，但只有RRHF和稳定对齐提高了通用功能（即在Vicuna测试中，RRHF取得了6.81分，稳定对齐取得了7.40分--都超过了SFT的基线6.32分），表明稳定对齐在提升对齐能力的同时保留了通用能力。

参考资料：

https://huggingface.co/papers/2305.16960

更多阅读