Redian新闻
>
放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院发布全新对齐算法

放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院发布全新对齐算法

公众号新闻


©作者 | LRS
来源 | 新智元


训练语言模型的最后一站是「AI构成的社会」。


训练大型语言模型的最后一步就是「对齐」(alignment),以确保模型的行为符合既定的人类社会价值观。


相比人类通过「社交互动」获得价值判断共识,当下语言模型更多的是孤立地从训练语料库中学习价值观,导致在陌生环境中泛化性能很差,容易受到对抗性攻击。


最近,来自达特茅斯学院、不列颠哥伦比亚大学、斯坦福大学、密歇根大学和Google Deepmind联合提出了一种全新的训练范式,将多个语言模型放入模拟的社会环境中,通过互动的方式学习价值观。




论文链接:

https://arxiv.org/abs/2305.16960


与现有的方法相比,文中提出的新方法具有更高的可扩展性和效率,在对齐基准和人类评估中表现出更好的性能,这种训练范式的转变也可以让人工智能系统更准确地反映社会规范和价值观。




SANDBOX:模拟人类社会

不同于有监督微调(SFT)预定义规则的传统做法,或是依赖基于人类反馈强化学习(RLHF)中的标量奖励,研究人员从人类学习驾驭社会规范的方式中获得灵感,模拟人类经验学习和迭代完善的过程。


SANDBOX是一个模拟人类社会的学习环境,在这个环境中,基于语言模型(LM)的社会智能体可以模仿人类进行互动和学习社会规范,通过煽动对有争议的社会话题或与风险有关的问题的讨论来促进社会规范的涌现。



同时,系统中还引入了一个潜规则,作为智能体的激励来完善输出,可以促进对齐改善(improved alignment)和印象管理(impression management)。


虽然论文的研究重点是社会对齐,但该规则可以适应于不同的场景需求。


SANDBOX包含一个三层方法Back-Scatter,可以模拟智能体之间的社会互动。


在收到一个社会问题后,中心智能体会生成一个初步的回复,然后与附近的智能体分享以获得反馈,其中反馈包括评分和详细的解释,可以帮助中心智能体对初步回复进行修订。



每个智能体都包括一个记忆模块来追踪回复历史:采用基于嵌入的语义搜索,从历史中检索相关的问题-答案(QA)对,为智能体提供一个促进与过去意见一致的背景信息。


除了社会智能体外,系统中还包括没有记忆的观察者智能体,其任务就是对回复的一致性和参与度进行评级。


SANDBOX可以辅助模拟各种语言模型的社会动态,监测观察者的评分,并对收集的数据进行事后分析。



对不同语言模型模拟后进行对齐分析可以发现,虽然较大的模型通常表现出更好的一致性和参与度,但也有令人惊讶的结果:尽管模型大小增加了20倍,但从68亿到1750亿参数量GPT-3模型的过渡中,并没有带来明显的改善。


这一结果也表明了两个关键的结论:


1. 单纯的模型扩展并不能保证对齐效果的改善


2. 非常小的模型也能提供令人满意的对齐性能


对没有对齐和有对齐训练模型的对比结果表明,对齐训练主要增强了模型以较少的交互实现较高对齐度的能力,在现实世界的应用中也是至关重要的考虑因素,因为用户期望立即得到社会性的对齐反应,而不需要通过交互引导模型。


总之,SANDBOX平台能够对社会互动进行建模,不仅促进了社会对齐语言模型的发展,而且也是研究AI智能体行为模式的一个多功能环境。




稳定对齐(Stable Alignment)


稳定对齐利用评分来调整每个mini-batch数据中对负面样本的惩罚,除了性能优于现有方法外,在资源有限的环境中还有易部署的优势。


相比OpenAI使用的RLHF机制,稳定对齐不需要额外的奖励模型就可以在训练期间提供近似的有监督信号。


数据准备


对齐数据由「好问题」和「坏问题」的示例组成,不过在互动环境SANDBOX中生成的数据比较特别,包含了对比对(comparative pairs)、集体评分(collective ratings)、细节反馈(detailed feedback)以及迭代的回复修订(iterative response revisions)。



按照Alpaca模型的要求,研究人员将数据组织成指令-输入-输出(Instruction-Input-Output)三部分,并添加必要的修改以适应SANDBOX的互动记录。


研究人员使用了一种新的样本类型,叫做重对齐(realignment),其中指令包括问题、低评分的回复草稿和修改后触发提示(如Please revise this response to improve its feedback compared to the input.);


输入为同等模型的反馈(peer feedback),输出为修改后的回复。


研究人员发现,纳入重对齐风格的数据可以有效地改善模型对抗「越狱提示」(jailbreaking prompting),即用户利用各种上下文视图绕过保护措施,诱导模型做出恶意行为。


最终从模拟的相互交流中构建了16.9万个对齐数据样本。


稳定对齐算法


算法的核心部分中,稳定对齐起到对比学习过程的作用,奖励高评分的回复,并对低评分的回复进行惩罚。



不过与传统方法不同的是:


1. 对比信号来自于同一mini-batch中的低评分回复,而非孪生网络或shifted embedding,需要SANDBOX中记录数据的互动性才能使对比学习更有效地发挥作用。


2. 与hinge损失或triplet损失中通常采用的固定差值相比,稳定对齐算法在每个小batch中根据评分的不同动态调节差值。


具体来说,SFT损失和来自低评分回复损失之间的差值与离最高评分回复之间的距离有关,并且是成比例地增加,这就意味着模型必须更加努力地避免从低评分回复中学习,同时从最高评分的回复中学习。




实验部分


研究人员对训练后的模型进行了全面的评估,主要检查模型在传统的对齐基准和受到对抗性攻击评估中的表现。


实验中构建了三个不同的虚拟社会,每个社会都有100个智能体,排列在一个10x10的网格世界中,按照Back-Scatter协议进行互动。


三个社会使用三种不同的语言模型(LM)来模拟人类互动:text-davinci-002(175B)、text-davinci-003(175B)和GPT-4(大小未知);采用ChatGPT(gpt-3.5-turbo)作为观察者,但没有记忆功能。


有争议的社会问题库包括9,662个问题组成,主要来自Anthropic发布的HH-RLHF数据集。



对比的基准数据集有三个:


1. Vicuna Test,评估有用性、相关性和准确性,代表了对通用聊天机器人的要求


2. Helpful, Honest, and Harmless(HHH)基准,通过有争议的社会问题评估社会对齐效果;


3. HHH-Adversarial,用HHH基准的测试集模仿对抗性攻击(越狱提示),在相应的问题后附加不一致的回答,并评估模型是否仍能以社会一致性的方式回答问题。


对于所有的评价,遵循Vicuna的评价协议,使用GPT-4作为裁判,并修改评价提示,以便能够对多个候选者进行比较。


从实验结果中可以发现:


1. 指令调整有助于使基础模型有效地处理「请求-完成」(request-completion)任务,在对齐基准中很常见。


LLaMA的回答通常更冗长,并且有时与问题无关,不过在经历通用指令调整后,Alpaca在Vicuna测试和HHH对齐基准中表现出明显的改进,评分分别从4.44提高到6.04和4.51提高到5.53


2. 虽然SFT对对齐任务表现出很大的优势,但单靠SFT并不能增强模型对对抗性攻击的稳健性。


当比较SFT训练前(Alpaca)和训练后(Alpaca + HHH-SFT)的模型时,尽管Vicuna测试和HHH的对齐性能有所提高,但可以注意到HHH-Adversarial性能下降非常多,表明加强对对齐反应的记忆并不一定使模型具备抵抗越狱提示的能力。


稳定对齐可以进一步优化对齐的潜力,并且不会明显降低模型的通用能力。

可以看到,经过对齐训练(即TRLX、Chain-of-Hindsight、RRHF和稳定对齐)后,所有模型在价值对齐基准(HHH和HHH-adversarial)中表现出更强的性能,但只有RRHF和稳定对齐提高了通用功能(即在Vicuna测试中,RRHF取得了6.81分,稳定对齐取得了7.40分--都超过了SFT的基线6.32分),表明稳定对齐在提升对齐能力的同时保留了通用能力。

参考资料:
https://huggingface.co/papers/2305.16960



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
RLHF中的「RL」是必需的吗?有人用二进制交叉熵直接微调LLM,效果更好最新RLHF拯救语言模型「胡说八道」!微调效果比ChatGPT更好,两名华人共同一作放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院华人领衔发布全新对齐算法:「AI社会」是最好的老师万字长文概览大语言模型对齐(欺骗性对齐、可扩展的监管、机械可解释性、工具性目标趋同)Stability AI连扔两个王炸!首个开源RLHF模型登基,DeepFloyd IF像素级出图XTREME榜单第一,多粒度对齐的多语言预训练模型VECO 2.0多GPU通信效率提升4倍,RLHF生成提升2.25倍!DeepSpeed ZeRO++重磅升级复旦NLP组开源PPO-Max:32页论文详解RLHF背后秘密,高效对齐人类偏好我们的价值观,狭隘到了不可思议的程度《乍暖還寒》 “The Last Station”2/23/10 (為愛啟程)大模型RLHF的trickDartmouth College 达特茅斯学院 学术诚信政策及申诉指南RLHF 实践中的框架使用与一些坑 (TRL, LMFlow)RLHF中的「RL」是必需的吗?斯坦福提出用二进制交叉熵直接微调LLM10行代码媲美RLHF!谷歌DeepMind用游戏数据让大模型更像人类24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」模拟器StackLLaMA: 用 RLHF 训练 LLaMA 的手把手教程【本周讲座预告】高考后留学--麻省大学达特茅斯分校专场沁园春 加拿大夏日话当年Meta AI 重磅推出LIMA!媲美GPT-4、无需RLHF就能对齐!两百余篇大模型论文揭秘RLHF的挑战与局限贺万全公陵园落成RLHF缺陷完整揭示!MIT哈佛等32位学者联合发布OpenAI:已不再使用客户数据训练模型阿里100瓶毒药解马斯克难题?国内首个大模型价值对齐数据集开源,15万评测题上线!2023ESC-HFA | ARNI再添HFpEF新证!沙库巴曲缬沙坦PARAGLIDE-HF研究结果重磅公布无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型FudanNLP团队最新成果,借助RLHF实现人类对齐的MOSS-RLHF来了风正慢慢刮起来调查分析两百余篇大模型论文,数十位研究者一文综述RLHF的挑战与局限用AI对齐AI?超级对齐团队领导人详解OpenAI对齐超级智能四年计划无需人类反馈即可对齐!田渊栋团队新作RLCD:无害型、有益性、大纲写作全面超越基线模型北京内推 | 腾讯微信事业群招聘NLP算法工程师/预训练模型加速工程师上古小说《朝歌》6:横祸用 Transformer 和 RLHF「炼」大模型,危?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。