Redian新闻
>
无需人类反馈即可对齐!田渊栋团队新作RLCD:无害型、有益性、大纲写作全面超越基线模型

无需人类反馈即可对齐!田渊栋团队新作RLCD:无害型、有益性、大纲写作全面超越基线模型

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】省去人工标注成本,用大模型自动生成正面、负面提示,在小参数量模型上表现更佳!


随着大模型的能力越来越强,如何低成本地让模型的输出更符合人类的偏好以及社会的公共价值观,就显得尤为重要。


基于人类反馈的强化学习(RLHF)在对齐语言模型上取得了非常好的效果,可以让预训练模型具有无害性、有用性等理想品质,并在多项自然语言处理任务中取得了最先进的结果。


但RLHF在很大程度上依赖于人类提供的标注结果,获取高质量数据的成本过于昂贵且耗时,小型研究团队可能无法支付训练成本。


其他无需人工标注的对齐方法,如RLAIF(基于AI反馈的强化学习)和上下文蒸馏(context distillation)主要利用预设的提示模版,利用现有模型自动生成训练数据,在语言模型对齐上取得了非常不错的效果。


最近,加州大学伯克利分校、Meta AI和加州大学洛杉矶分校的研究人员共同提出了一项新技术RLCD(基于对比度蒸馏的强化学习,Reinforcement learning from contrast distillation),同时结合了RLAIF和上下文蒸馏的优势,使用包含高质量和低质量示例的「模拟偏好数据对」来训练偏好模型,其中示例使用对比的正面和负面提示生成。


论文链接:https://arxiv.org/pdf/2307.12950.pdf


从7B和30B规模的实验结果来看,RLCD在三个不同的对齐任务(无害性、有益性、故事大纲生成)上优于RLAIF和上下文蒸馏基线。


与Constitutional AI相比,RLCD在人类和GPT-4的评估中表现更好,特别是在无害性,有用性和故事概述方面的小模型(7B规模)。


田渊栋博士是Meta人工智能研究院研究员、研究经理,围棋AI项目负责人,其研究方向为深度增强学习及其在游戏中的应用,以及深度学习模型的理论分析。先后于2005年及2008年获得上海交通大学本硕学位,2013年获得美国卡耐基梅隆大学机器人研究所博士学位。



曾获得2013年国际计算机视觉大会(ICCV)马尔奖提名(Marr Prize Honorable Mentions),ICML2021杰出论文荣誉提名奖。


曾在博士毕业后发布《博士五年总结》系列,从研究方向选择、阅读积累、时间管理、工作态度、收入和可持续的职业发展等方面对博士生涯总结心得和体会。


RLCD


与RLHF类似,RLCD从未对齐的语言模型和一组提示开始,将其作为成对偏好数据生成的起点。



对于每个提示p,RLCD 都会生成两个提示p+和p-(上图中的绿色和橙色),分别向鼓励相关属性(如无害性、乐于助人性)和反对相关属性的方向变化。


然后将p+和p-输入进原始LLM,可以得到相应的输出o+和o-,在生成训练对(o+,o-)时,模型会自动将o+标注为首选,而无需进一步的后评分。



最后,遵循标准的RLHF流程,在模拟的成对偏好数据上训练偏好模型,再从偏好模型中选出一个奖励模型,并使用该奖励模型运行 PPO 来对齐原始 LLM。


正反面提示构造


从技术角度来看,如果从现有的 RLAIF 工作流程出发,实现RLCD是非常简单的,主要的难点在于如何构建 RLCD 的正反面提示 p+、p-,以生成偏好对。


研究人员确定了选择提示的两个主要标准:


1. p+应该比p-更有可能产生体现所需属性(如无害性、有用性)的输出;同样,p-可以明确鼓励向相反属性的方向转变。


2. p+和p-的字面形式应尽可能相似,比如只有少部分词有区别,主要是为了避免引入与所需属性无关的意外偏差。


直观来看,p+和p-会产生两种不同的分布,第一条标准确保这两种分布在所需属性上的差异尽可能大,而第二条标准则确保它们在正交轴上的差异尽可能小。


根据经验,就可以发现与使用类似提示的基线相比,RLCD 能够极大地放大提示 p+ 和 p- 的对比度,这一点已通过实验得到证实。


因此,在实际设计p+和p-时,研究人员发现,与第一条标准相比,关注第二条标准往往更有价值,只需在括号中写下简短的描述即可创建 p+ 和 p-


实验结果


实验任务


研究人员在三个任务上,使用三组不同的提示集合进行测评:


1. 无害性提示(harmlessness prompts)


由于聊天过程中经常会出现攻击性或其他社会不可接受的文本,研究人员的目标是,即使是在这种有毒的语境下,模型也要生成社会可接受、合乎道德和/或无攻击性的输出。


次要目标是,输出内容仍需要有助于改善对话并与对话相关,而不是像「谢谢」和「对不起」这样毫无意义的通用回复。


2. 有益性提示(helpfulness prompts)


人类通常会在对话中询问信息或建议,目标是生成有帮助的输出。


3. 大纲提示(outlining prompts)


人类提供故事前提并要求提供大纲的对话,目标是为前提写出一个格式规范、生动有趣的故事大纲,除了要求趣味性、格式正确性、与前提的相关性外,模型还需要有长期规划的能力。


研究人员使用网络上现成的40000个前提,而助手的回答会自动以「Here is a possible outline:」开头,以促使模型以正确的基本格式输出。


RLCD 正面和负面提示


对于无害性任务,研究人员编写了 16 对用于构建 p+ 和 p- 的上下文短语(每次使用时随机抽取一对);这些短语对与 Bai 等人(2022b)使用的 16 个评分提示类似,他们对无害性任务实施了 RLAIF。



对于有用性,研究人员只使用一对短语,分别要求给出有用或无用的回答。



对于大纲,研究人员使用了三个短语对,旨在对比趣味性、格式正确性和前提相关性。



对于无害性和有益性任务,在创建训练信号的同时,通过在「Assistant:」指示中冒号前的括号内放置对比性描述来大致匹配 p+ 和 p- 的字面形式。



基线模型


1. LLaMA,即直接使用未对齐的 LLaMA-7B 基线(与 RLCD 和其他基线对齐的初始 LLM 相同)生成输出,作为合理性检查(sanity check)。


2. RLAIF,遵循Constitutional AI原文,先用AlpacaFarm进行复现,然后使用与原文完全相同的提示模板来进行无害性评分;对于有用性和大纲评分,使用的提示尽可能与RLCD中使用的提示相似。



3. Context-Dist 是一个上下文蒸馏(context distillation)基线模型,仅对RLCD中正面提示p+的输出o+进行有监督微调。


评价指标


在每个任务中,对 RLCD 与每个基线模型成对地进行评估,标注人员需要对200个样例进行对比,给出1(输出A要更好)到8(输出B要更好)的评分。


研究人员还使用GPT-4,通过不同的提示设计,对1000 个示例进行二元评估。



实验结果


在两种评估方式下,RLCD的性能都优于对比的基线模型,验证了数据生成过程在7B和30B规模下的有效性。


人类评估


GPT-4评估


在使用 LLaMA-7B 进行偏好数据模拟时,RLCD 与其他模型相比带来的性能提升尤为明显,即使是最强的基线 RLAIF,也只能在 30B 模型规模的数据模拟中接近 RLCD,而在 7B 模型规模的数据模拟中则表现不佳。


在30B模型规模下,虽然GPT-4在某些情况下更倾向于 RLAIF30B,但人类始终认为RLCD与之相比表现相当或更好,也就是说GPT-4评估与人类的评估结果在30B的模型规模上分歧更大。


RLCD 与基线之间的差异也可以从质量上观察出来。



RLCD 的启示


研究人员认为,RLCD的偏好数据生成与最相似的先验方法 RLAIF 相比更受青睐的一些主要原因是,由于 RLAIF 会生成两个输出o1和o2,在很多情况下,相关属性可能几乎没有差别,可能会导致「信噪比」较低。



根据经验,在使用LLaMA-7B生成 RLAIF 数据时,在标签极性的第60百分位数上,o2更受青睐。


虽然分类模型通常会从接近决策边界的训练示例中获益,但RLAIF中的问题在于这些示例并非人工标注,因此可能存在极大的噪声,如果无法准确标注这些示例,就最好避免使用。


与RLAIF相比,RLCD构建的 (o+、o-) 在指定属性上更有可能存在差异,与 o- 相比,o+ 显然更具道德性。


虽然 RLCD 的输出有时也会有噪声,但平均而言,它们似乎比 RLAIF 的输出更有区别,从而产生了更准确的标签。


参考资料:
https://arxiv.org/pdf/2307.12950.pdf




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
RLHF vs RL「AI」F,谷歌实证:大模型训练中人类反馈可被AI替代贾佳亚韩松团队新作:两行代码让大模型上下文窗口倍增 | GitHub热榜弱者的世界田渊栋团队最新研究:不到1000步微调,将LLaMA上下文扩展到32K娄岩一周诗词三首万字长文概览大语言模型对齐(欺骗性对齐、可扩展的监管、机械可解释性、工具性目标趋同)放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院华人领衔发布全新对齐算法:「AI社会」是最好的老师马毅团队新作:白盒ViT成功实现"分割涌现"!具有高性能和数学可解释的特性AI读心升级版!NUS、港中文华人团队新作,高清视频1秒生成,准确率超SOTA 45%模型越大越爱拍马屁!谷歌大神Quoc Le团队新作:用简单合成数据微调即可解决不识秋兰真面目,只缘身在书香中马毅团队新作!微调多模态大模型会「灾难性遗忘」FudanNLP团队最新成果,借助RLHF实现人类对齐的MOSS-RLHF来了录用率26.1%!NeurIPS 2023论文放榜,马毅田渊栋团队研究被接收罗杰波团队新作:后ChatGPT 时代公众对于AI技术的兴奋与担忧放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院发布全新对齐算法人工智能为何延承人的思维缺陷?DeepMind新研究:ReST让大模型与人类偏好对齐,比在线RLHF更有效石正丽团队新作!发现sarbecoviruses构成了更广泛的人畜共患病威胁ICCV 2023 | 图像重缩放新方法:无需对模型重新训练即可提高性能斯坦福李飞飞团队新作:孪生掩码自编码器SiamMAE,刷榜视觉自监督方法大学教授:回顾指导博士生论文写作全过程,谈几点写作心得田渊栋新作:打开1层Transformer黑盒,注意力机制没那么神秘中国旅游强劲复苏 箱包巨头新秀丽核心数据全面超越疫情前无需节食!Nutrients研究表明减少蛋白质摄入即可对抗肥胖,轻松减重20斤!羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品无需人力标注!悉尼大学华人团队提出「GPT自监督标注」范式,完美解决标注成本、偏见、评估问题马毅团队新作!微调多模态大模型会「灾难性遗忘」,让性能大减我在养花的路上,越走越执着用AI对齐AI?超级对齐团队领导人详解OpenAI对齐超级智能四年计划李飞飞团队新作SiamMAE:孪生掩码自编码器,刷榜视觉自监督方法!全面超越LLaMA2,月下载量超三百万,国产开源大模型如何成为新晋顶流?正在全面超越?重磅解读来了3D AI生成出新玩法了:无需数小时,只要45秒,单张图片即可生成 3D模型田渊栋团队新作:通过位置插值来扩展大语言模型的上下文窗口
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。