Redian新闻
>
RLAIF:一个不依赖人工的RLHF替代方案

RLAIF:一个不依赖人工的RLHF替代方案

科技

深度学习自然语言处理 原创
作者:Winnie

LLM可以标记人类偏好数据,用于强化学习吗?尽管之前有一些类似的研究,但从没有人系统地对比RLHF和RLAIF的性能。今天,我们为大家带来一项Google最新的研究,来看看LLM是否懂得人类的偏好。

Paper: RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

Link: https://arxiv.org/abs/2309.00267

进NLP群—>加入NLP交流群

基于人类反馈的强化学习(RLHF)通过收集人类反馈,以强化学习方法训练LLM,可以更好地理解人类偏好。然而,这个方法有一个很大的问题:收集高质量的人类反馈非常困难和耗时。

那有没有更好的方法呢?

🌟 RLAIF方法

RLAIF即Reinforcement learning from AI feedback。顾名思义,RLAIF是指使用LLM来代替人类标记偏好,基于这些标记数据训练奖励模型,然后进行RL微调。

下图是一个展示了RLAIF(上)和RLHF(下)的基本流程。

如图所示,在RLAIF中,首先使用LLM来评估给定的文本和2个候选回复,然后,这些由LLM生成的偏好数据被用来训练一个奖励模型,这个奖励模型用于强化学习,以便进一步优化LLM。

一个LLM用于评估回复的prompt示例如下图,遵循以下流程:

  • Preamble-描述任务介绍和说明
  • Few-shot exemplars(可选)
  • Sample to annotate
  • 结束字符串

在这篇研究中,作者还探索了:

  • 避免位置偏差: 候选回复喂给LLM的顺序可能会偏向它喜欢的候选顺序,尤其是在 LLM 参数较小的情况下。为了减轻位置偏差的影响,作者进行了双重推理和平均处理。
  • prompt改进: 还尝试了使用思维链(CoT)推理和self-consistency等方法促进LLM的评估。

🎯 实验结果

作者使用PaLM 2 Extra-Small(XS)在OpenAI的过滤过的TL;DR数据集上训练了一个SFT模型作为baseline。

  • 对于RLHF方法,奖励模型在OpenAI的TL;DR人类偏好数据集上进行训练。
  • 对于RLAIF方法,使用PaLM 2 L生成AI标记的偏好
  • 对于强化学习,使用A2C训练策略。策略和价值模型都是从SFT模型初始化的。

实验主要有以下发现:

在性能方面:RLAIF与RLHF有相似的表现。

  • 在人类评估上,与SFT策略相比,RLAIF被偏好71%的时间,而RLHF则被偏好73%的时间。尽管RLHF略微优于RLAIF,但这个差异在统计上并不显著。

  • 直接对比胜率:RLAIF与RLHF在被偏好的程度上是平等的,胜率都是50%。

  • 与人工写的摘要比较:RLAIF和RLHF生成的摘要分别在79%和80%的时间内被更偏好,与参考摘要的差异也不具统计意义。

  • 影响因素:RLAIF和RLHF策略倾向于生成比SFT策略更长的摘要,这可能是质量提升的一个因素。

  • 长度调整后表现:即使控制摘要的长度,RLAIF和RLHF都依然在同样的幅度内优于SFT策略。

下图是SFT,RLHF和RLAIF策略生成的示例摘要。RLHF和RLAIF 比SFT产生更高质量的摘要。

对于prompt方式,使用详细的OpenAI preamble和CoT给出了最高的对齐性能。少样本提示并没有提高准确性,甚至可能使它变得更糟。

Self-Consistency with CoT对性能的影响如下,用T=1采样会导致与人类偏好的一致性较低。

作者还对用于评估的LLM的参数大小进行了探索,发现与人类偏好的一致性随着LLM大小的增加而增加。

🔮 总结

这项工作似乎暗示RLAIF是一个不依赖于人工标注的、与RLHF可行的替代方案。但是,为了更好地了解这些发现是否能推广到其他NLP任务,还需要在更广泛的任务范围内进行实验。


进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
重磅 |《开源数据库生态发展研究报告》发布 GreatSQL为MySQL5.7最佳替代方案!RTX4090等高算力显卡禁售,跑训练是否有其他替代方案?调查分析两百余篇大模型论文,数十位研究者一文综述RLHF的挑战与局限亚裔因天资聪颖却在录取中吃亏?逆境得分或成为替代方案?《独立日July 4th 》釆风FudanNLP团队最新成果,借助RLHF实现人类对齐的MOSS-RLHF来了RLHF vs RL「AI」F,谷歌实证:大模型训练中人类反馈可被AI替代RLHF模型普遍存在「阿谀奉承」,从Claude到GPT-4无一幸免生活琐记:爱花的小鸟沁园春 访修道院Kloster Kappel佛州通过SAT替代方案CLT,华邮:专家对于效力仍存疑LLM成功不可或缺的基石:RLHF及其替代技术“没有‘替代方案’”,土外长要访俄大模型RLHF不必非得靠人,谷歌:AI反馈效果一样好详解大模型RLHF过程(配代码解读)RLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平在RTX 4090被限制的时代下,让大模型使用RLHF更高效的方法来了RLHF缺陷完整揭示!MIT哈佛等32位学者联合发布RLHF何以成LLM训练关键?AI大牛盘点五款平替方案,详解Llama 2反馈机制升级两百余篇大模型论文揭秘RLHF的挑战与局限BMC Medicine|李惠平、高雨农联合团队发现晚期女性恶性肿瘤无化疗替代方案《花尾渡》(小说) 第十四章 万象更新天下先“与美国截然不同”!中国拿出替代方案违反国际公约!墨尔本大学教授发长文反对日本排放核废水,现在停下还来得及!寻找其它替代方案!复旦NLP组开源PPO-Max:32页论文详解RLHF背后秘密,高效对齐人类偏好专访日本原子力资料情报室专家:明知有可替代方案,核污水排海不负责任TCR-T细胞治疗公司停止临床试验,裁员60%,正在寻找替代方案桂枝香 岁月若风用 Transformer 和 RLHF「炼」大模型,危?不依赖进口,俄罗斯能否实现工业飞跃?北大硕士RLHF实践,基于DeepSpeed-Chat成功训练上自己的模型Nat Biotechnol | 高彩霞研究组开发不依赖CRISPR的全新碱基编辑工具大模型RLHF的trickDeepMind新研究:ReST让大模型与人类偏好对齐,比在线RLHF更有效只会用 Spring Boot 创建微服务?那你就 OUT 了,还有这 4 种替代方案!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。