Redian新闻
>
大模型RLHF不必非得靠人,谷歌:AI反馈效果一样好

大模型RLHF不必非得靠人,谷歌:AI反馈效果一样好

公众号新闻
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

说起现如今训大模型的核心方法,RLHF是绕不开的话题。

RLHF,即基于人类反馈的强化学习,无论是ChatGPT还是开源的LLaMA都离不开它。

但其中的“H”却是一大瓶颈,因为收集高质量的人类反馈实在是太难了。

那能不能交给AI来做呢?的确有人就这么干了,但能否替代RLHF一直没有定论,直到Google进行了这项研究。

在一篇新发布的arXiv论文中,Google将RLAIF训练出的模型在文本总结上的表现与RLHF做了比较。

RLAIF用AI来代替RLHF中的人类,完成生成反馈的工作,让大模型训练不再受制于人类的局限

在训练后的人类评价中,人们对RLHF和RLAIF训练后的模型生成的答案倾向性几乎没有差别

甚至在一些细节上,RLAIF的表现还要优于RLHF。

有AI工程师转发了这篇论文并评论说,到GPT-5的时候可能就不再需要人类数据标注员了。

在介绍详细的评测结果之前,我们不妨先来看看RLAIF的工作流程。

用LLM生成反馈数据

其实RLAIF和RLHF差不多,就是把人换成了AI,从字面上也能看出来。

所以重点自然而然地来到了生成反馈内容上。

研究人员首先让AI在两个答案中进行选择以获得反馈。

为了避免随机性问题,会进行多次选择,其间还会对选项的顺序进行交换。

其中还用到了思维链(CoT)的推理模式,以获取更好的回答。

此外,为了提高LLM的自我一致性,这一过程并非直接二选一,而是分别给两个答案打分,相加为1。

这套流程走下来的prompt和输出大概是酱婶儿的:

举个例子:

有了这些数据,就可以拿来训练奖励模型,进而预测出偏好分数了。

接着, 利用训练好的奖励模型,研究人员让目标模型进行强化学习。

与其他模型常用的PPO(Proximal Policy Optimization)算法不同,RLAIF采用的是更为简单有效的修改版A2C(Advantage Actor Critic)算法。

当然,也可以不训练奖励模型,直接用AI生成的标注数据进行强化学习。

实际上,团队得到的标注数据集比奖励模型规模更大也更好用,但考虑这样消耗的计算成本太高,还是选择了奖励模型。

到这里大模型的“课程”就已经学完了,不过要想“毕业”的话还得再经历一场“考试”才行。

“考试”一共包括下面的三项内容:

  • AI Labeler Alignment:AI偏好相对于人类偏好的精确程度

  • Pairwise Accuracy:训练好的奖励模型与人类偏好数据集的匹配程度

  • Win Rate:人类在RLAIF和RLHF生成结果之间的倾向性

经过这样一番测试之后,强化学习终于大功告成。

那么,“AI教出来的学生”成绩究竟怎么样呢?

测试效果可以与RLHF媲美

研究团队找来了1200名人员,在对SFT(基线监督微调)、RLHF、RLAIF以及真人给出的答案从优质到劣质进行排序。

以SFT方式作为基线,RLHF和RLAIF的Win Rate均超过了70%,也就是说人类对这两种方式的倾向程度是SFT的将近三倍。

虽然RLHF的表现略胜于RLAIF,但两者的差距并不明显。

而若以RLHF作为参照,RLAIF的Win Rate则是50%,说明人类对两者的倾向程度是一样的。

有趣的是,两种RL训练出的模型给的结果都远远胜过了真人直接给出的答案。

RLAIF相对于真人的Win Rate高达79%,而RLHF是80%,即倾向性是真人答案的四倍。

此外,在对输出内容进行仔细评估之后,研究人员还发现RLAIF训练出的模型出现幻觉的概率比RLHF更低,逻辑和语法错误也更少。

One More Thing

不过对于RLAIF,也有网友发现了华点:

拿来生成反馈的模型不也是用RLHF训练出来的吗?

而另一边,RLHF的过程当中,也不能排除有的人在用AI“偷懒”的可能。

或许“你中有我,我中有你”才是两种方式测试结果这么接近的原因吗?

论文地址:
https://www.arxiv.org/abs/2309.00267

报名开启!9月6日

「具身智能前夜」仿生机器人沙龙
9月6日 14:30,量子位智库行业沙龙「具身智能前夜」将为你解读仿生机器人的崛起与挑战,邀请到来自云深处科技、大象机器人等企业代表,聊聊仿生机器人行业最新趋势~

后台回复「仿生机器人」,报名线下参与仿生机器人行业沙龙 


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
在RTX 4090被限制的时代下,让大模型使用RLHF更高效的方法来了详解大模型RLHF过程(配代码解读)复旦NLP组开源PPO-Max:32页论文详解RLHF背后秘密,高效对齐人类偏好RLHF模型普遍存在「阿谀奉承」,从Claude到GPT-4无一幸免造访新开张的温哥华唐人街的华裔博物馆蔚来:城区智能驾驶普及,不必非要“开城”DeepMind新研究:ReST让大模型与人类偏好对齐,比在线RLHF更有效深陷垄断指控,谷歌:数字广告收入已经向亚马逊倾斜谷歌机器人大模型RT-2,李飞飞具身智能新成果,Cathie Wood访谈,特斯拉Ashok演讲烧了百亿后,还得靠人脉3年个人戒烟残酷史 回头一看都是认知问题?RLAIF:一个不依赖人工的RLHF替代方案RLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平谷歌DeepMind发布机器人大模型RT-2,提高泛化与涌现能力|甲子光年Transformer+强化学习,谷歌DeepMind让大模型成为机器人感知世界的大脑调查分析两百余篇大模型论文,数十位研究者一文综述RLHF的挑战与局限FudanNLP团队最新成果,借助RLHF实现人类对齐的MOSS-RLHF来了两百余篇大模型论文揭秘RLHF的挑战与局限大模型RLHF的trick谷歌:大模型不仅有涌现能力,训练时间长了还有「领悟」能力谈谈李玟与抑郁症的治疗无需人类反馈即可对齐!田渊栋团队新作RLCD:无害型、有益性、大纲写作全面超越基线模型听到去野餐就蹦蹦跳跳,谷歌用大模型教机器狗听懂模糊指令森林大火见闻百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报RLHF缺陷完整揭示!MIT哈佛等32位学者联合发布专访腾讯许光:站在新的起点上,我们想让CF不只是游戏IP北大硕士RLHF实践,基于DeepSpeed-Chat成功训练上自己的模型LLM成功不可或缺的基石:RLHF及其替代技术八声甘州 时事RLHF vs RL「AI」F,谷歌实证:大模型训练中人类反馈可被AI替代RLHF何以成LLM训练关键?AI大牛盘点五款平替方案,详解Llama 2反馈机制升级真能听懂人话!机器人ChatGPT来了,谷歌发布又一AI大模型黑科技用 Transformer 和 RLHF「炼」大模型,危?谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。