RLHF vs RL「AI」F,谷歌实证:大模型训练中人类反馈可被AI替代
机器之心报道
编辑:Panda W
众所周知,RLHF 是 ChatGPT 和 Bard 等 LLM 成功路上不可或缺的重要一环,而现在谷歌的一项研究表明可以把 RLHF 中的 H(人类)替换成 AI,而且新提出的根据人工智能反馈的强化学习(RLAIF)在实验中的表现大体上与 RLHF 接近。可以预见,如果这项技术的有效性得到进一步验证,人类离 LLM 的训练流程又会更远一步,同时 AI 训练 AI 的构想也会更接近现实。
基于摘要任务表明 RLAIF 能取得与 RLHF 相当的表现。 比较了多种用于生成 AI 标签的技术,并为 RLAIF 实践者确定了最优设置。
序言 —— 描述当前任务的介绍和指示 少样本示例(可选)—— 一段示例文本、两个摘要、一个思维链原理(如果可用)和一个偏好判断 所要标注的样本 —— 一段文本和一对要标记的摘要 结尾 —— 一段用于提示 LLM 的结束字符串(如 Preferred Summary=)
基本型:就是简单地问:「哪个摘要更好?」 OpenAI 型:模仿了给人类偏好标注者的评级指令,该指令生成了 OpenAI TL;DR 偏好数据集并且包含有关组成优良摘要的内容的详细信息。完整序言见下表。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章