无需偏好数据也能RLHF?腾讯AI Lab提出对抗式偏好对齐方法
▲ 样本分布偏移:偏好标注(红色虚线)原本可以覆盖模型的输出分布(左图蓝色曲线),但当模型更新后,样本输出分布(右图绿色曲线)与偏好标注范围产生不一致。
论文链接:
代码链接:
对抗式对齐方法
在 LLM 迭代步骤中,RM 参数固定,博弈目标转换为正常的偏好对齐问题,可以使用 RLHF、RRHF、DPO、Rejection Sampling 等方法求解。流程上,作者将 LLM 训练用的 queries 经过 LLM 推理出对应的回复样本,再用 RM 模型进行打分,最后用打分反馈来更新 LLM 的回复策略。
在 RM 迭代步骤中,LLM 参数固定,作者将 RM 训练的 queries 经过 LLM 推理得到对应的样本回复。然后将生成的样本回复和金标准回复进行组合,得到新的 APO 偏好数据,用来更新 RM 模型。
此外,文章还在博弈过程中引入了 KL 散度作为正则项,以缓解对抗训练过拟合和收敛困难的问题。同时,文章还讨论了 APO 方法与 GAN 等经典对抗训练方法之间的联系和区别。
实验结果
From Base:也就是每次 RM 都是基于 base model 利用新的 APO 对抗数据进行更新, Sequential:每一轮 RM 都是在上一轮 RM 的 checkpoint 上继续用新的 APO 对抗数据进行训练。
左侧的图表展示了 APO 训练后 RM 的表现变化,纵轴为 RM 在测试集上的准确率,横轴为模型的校准误差(Calibration Error)。可以看到,通过加入 APO训练数据,RM 模型的偏好准确率可以一致地获得提升,尤其是通过 Sequential 的方式更新 RM(APO-v1 APO-v2seq APO-v3seq)可以将 RM 的准确率持续提升。但于此同时 RM 校准表现会有一定的损失。 右侧图表展示了 APO 训练对 LLM 对齐效果的增益,纵轴为测试 RM 对 LLM 回复样本的平均打分,代表 LLM 的对齐质量,横轴为对抗迭代的轮数。可以看到,用 From Base 训练的 RM 进行 APO 对抗的结果(红色虚线)可以持续地跟 rejection sampling(RJS)基线(蓝色虚线,仅用 Base RM 进行对齐)拉开差距。而 Sequential 训练的 RM 可以在第二轮获得更好的效果,但是在第三轮时效果反而下降,作者分析原因可能是因为 overfit 导致 RM 的校准误差过大。
总结
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者