Redian新闻
>
NAACL 2024 | 阿里提出大语言模型对齐框架Reward Learning on Policy (RLP)

NAACL 2024 | 阿里提出大语言模型对齐框架Reward Learning on Policy (RLP)

科学
©PaperWeekly 原创 · 作者 | 郎皓
单位 | 阿里巴巴

论文标题:

Fine-Tuning Language Models with Reward Learning on Policy

论文作者:

郎皓、黄非、李永彬

收录会议:

NAACL 2024

论文链接:

https://arxiv.org/abs/2403.19279

代码和数据:

https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/rlp


引言

目前,大语言模型(LLMs)在遵循开放域用户指令方面表现出强大能力 [1]。这项能力主要归功于利用人类偏好数据微调预训练大语言模型(Reinforcement Learning from Human Feedback,RLHF)[2]


一个典型的 RLHF 过程包括三个相关步骤 [3]:人类偏好数据搜集、奖励模型学习(reward learning)和策略优化(policy optimization),如下图(top)所示。


上述 RLHF 的三个步骤通常先后串行执行。因为策略优化在微调大语言模型过程中改变了其数据分布,导致基于离线数据训练的(fixed)奖励模型存在不准确地分布偏离问题(inaccurate off-distribution)。


因此,奖励模型准确率会快速下降并相应地损害策略模型的性能。该问题可以通过持续从最新策略模型采样并标注人类偏好数据解决,但是这样会显著增加系统的复杂度使其难以优化。与此同时,在该设定中长期维护数据质量将消耗大量资源。


在这篇论文中,我们展现在不需要持续标注新的偏好数据前提下,如何基于策略模型优化奖励模型并使之分布准确(on-distribution)。我们提出 Reward Learning on Policy(RLP)框架:以无监督的方式,利用策略模型的采样数据优化奖励模型。


RLP 先基于典型的 RLHF 方法从头训练一个奖励模型和一个策略模型,然后考虑已训练策略模型的数据分布重新训练奖励模型,最后基于重新训练的奖励模型重新训练策略模型,如下图(bottom)所示。


具体地,RLP 提出两种方法利用策略模型的采样数据重新训练奖励模型:无监督多视角学习(Unsupervised Multi-View Learning,UML)和伪偏好数据生成(Synthetic Preference Generation,SPG)。


RLP-UML 通过策略模型生成两个结果的方式构建一个输入的两个视角,然后在奖励模型拟合人类偏好数据的同时优化一个多视角信息瓶颈损失函数(multi-view information bottleneck loss)。


此外,RLP-SPG 利用策略模型的采样数据模拟偏好数据。与经典的 RLAIF 方式(基于 LLMs 生成一个输入的两个结果并打分)不同,RLP-SPG 生成一个输入的多个结果并构成一个集合。这样 RLP-SPG 可以通过度量结果集合最大簇的大小,推断模型生成结果的不确定性并决定何时相信模型的预测结果。


该采样策略与自一致性(self-consistency)假设相符,即从结果集合最大簇挑选被选择结果(preferred output),从剩余的其它簇随机挑选未被选择结果(non-preferred output)。


我们的实验表明在三个标准的测试集,RLP 效果优于其它基于人类反馈的方法,包括基于 PPO 的 RLHF 方法。



RLP的实现

我们提出一个新的 RLHF 框架,共包括以下 5 个步骤:

Step 0,监督微调:

基于指令遵循示例数据 ,有监督微调预训练语言模型,得到 SFT 模型

Step 1,人类偏好数据搜集:

首先,SFT 模型对输入指令 生成两个结果 。然后,展示给标注人员并让其表达偏好 ,其中 为被选择结果、 为未被选择结果。

Step 2,奖励模型学习:

于损失函数 训练奖励模型 ,其 偏好数据集, 为 sigmoid 函数。

Step 3,策略优化:

于奖励模型 微调语言模型,最大化 得到策略模型 ,其中 为未标注的指令集合, 通常为 SFT 模型。该优化目标通常基于 PPO 算法进行优化。

Step 4,奖励模型再学习:

们首先构建策略模型的采样集合 ,其中 是策略模型 生成的 个结果集合。
然后,我们基于 重新训练奖励模型。具体地,我们提出两种方法:无监督多视角学习(Unsupervised Multi-View Learning,UML)和伪偏好数据生成(Synthetic Preference Generation,SPG)。
  • 无监督多视角学习

,我们首先构建多视角我们基于高斯分布参数化视角的表示
然后,我们基于多视角信息瓶颈损失函数(multi-view information bottleneck loss)做无监督表示学习:,其中 表示两个随机变量的互信息, 表示对称 KL 距离。
  • 伪偏好数据生成

,我们假设结果集合 中最频繁的样本为正确结果,并且其频次为置信度。具体地,我们先把 中样本聚类成簇 的置信度可表示为 ,其中 中最大的簇。
这样我们可以有选择的生成偏好数据 ,其中 从最大的簇 采样出, 从其它的簇采样。
再学习的奖励模型 的损失函数为:。为简化计算复杂度,我们实现两个变体:1)RLP_UML 去除伪偏好集合 ;2)RLP_SPG 设置

Step 5,策略模型再学习:

们基于重新训练的奖励模型 二次训练策略模型 ,最大化


实验

3.1 主实验

我们在 AlpacaFarm、LLMBar、Vicuna 三个标准测试集实验。评测指标基于广泛采样的 Win-Rate,其中 Simulated Win-Rate 利用 API LLMs 打分,Human Win-Rate 基于人工打分。


如下表所示,GPT-4 取得最好的结果。在我们实现的 LLMs 中,RLP-SPG 在三个测试集的两个指标均取得最好结果,超过 PPO 基准方法。

为进一步验证 RLP 相对其它基准方法的优势,下图展示了 RLP-SPG 在 AlpacaFarm 各个数据子集中相对 PPO 的表现。我们可以观察到 RLP-SPG 稳定的表现优于 PPO。

RLP 相对基准方法的优势也可以被定性的观察出来。下表展示的例子表明:相对于基准方法,RLP 生成的结果更加详尽。

3.2 消融实验

3.2.1 信息瓶颈损失函数

我们实验了信息瓶颈损失函数(information bottleneck loss)相对于其它无监督表示学习损失函数的优势,包括:1. InfoMax;2. MVI;3. CL(Contrastive Learning)。如下表所示,RLP-UML 采用的信息瓶颈损失函数比其它损失函数效果更加优异。

3.2.2 伪偏好数据生成

我们对比了两种类型的伪偏好数据的生成方法:1. LLMs生成两个结果并打分;2. LLMs 生成一个结果集合,并选取其中的被选择(preferred)结果和不被选择(non-preferred)结果。


对于第一类方法,我们实现了 RLAIF 基于策略模型排序,以及 Reward 基于奖励模型排序。对于第二类方法,我们实现了 Select-All,即通过设置不做生成结果过滤。如下表所示,RLP-SPG 在构造偏好数据的准确性以及微调 LLMs 的效果方面都超过其它方法。


总结

本文提出一种新的大语言模型与人类偏好对齐的方法,即基于策略模型进一步优化奖励模型 Reward Learning on Policy(RLP)。RLP 通过多视角信息瓶颈损失函数可鲁棒地学习策略模型样本分布的表示。RLP 通过构造策略模型的结果集合,有选择地生成高置信度的偏好数据集。大量实验表明 RLP 效果优于目前的 SOTA 基准方法。



参考文献

[1] Long Ouyang, Jeffrey Wu, Xu Jiang, Diogo Almeida, and others. 2022. Training language models to follow instructions with human feedback. In NeurIPS.
[2] Paul F Christiano, Jan Leike, Tom Brown, Miljan Martic, Shane Legg, and Dario Amodei. 2017. Deep reinforcement learning from human preferences. In NeurIPS.
[3] Stephen Casper, Xander Davies, Claudia Shi, and others. 2023. Open problems and fundamental limitations of reinforcement learning from human feedback. TMLR.




如果对我们的工作感兴趣的话,欢迎加入我们!

招聘岗位:Research Intern

工作地点:北京

团队介绍:阿里通义实验室对话智能团队,以大模型研究和应用为中心,推进大模型的大规模商业化应用,主要技术包括:对话、RAG 问答、Code、AI Agents、人类对齐、高效训练等。


过去三年发表 60+ 篇国际顶会论文, ACL 2023 中稿 9 篇,NeurIPS 2023 中稿 2 篇,EMNLP 2023 中稿 7 篇;主要业务场景包括通义晓蜜、通义灵码、通义听悟等。


团队Google scholar:

https://scholar.google.com/citations?user=5QkHNpkAAAAJ

团队Github:

https://github.com/AlibabaResearch/DAMO-ConvAI


岗位要求:

1. 在人工智能相关方向的硕士 / 博士,有 NeurIPS / ICLR / ICML / ACL / EMNLP / NAACL 等顶会论文者优先;

2. 热爱技术,理论扎实,有大模型经验者优先;

3. 具备优秀的分析问题和解决问题的能力,以及良好的沟通协作能力;


简历投递:[email protected]

邮件标题和简历标明:姓名-岗位名称-PaperWeekly



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
人类偏好就是尺!SPPO对齐技术让大语言模型左右互搏、自我博弈今日arXiv最热NLP大模型论文:对指令太敏感?山东大学提出一致性对齐法,治好大模型敏感体质!大语言模型何时需要检索?UCLA提出全新自监督选择性检索策略[COLING 2024教程] 多模态大语言模型MLLM系列教程问一下公司有remote policy 的各位WWW 2024 | 阿里等提出GraphTranslator,将图模型对齐大语言模型今日arXiv最热NLP大模型论文:清华大学:大语言模型的常见词僻意理解能力竟不如中学生ICLR 2024 | 冻结住的CLIP仍可作为教师模型!港大提出全新开集动作识别模型《尘封档案》拾遗之071:冒牌“英雄”落网记品茶小軒, 品的是心動瞬間/小说的本质是时间ICML 2024 | 大语言模型预训练新前沿:「最佳适配打包」重塑文档处理标准让人物动起来!南大/复旦/阿里提出Champ:人体视频生成新SOTA!AI早知道|Apple 发布 MM1多模态大语言模型;xAI 是市场上薪酬最高的人工智能公司2024 影视版水楼 (首页近期北美华语演出时间表)阿里通义千问2.5大模型发布;阿里达摩院提出“知识链”框架,逐步纠错降低大模型幻觉丨AIGC日报ACL 2024 Findings | 视频大语言模型能理解视频中的时序信息吗?深圳/香港/上海内推 | 商汤研究院基础语言模型团队招聘大语言模型算法研究员小说转贴(油篓阿姨的):刚才在Costco被一个大帅哥搭讪了 来源: 楚伊人 于 2024今日arXiv最热NLP大模型论文:揭露大语言模型短板,北京大学提出事件推理测试基准北京内推 | 阿里通义实验室对话智能团队招聘大语言模型研究型实习生​ACL 2024 | 新一代艺术媒介:探索基于大语言模型的互动戏剧大语言模型对齐的四种方法!关于umbrella policyICML 2024 | 大语言模型预训练新前沿:最佳适配打包重塑文档处理标准博后招募 | 清华大学NLP实验室招聘大语言模型方向博士后/研究员简单好用!北大、普林斯顿联合提出即插即用的大语言模型加速方法LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」Reasoning3D:用大语言模型开启3D世界理解与交互的新篇章ICML 2024 | 大语言模型如何表征不同信念?额滴神啊,今年renew 才感觉房东保险涨疯了。我们其中一个combined policy (5 properties)多功能RNA分析,百度团队基于Transformer的RNA语言模型登Nature子刊长篇小说《谷雨立夏间》64 直觉的救赎微软拟与OpenAI投资1000亿美元建AI超算;Databricks 推出1320亿参数大语言模型 DBRX丨AIGC日报推特热帖:大语言模型自荐能够替代的20种人类工作!快来看你是否需要转行!ACL 2024 | 提升大模型持续学习性能,哈工大、度小满提出共享注意力框架SAPT野地梅香爱因斯坦把全人类带进阴沟,而特斯拉才能让人类重新走上光明大道ACL 2024 | 多目标直接偏好优化MODPO:大语言模型的多目标对齐加拿大岗位丨TikTok开启科技类2024 Off Cycle Internship今日arXiv最热NLP大模型论文:清华大学提出IFT对齐算法,打破SFT与RLHF局限性
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。