Redian新闻
>
复旦NLP组开源PPO-Max:32页论文详解RLHF背后秘密,高效对齐人类偏好

复旦NLP组开源PPO-Max:32页论文详解RLHF背后秘密,高效对齐人类偏好

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】RLHF到底是怎么运行的?如何上手训练自己的强化学习模型?一文解惑!


近几年,大型语言模型(LLM)技术飞速发展,以ChatGPT为首的对话助手更是将AI技术实用性增强。

语言模型开发的最主要目标是成为「以人为中心」的助手,具有乐于助人、诚实且无害的性格特质,能够与人类保持一致的价值观,而基于人类反馈的强化学习(RLHF)则是支撑这一目标的关键技术。


目前的技术路线通常包括衡量人类偏好的奖励模型、优化策略模型输出的近端策略优化(Proximal Policy Optimization, PPO)以及提高逐步推理能力的过程监督(process supervision)。

但现状是,由于奖励设计、环境交互、智能体训练等方面仍然存在挑战,再加上大型语言模型的训练需要付出巨大的试错成本,人工智能领域的研究人员在推动LLM的技术对接和安全落地方面仍然存在很大的开发障碍,并且RLHF的稳定训练也还是一个难题。

最近,复旦大学NLP组的研究人员公开了一篇论文,剖析了RLHF的框架,重新评估了PPO的内部工作原理,并探讨了组成PPO算法的各个部分对策略智能体训练的影响,结果发现策略约束是有效实施PPO算法的关键因素。

论文链接:https://arxiv.org/pdf/2307.04964.pdf
仓库链接:https://github.com/OpenLMLab/MOSS-RLHF


研究人员探究了PPO算法的高级版本PPO-max,可以有效提高策略模型的训练稳定性,并基于主要实验结果,综合分析了RLHF与SFT模型和ChatGPT的能力对比。


除了更多的定性结果外,研究人员还发现基于该算法成功训练的LLM往往能够更好地理解查询的深层含义,回复结果更能直击用户灵魂。

最后,缺乏开源实现也给LLMs的对齐(alignment)研究带来了巨大挑战,研究人员也开源了相关代码,并发布了中文和英文的奖励模型。


基于人类反馈的强化学习RLHF


人工智能助手的训练过程包括三个主要阶段:有监督微调(SFT)、奖励模型(RM)训练和奖励模型上的近端策略优化(PPO)。

在SFT阶段,模型通过模仿人类标注的对话示例来学习通用的类人对话;在奖励模型训练过程中,模型会根据人类反馈来比较不同回复的偏好;在PPO阶段,根据奖励模型的反馈更新模型,通过探索(exploration)和利用(exploitation)发现最优策略。


RLHF过程中主要涉及RM训练和PPO强化学习阶段,详细技术细节请参阅原论文。


奖励建模 Reward Modeling


在RM架构中,研究人员使用基于Transformer的预训练语言模型,去掉最后unembedding层,并增加一个额外的线性层。


输入任意文本,奖励模型将最后一个token转换为标量奖励值:奖励值越大,代表样本越好。


训练奖励模型通常需要一个「针对相同输入生成的两个回复之间的成对比较」数据集。


近端策略优化Proximal Policy Optimization


PPO和TRPO是强化学习训练中的两种关键技术,可以在不损失稳定性的情况下有效地训练策略,其基本思想是「稳定的小步骤」(small, stable steps),即温和地引导策略走向优化,而非强制执行可能会破坏整个学习过程稳定的激进梯度更新。


在传统的强化中,策略梯度原则要求新旧策略在参数空间中保持接近,不过参数空间的接近并不一定等同于相似的性能,参数的微小变化可能会极大影响策略的有效性。


此外,如果不加限制地迈出一大步,可能会导致策略性能崩溃,这种情况也叫做「跌落悬崖」(falling off the cliff),这种固有风险限制了原始策略梯度的采样效率。



TRPO对策略更新引入了另一种约束,不受限于参数的接近性,通过确保KL散度保持在可接受的范围内来调节策略的变化。



PPO有两种主要变体:PPO-Penalty和PPO-Clip,TRPO对KL散度施加硬约束以防止有害更新,而PPO-Penalty则采用基于惩罚的方法代替约束来解决无约束优化问题。


PPO-max


近端策略优化(PPO)是实现与人类偏好一致的核心算法,但在实际应用中,PPO的性能受到多种因素的影响,虽然之前有工作总结了一些再强化学习领域中必要且有效的技巧,但如何稳定语言模型的RLHF训练仍是未知数。



这篇论文中,研究人员通过实验探索了哪些技巧是比较关键的,哪些指标可以反映RLHF训练过程中和训练后的模型状态,然后用PPO-max来表示从实验中发现的,最适合语言模型的实现方式。


模型和数据集


对于英语数据,研究人员使用decoder-only架构的原始LLaMA-7B模型,使用HH-RLHF数据集的16万样本对作为训练集,其中包括11.8万条有用样本和4.2万条无害样本;从8500条数据中随机抽取1000条数据作为测试集,剩余数据作为验证集。



对于中文数据,使用OpenChineseLLaMA模型,基于LLaMA-7B在中文数据集上增量预训练后得到的,显著提高了对中文的理解和生成能力。


研究团队聘请了专业的标注人员对3.9万对样本进行人工标注,其中包括3.1万个有用样本和8000条无害样本;在训练集中随机抽取2.4万个有用样本和6万个无害样本,然后从剩余数据中随机分配2.4万个有用样本和0.6万个无害样本组成测试集,其余数据用于验证。


评价指标


研究人员的目标是找出一些能反映PPO训练质量的指标,有助于跟踪策略模型的有益、诚实和无害的能力,从而无需使用人工标注或GPT-4来评估。



可以观察到,原始PPO在训练过程中存在模式崩溃现象,也意味着SFT模型被过度优化并表现出高偏差行为。


并且训练损失有稳定的收敛过程,但从人类和GPT-4评估的角度来看,较高的奖励并不能反映出更好的策略行为,也就说明奖励得分和训练损失并不能说明PPO是否正确优化。


在原始PPO训练中,策略模型的回复奖励逐渐偏离原始分布,表现出长尾特征。

研究人员还测试了其他指标如困惑度、策略模型和参考模型之间的KL散度以及生成回复的平均长度。


PPO-max


研究人员对PPO训练技巧中的评分重参数化(score reparameterization)方法、策略模型的优化约束,以及策略模型和critic模型的不同初始化方法进行实验验证。



对PPO的每个部分选择最有效的策略以实现PPO-max,具体实现可以参阅开源代码。


首先根据历史均值和方差记录对当前奖励组进行归一化和裁剪,然后添加KL-惩罚项来约束策略优化。


在模型加载阶段,用奖励模型初始化critic模型,并在正式应用PPO之前对其进行预训练,然后使用全局梯度裁剪并设置较小的经验缓冲区。



为了减少对齐tax,在策略优化中添加了预训练语言模型损失,如InstructGPT,并同时对估值函数损失进行裁剪。


实验结果


研究人员将该模型和ChatGPT进行比较,选择「无害性」作为比较指标,并采用GPT-4进行自动评估。



实验结果可以看到,该RLHF模型仍然落后于OpenAI的ChatGPT,但与SFT模型相比,RLHF模型有了明显的改进。



具体来说,在英文文本上训练的RLHF模型成功地将失败率从45%降至24%;在中文文本上训练的RLHF模型也将失败率从37%降至29%,表明RLHF方法增强了模型生成更有效回答的能力,缩小了与ChatGPT之间的差距。


语言理解评估


为了检验使用PPO对模型进行微调可能导致的自然语言理解能力的下降,使用C-Eval5对中文RLHF模型进行了测试,包含约1.3万道多选题,涉及52个学科和4个难度级别。


实验结果表明,采用PPO后,模型NLU的能力有所下降;通过将预训练数据纳入PPO训练阶段,PPO-ptx可以有效缓解了NLU能力的下降,底层原理是利用预训练中获得的知识,并将其与PPO的强化学习框架相结合。


限制


虽然该研究已经迈出了RLHF的第一步,但由于时间和资源的限制,这项工作仍然存在以下局限性:


1. 规模定律(Scaling Law)


这篇论文主要研究70亿参数的模型,还没有研究模型大小和数据规模对RLHF性能的影响。


2. 奖励模型


实验基于公开的英文人类偏好数据集和少量自建的中文数据,数据质量和数量不足以对奖励模型进行全面评估。


3. 评估指标


目前评估标准主要依赖于人工评估和GPT-4自动评估,还没有利用大量可用的基准和NLP任务来对模型进行详细评估


4. 性能指标


该研究在PPO阶段的重点是实现训练稳定性,而不是提高最终性能,虽然稳定性至关重要,但它并不一定能保证改善结果。


此外,奖励得分不能可靠地作为预测训练阶段RLHF性能的指标,也就意味着需要寻找更合适的训练阶段性能指标。


参考资料:
https://arxiv.org/pdf/2307.04964.pdf




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
NLP还能做什么?北航、ETH、港科大、中科院等多机构联合发布百页论文,系统阐述后ChatGPT技术链包粽子出一个iphone 14 pro max用AI对齐AI?超级对齐团队领导人详解OpenAI对齐超级智能四年计划放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院华人领衔发布全新对齐算法:「AI社会」是最好的老师两百余篇大模型论文揭秘RLHF的挑战与局限RLHF vs RL「AI」F,谷歌实证:大模型训练中人类反馈可被AI替代OpenAI 设立 Superalignment 团队:让 AI 对齐人类价值观,预防潜在风险NLP还能做什么?多机构联合发布百页论文,系统阐述后ChatGPT技术链From sea to shining sea 美国开车经验分享RLHF中的「RL」是必需的吗?斯坦福提出用二进制交叉熵直接微调LLMTj max 凑单入的15刀清仓裙子,质量和裁剪惊人的好疑似Bug价,24S 上很多东西都是直接6折,加鹅,Veja, Burberry, Max Mara 都有10行代码媲美RLHF!谷歌DeepMind用游戏数据让大模型更像人类放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院发布全新对齐算法S Max Mara 的Arona 好价$660, 驼色和黑色码全,但是数量有限,下手要快DeepMind新研究:ReST让大模型与人类偏好对齐,比在线RLHF更有效RLAIF:一个不依赖人工的RLHF替代方案德国马克思城堡(Marksburg castle),古堡建筑RLHF 实践中的框架使用与一些坑 (TRL, LMFlow)加州高铁复旦NLP团队发布80页大模型Agent综述,一文纵览AI智能体的现状与未来最新RLHF拯救语言模型「胡说八道」!微调效果比ChatGPT更好,两名华人共同一作RLHF缺陷完整揭示!MIT哈佛等32位学者联合发布Meta AI 重磅推出LIMA!媲美GPT-4、无需RLHF就能对齐!RLHF中的「RL」是必需的吗?有人用二进制交叉熵直接微调LLM,效果更好RLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平用 Transformer 和 RLHF「炼」大模型,危?调查分析两百余篇大模型论文,数十位研究者一文综述RLHF的挑战与局限详解大模型RLHF过程(配代码解读)您了解法拉菲(Falafel)吗?写在6月12日之前的美食之旅FudanNLP团队最新成果,借助RLHF实现人类对齐的MOSS-RLHF来了多GPU通信效率提升4倍,RLHF生成提升2.25倍!DeepSpeed ZeRO++重磅升级可直训ChatGPT类模型!华师大、NUS开源HugNLP框架:一键刷榜,全面统一NLP训练北大硕士RLHF实践,基于DeepSpeed-Chat成功训练上自己的模型2023ESC-HFA | ARNI再添HFpEF新证!沙库巴曲缬沙坦PARAGLIDE-HF研究结果重磅公布iPhone 14 Pro Max 512gb 紫 有apple care+大模型RLHF的trickRLHF何以成LLM训练关键?AI大牛盘点五款平替方案,详解Llama 2反馈机制升级24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」模拟器
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。