Redian新闻
>
无需强化学习的与人类偏好对齐的语言模型:Wombat袋熊

无需强化学习的与人类偏好对齐的语言模型:Wombat袋熊

科技





OpenAI 的 ChatGPT 理解多种多样的的人类指令,并且可以很好的应对不同的语言任务需求。自发布以来就掀起了对于通用人工智能的讨论。ChatGPT 令人惊叹的能力来源于一种新颖的大规模语言模型微调方法:RLHF(通过强化学习对齐人类反馈)。

RLHF 方法不同于以往传统的监督学习的微调方式,该方法首先让模型根据指令提示生成不同的回复,之后通过人工的评价反馈,使用强化学习的方式对 LLM 进行微调。RLHF 解锁了语言模型跟从人类指令的能力,并且使得语言模型的能力和人类的需求和价值观对齐,从而使得 RLHF 微调下的语言模型具有令人惊叹的能力。 

当前研究 RLHF 的工作主要使用 PPO 算法对语言模型进行优化。从一个使用指令和人类示范的数据通过监督学习微调的语言模型开始,PPO 算法首先使用这个语言模型输出对于不同指令数据的回复,之后通过一个奖励模型对语言模型的不同回复进行打分评价,最后使用打分评价通过策略梯度下降的方式对语言模型进行优化。

考虑到语言模型在训练中不断变化和奖励模型有限的泛化能力,PPO 在工程实践中需要反复迭代上述流程,并且在奖励的设计上需要限制微调的语言模型不能偏离初始模型太远。由于使用强化学习训练包含有众多的超参数,并且在算法迭代的过程中需要多个独立模型的相互配合,错误的实现细节都会导致不尽如人意的训练结果。 

在和人类对齐的角度上,强化学习算法是不是必须的呢?该篇论文提出了基于排序的人类偏好对齐方法。它对不同语言模型生成的回复(回复可以来自 ChatGPT、GPT-4、当前的训练模型或者人类标注数据)进行评分,评分来自于回复在当前模型下的对数概率。RRHF 通过通过排名损失使评分与人类的偏好(或者代理的奖励模型)对齐。RRHF 训练好的模型可以同时作为生成语言模型和奖励模型使用。下图中对比了 PPO 算法和 RRHF 算法的区别。

RRHF 算法可以有效地将语言模型输出概率与人类偏好对齐,并且在微调期间只需要 1 到 2 个模型。相比之下,PPO 需要 4 个模型:微调的语言模型,参考语言模型,奖励模型和价值模型相互配合。在实际的训练中,更少的模型数量可以帮助减少显存的占用,使得 RRHF 可以更高效地利用计算资源,并扩展到更大规模的模型上进行训练。

此外,RRHF 在编码和超参数方面比 PPO 更简单。整个对齐过程(包括监督学习、训练奖励模型、进行 PPO)可以在一次 RRHF 训练中完成。文章在 Anthropic 发布的 Helpful and Harmless 数据上使用 Meta 的 LLaMA 和斯坦福的 Alpaca 模型进行实验,发现 RRHF 可以达到和 PPO 相当的水平。在代码实践上,RRHF 和传统的监督学习微调算法的难易程度相当,极大地减小了语言模型和人类偏好对齐的工程难度。 

同时,文章作者基于 RRHF 算法,使用 Alpaca 的提示数据并利用 ChatGPT 或者 GPT-4 作为得分模型,训练了语言模型 Wombat-7B 和 Wombat-7B-GPT4。训练时间只需要几个小时。训练得到的袋熊 Wombat‍ 可以更好的与人类偏好对齐。以下是来自袋熊 Wombat‍ 的一个自我介绍。

Query: Give an introduction of wombat 


Wombat: Wombat is a marsupial mammal native to Australia. It is typically found in mountainous areas and is known for its burrowing behavior. Wombats are typically around two feet long and weigh up to 30 pounds. They have a gray coat with white on their chests, and they have thick and powerful hind legs which they use for digging. Wombats are mostly nocturnal and eat a variety of insects, leaves, and grasses.




论文链接:

https://arxiv.org/abs/2304.05302

作者单位:

阿里巴巴达摩院

代码链接:

https://github.com/GanjinZero/RRHF


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
XTREME榜单第一,多粒度对齐的多语言预训练模型VECO 2.0“喜提”中国热搜、在美国肆虐的人类偏肺病毒(HMPV)到底是什么?匹兹堡记事 - 2022.12.28 公寓过户强化学习的应用领域和案例ICLR 2023 | PromptPG:当强化学习遇见大规模语言模型深度学习三巨头之一 Yann LeCun:大语言模型带不来 AGIDr Sun 2023 暑假基础物理化学 AP 物理化学 奥林匹克化学重新审视Prompt优化问题,预测偏差让语言模型上下文学习更强ICLR 2023 | 大模型上下文学习的无限扩展方法:kNN Prompting大语言模型的多语言机器翻译能力分析谷歌出品:基于大型语言模型的语义解析方法​NeurIPS 2022 | 外包训练:无需终端上传源数据,无需联邦学习,也能得到好模型?Meta最新语言模型LLaMA论文研读:小参数+大数据的开放、高效基础语言模型阅读笔记首款人类粪便制成的口服药获美国FDA批准;谷歌本周将发布最新大语言模型PaLM 2|环球科学要闻【城事】巴黎市长将重修Châtelet 广场以方便行人超参数科技招聘:强化学习研究员、深度学习工程师、后台开发工程师等无需写代码能力,手搓最简单BabyGPT模型:前特斯拉AI总监新作无需豪掷数亿购买硬件,用笔记本就能运行650亿参数大模型:这位程序员仅用一晚上就做到了好大一場夢2对夫妻自驾游,晚上妻子故意装睡,看到丈夫惊人的举动提出离婚语言模型自己学会用搜索引擎了?Meta AI提出API调用自监督学习方法Toolformer无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型第四范式开源强化学习研究通用框架,支持单智能体、多智能体训练,还可训练自然语言任务!训练速度提升17%FastTrack Universität 2023莱比锡大学公立语言项目招生简章表现优于 GPT-4,ChemCrow 集成 13 种化学工具,增强大型语言模型的化学性能蛋白设计新时代!Science: 开发出基于强化学习的蛋白结构设计方法征稿 | ACM MM 23 Workshop - 基于大语言模型的多模态研究和应用讲座预告 | 软件工程学院博学论坛第十五期:自然语言处理与大型语言模型的挑战与探索从LLM到MLLM,多模态大规模语言模型KOSMOS-1赋予了语言模型看见世界的能力NLP大规模语言模型推理实战:大语言模型BLOOM推理工具测试实践与效果分析实录GPT-3解数学题准确率升至92.5%!微软提出MathPrompter,无需微调即可打造「理科」语言模型美国MBA对申请人背景的偏好分析:你的背景适合申请哪个MBA?上野千鹤子的"熟男十戒"你怎么看彭博推出BloombergGPT——专为金融行业从头打造的500亿参数大语言模型跟孩子不要讲太多钱,也不要太多讲自己。
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。