Redian新闻
>
DeepMind新研究:ReST让大模型与人类偏好对齐,比在线RLHF更有效

DeepMind新研究:ReST让大模型与人类偏好对齐,比在线RLHF更有效

公众号新闻
机器之心报道
编辑:陈萍、小舟
本文提出了一种新的RLHF算法ReST,极大地提高了翻译质量。
这几个月以来,我们已经见证了大型语言模型(LLM)在生成高质量文本和解决众多语言任务方面出色的能力。然而,LLM 又面临这样一个困境,即产生的输出很大程度上与人类偏好并不一致。如果没有适当的对齐,语言模型可能输出不安全的内容。此外,对齐 LLM 还有助于改善下游任务。

有研究者提出基于人类反馈的强化学习 (RLHF),通过使用人类偏好来解决对齐问题。

一般来讲,RLHF 依赖于 PPO、A2C 等在线 RL 方法,但这些方法计算成本高昂且容易遭受攻击;虽然离线 RL 可以避免在线 RL 的缺陷,然而,离线学习的质量过分依赖离线数据集的属性。因此,精心策划的数据集对离线强化学习来说非常重要。

本文,来自 Google DeepMind 的研究者提出了一种简单的算法使 LLM 与人类偏好对齐,他们将该方法命名为 ReST(Reinforced Self-Training)。不同于 RLHF 使用人类反馈改进语言模型,ReST 通过生成和使用离线数据进行训练,从而使得 LLM 与人类偏好保持一致。

给定一个初始 LLM 策略,ReST 能够根据该策略生成数据集,然后该数据集基于离线 RL 算法被反过来提高 LLM 策略。ReST 比典型的在线 RLHF 方法更有效,因为训练数据集是离线生成的,这允许数据重用。

研究团队表示,虽然 ReST 可用于所有生成任务,但本文的重点是机器翻译。结果表明,ReST 可以极大地提高翻译质量。


论文地址:https://arxiv.org/pdf/2308.08998.pdf

有研究者评论道:「DeepMind 展示了自然语言生成的迭代自我改进。他们将『人』从人类反馈强化学习 (RLHF) 循环中剔除,提出 ReST。」


下面那我们看具体实现方法。

方法介绍

该研究提出了一种称为强化自训练(Reinforced Self-Training,ReST)的 RLHF 算法,ReST 可将语言模型的输出与人类偏好保持一致。人类对序列的偏好是使用学得的奖励函数来建模的。ReST 算法将典型 RL pipeline 的数据集增长(Grow)和策略改进(Improve)解耦成两个单独的离线阶段。

如下图 1 所示,ReST 方法包括两个循环:内循环(Improve step)和外循环(Grow step)。并且与在线或离线 RL 的典型 RLHF 方法相比,ReST 具有以下优势:

  • 与在线 RL 相比,ReST 由于在 Improve step 中利用了 Grow step 的输出,因此计算负担大大减少;
  • 策略的质量不在受原始数据集质量的限制(如离线 RL),因为新的训练数据是从 Grow step 中经过采样得到的;
  • 检查数据质量并判断对齐变得更加容易,因为 Improve step 和 Grow step 这两个过程是解耦的;
  • ReST 简单、稳定,并且只有少量的超参数需要调优。


该研究首先训练一个初始模型,在给定序列对数据集 D 的情况下,使用如下等式 (1) 中的 NLL 损失将输入序列𝒙映射到输出序列𝒚。


接下来,Grow 步骤会创建一个新的数据集 D_𝑔,使用模型中的样本来扩充初始训练数据集:


其中,条件输入是从原始数据集中重新采样的,就像自训练一样;但在可以访问 𝑝(𝒙) 的情况下也可以直接从中采样,即例如,在文生图模型中,文本输入的分布可以从语言模型 𝑝(𝒙) 中采样。

然后,Improve 步骤使用 D_𝑔 来微调策略𝜋_𝜃。值得注意的是,该研究将原始数据集保留在训练中,以确保策略不会发散。


整个 ReST 算法如下图算法 1 所示,其中包含多个数据集增长和策略改进步骤:


实验

研究者在机器翻译任务上进行了实验,测试基准包括 IWSLT 2014 、 WMT 2020 、 Web Domain 。

图 3 绘制了带有多个 Improve steps 的平均奖励:可以看到,随着 Improve steps 增加,翻译模型在所有三个数据集上的性能都得到了提高。


增加 Grow step(G)能否提高奖励模型的得分?带着这一问题,研究者进行了另一项实验。结果如图 4 所示,带有一个 Grow step 的方法在 IWSLT 2014 和 Web Domain 数据集上有所提高,当 Grow step 为 2 时,模型将得分从 77.8 提高到 80.5,提高了 5.3。


ReST 是否优于监督训练?结果如图 5 所示,即使在第一个 grow step 之后,ReST 的不同变体(紫色)也显着优于监督学习(灰色)。


ReST 可以在推理时使用 Best-of-N 采样进一步改进吗?图 6 展示了 BC( behavioral cloning )和 ReST 变体之间的 Best-of-N 抽样结果。ReST 的性能随着 𝑁 和 Improve step 数量的增加而提高。得出 ReST 仍然可以从 Best-of-N 采样中受益。


ReST 与在线 RL 相比如何?该研究将 ReST 与 PPO 进行了比较,PPO 是一种广泛用于 RLHF 的在线 RL 算法。结果总结在表 1 中。


下图表明,所有 ReST 变体在人类评分方面优于 BC 方法:


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
大模型RLHF不必非得靠人,谷歌:AI反馈效果一样好九剑一魂 - 第24回 汉胡同源 九剑一魂(九)2023 ICML大会来了!一文速览谷歌DeepMind的最新研究Transformer+强化学习,谷歌DeepMind让大模型成为机器人感知世界的大脑漫游大华府(11)大使馆开放日(中)详解大模型RLHF过程(配代码解读)调查分析两百余篇大模型论文,数十位研究者一文综述RLHF的挑战与局限DeepMind让大模型学会归纳和演绎,GPT-4准确率提升13.7%北大硕士RLHF实践,基于DeepSpeed-Chat成功训练上自己的模型在RTX 4090被限制的时代下,让大模型使用RLHF更高效的方法来了老钱:为什么有这么多糊涂的海外华人?大模型RLHF的trickAIGC日报丨TikTok推AIGC内容打标功能,不标记内容将被删;DeepMind新AI模型有望解决人类遗传学难题RLHF vs RL「AI」F,谷歌实证:大模型训练中人类反馈可被AI替代Chinese Creepy Crawlies: Keeping the Pests of May at Bay告诉大模型「深呼吸,一步一步来」有奇效,DeepMind发现最有效的提示方法复旦NLP组开源PPO-Max:32页论文详解RLHF背后秘密,高效对齐人类偏好用AI对齐AI?超级对齐团队领导人详解OpenAI对齐超级智能四年计划RLHF再也不需要人类了!谷歌团队研究证明,AI标注已达人类水平用 Transformer 和 RLHF「炼」大模型,危?成功预测90%错义突变,DeepMind团队开发新AI模型AlphaMissense,有望解决人类遗传疾病的最大挑战机器人研究迎来ImageNet时刻:一个数据集,让DeepMind具身智能大模型突飞猛进两百余篇大模型论文揭秘RLHF的挑战与局限美韩台玩家研究报告:选游标准和品类偏好,游戏从哪获取?FudanNLP团队最新成果,借助RLHF实现人类对齐的MOSS-RLHF来了Transformer+强化学习,DeepMind让大模型成为机器人感知世界的大脑RLAIF:一个不依赖人工的RLHF替代方案MIT团队打造未来实验室:大语言模型与人类优势互补,全程紧密配合RLHF缺陷完整揭示!MIT哈佛等32位学者联合发布《美好的期待》&《千年守候》LLM成功不可或缺的基石:RLHF及其替代技术5099 血壮山河之武汉会战 浴血田家镇 7RLHF何以成LLM训练关键?AI大牛盘点五款平替方案,详解Llama 2反馈机制升级DeepMind最新研究登Nature,揭示AI时代科研新范式,开拓未知领域,带来全新挑战多GPU通信效率提升4倍,RLHF生成提升2.25倍!DeepSpeed ZeRO++重磅升级
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。