Redian新闻
>
大模型自我奖励:Meta让Llama2自己给自己微调,性能超越了GPT-4

大模型自我奖励:Meta让Llama2自己给自己微调,性能超越了GPT-4

科学
机器之心报道
编辑:泽南、蛋酱

人工智能的反馈(AIF)要代替 RLHF 了?


大模型领域中,微调是改进模型性能的重要一步。随着开源大模型逐渐变多,人们总结出了很多种微调方式,其中一些取得了很好的效果。
最近,来自 Meta、纽约大学的研究者用「自我奖励方法」,让大模型自己生成自己的微调数据,给人带来了一点新的震撼。
在新方法中,作者对 Llama 2 70B 进行了三个迭代的微调,生成的模型在 AlpacaEval 2.0 排行榜上优于一众现有重要大模型,包括 Claude 2、Gemini Pro 和 GPT-4。


因此,论文刚刚发上 arXiv 几个小时就引起了人们的注意。
虽然目前方法还没有开源,但是人们认为论文中使用的方法描述清晰,复现起来应该不难。

众所周知,使用人类偏好数据调整大语言模型(LLM)可以极大提高预训练模型的指令跟踪性能。在 GPT 系列中,OpenAI 提出了人类反馈强化学习 (RLHF) 的标准方法,让大模型可以从人类偏好中学习奖励模型,再使得奖励模型被冻结并用于使用强化学习训练 LLM,这种方法已获得了巨大的成功。
最近出现的新思路是完全避免训练奖励模型,并直接使用人类偏好来训练 LLM,如直接偏好优化(DPO)。在以上两种情况下,调优都受到人类偏好数据的大小和质量的瓶颈,并且在 RLHF 的情况下,调优质量还受到从它们训练的冻结奖励模型的质量的瓶颈。
在 Meta 的新工作中,作者提议训练一个自我改进的奖励模型,该模型不是被冻结,而是在 LLM 调整期间不断更新,以避免这一瓶颈。
这种方法的关键是开发一个拥有训练期间所需的所有能力的智能体(而不是分为奖励模型和语言模型),让指令跟随任务的预训练和多任务训练允许通过同时训练多个任务来实现任务迁移。
因此作者引入了自我奖励语言模型,其智能体既充当遵循模型的指令,为给定的提示生成响应,也可以根据示例生成和评估新指令,以添加到他们自己的训练集中。
新方法使用类似于迭代 DPO 的框架来训练这些模型。从种子模型开始,如图 1 所示,在每次迭代中都有一个自指令创建过程,其中模型为新创建的提示生成候选响应,然后由同一模型分配奖励。后者是通过 LLM-as-a-Judge 的提示来实现的,这也可以看作是指令跟随任务。根据生成的数据构建偏好数据集,并通过 DPO 训练模型的下一次迭代。

  • 论文标题:Self-Rewarding Language Models

  • 论文链接:https://arxiv.org/abs/2401.10020


自我奖励的语言模型
作者提出的方法首先假设:可以访问基本的预训练语言模型和少量人工注释的种子数据,然后建立一个模型,旨在同时拥有两种技能:
1. 指令遵循:给出描述用户请求的提示,能够生成高质量、有帮助(且无害)的响应。
2. 自指令创建:能够按照示例生成和评估新指令以添加到自己的训练集中。
使用这些技能是为了使模型能够执行自对准,即它们是用于使用人工智能反馈(AIF)迭代训练自身的组件。
自指令的创建包括生成候选响应,然后让模型本身判断其质量,即它充当自己的奖励模型,从而取代对外部模型的需求。这是通过 LLM-as-a-Judge 机制实现的 [Zheng et al., 2023b],即通过将响应评估制定为指令跟随任务。这个自行创建的 AIF 偏好数据被用作训练集。
所以在微调过程中,相同的模型被用于两个角色:作为学习者和作为法官。基于新出现的法官角色,模型可以通过上下文微调来进一步提升性能。
整体的自对齐过程是一个迭代过程,通过以下步骤来进行:构建一系列模型,每个模型都比上一个模型有所改进。在这其中重要的是,由于模型既可以提高其生成能力,又可以通过相同的生成机制作为自己的奖励模型,这意味着奖励模型本身可以通过这些迭代来改进,这就与奖励模型固有的标准做法出现了不同。 
研究者认为,此种方式可以提高这些学习模型未来自我改进的潜力上限,消除限制性瓶颈。 
图 1 展示了该方法的概述。

实验
在实验中,研究者使用了 Llama 2 70B 作为基础预训练模型。他们发现,与基线种子模型相比,自奖励 LLM 对齐不仅提高了指令跟随表现,奖励建模能力也得到了提高。
这意味着在迭代训练中,模型能够在给定的迭代中为自己提供比上一次迭代质量更好的偏好数据集。虽然这种影响在现实世界中会趋于饱和,但提供了一种有趣的可能:这样得到的奖励模型(以及 LLM)要优于仅从人类撰写的原始种子数据里训练的模型。
在指令跟随能力方面,实验结果如图 3 所示:

研究者在 AlpacaEval 2 排行榜上评估了自奖励模型,结果如表 1 所示。他们观察到了与 head-to-head 评估相同的结论,即训练迭代的胜率比 GPT4-Turbo 高,从迭代 1 的 9.94%,到迭代 2 的 15.38%,再到迭代 3 的 20.44%。同时,迭代 3 模型优于许多现有模型,包括 Claude 2、Gemini Pro 和 GPT4 0613。

奖励建模评估结果如表 2,结论包括:
  • EFT 增强比 SFT 基线有所改进。使用 IFT+EFT 与单独使用 IFT 相比,所有五个测量指标都有所改进,例如,与人类的成对准确率一致性从 65.1% 提高到 78.7%。

  • 通过自我训练提高奖励建模能力。进行一轮自我奖励训练后,模型为下一次迭代提供自我奖励的能力得到了提高,此外它的指令跟随能力也得到了提高。

  • LLMas-a-Judge 提示的重要性。研究者使用了各种提示格式发现,LLMas-a-Judge 提示在使用 SFT 基线时成对准确率更高。


作者认为,自我奖励的训练方式既提高了模型的指令跟踪能力,也提高了模型在迭代中的奖励建模能力。
虽然这只是一项初步研究,但看来已是一个令人兴奋的研究方向,此种模型能够更好地在未来的迭代中分配奖励,以改善指令遵循,实现一种良性循环。
这种方法也为更复杂的判断方法开辟了一定的可能性。例如,大模型可以通过搜索数据库来验证其答案的准确性,从而获得更准确和可靠的输出。
参考内容:https://www.reddit.com/r/MachineLearning/comments/19atnu0/r_selfrewarding_language_models_meta_2024/



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
GPT-4V惨败!CV大神谢赛宁新作:V*重磅「视觉搜索」算法让LLM理解力逼近人类比OpenAI官方提示词指南更全,这26条黄金准则让LLM性能飙升50%以上消灭「幻觉」!谷歌全新ASPIRE方法让LLM给自己打分,效果碾压10x体量模型国产GPTs来了,基于智谱第4代大模型!模型性能均达GPT-4九成以上更像人脑的新型注意力机制,Meta让大模型自动屏蔽任务无关信息,准确率提高27%OpenAI 忙着“宫斗”,手握 2.2 万块 H100 的竞争对手趁机发布新款大模型:1750 亿参数,性能仅次于 GPT-4我体验了GPT Store 推荐的首批 GPTs,发现 app 们还失不了业国产「GPTs」上线!全面对标 OpenAI 的智谱发布大模型,性能逼近 GPT-4Llama 2打败GPT-4!Meta让大模型自我奖励自迭代,再证合成数据是LLM终局老钱:“不须放屁”今日arXiv最热NLP大模型论文:微软提出SliceGPT,删除25%模型参数,性能几乎无损6053 血壮山河 卢沟桥之变 22从错误中学习!腾讯AI Lab提出诱导大模型自身幻觉来消除幻觉Meta发布自我奖励机制,Llama在3轮训练后超越GPT-4男朋友“出于好心”让别人加自己微信我生气是小题大做吗这个全面对标 OpenAI 的国产大模型,性能已达 90% GPT-4直追GPT-4!李开复Yi-34B新成绩公布:94.08%的胜率超越LLaMA2等主流大模型通义千问再开源,Qwen1.5带来六种体量模型,性能超越GPT3.5华为改进Transformer架构!盘古-π解决特征缺陷问题,同规模性能超LLaMA大模型也能切片,微软SliceGPT让LLAMA-2计算效率大增OpenAI忙着“宫斗”,手握2.2万块H100的竞争对手趁机发布新款大模型:1750亿参数,性能仅次于GPT-4AI早知道|Gemini推理能力强于GPT-3.5;美图AI视觉大模型将向公众开放;Meta推全新视频生成模型FlowVid一个提示,让Llama 2准确率飙至80.3%?Meta提出全新注意力机制S2A,大幅降低模型幻觉用视觉来做Prompt!沈向洋展示IDEA研究院新模型,无需训练或微调,开箱即用AMD最强生成式AI核弹发布!跑大模型性能超H100,预告下一代AI PC处理器胡塞武装长了翅膀---难对付三种8卡GPU评测Llama2:解密大模型训练、微调和推理运行时的性能问题GPT-4准确率最高飙升64%!斯坦福OpenAI重磅研究:全新Meta-Prompting方法让LLM当老板今日Arxiv最热NLP大模型论文:清华大学让大语言模型自动并行自回归解码,速度提升高达4倍!开源大模型火了!(附99个大模型微调模型/数据/工具)!家居自己做过的事系列:电工(1)国产「GPTs」登场!清华系重磅发布GLM-4全家桶,性能可达90% GPT-4家居自己做过的事系列:电工(2)今日Arxiv最热NLP大模型论文:Meta自我奖励模型超越人类反馈限制,刷新AlpacaEval 2.0排行榜横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。