Redian新闻
>
UCLA华人提出全新自我对弈机制!LLM自己训自己,效果碾压GPT-4专家指导

UCLA华人提出全新自我对弈机制!LLM自己训自己,效果碾压GPT-4专家指导

公众号新闻



  新智元报道  

编辑:润
【新智元导读】来自UCLA的华人团队提出一种全新的LLM自我对弈系统,能够让LLM自我合成数据,自我微调提升性能,甚至超过了用GPT-4作为专家模型指导的效果。

合成数据已经成为了大语言模型进化之路上最重要的一块基石了。

在去年底,有网友扒出前OpenAI首席科学家Ilya曾经在很多场合表示过,LLM的发展不存在数据瓶颈,合成数据可以解决大部分的问题。

英伟达高级科学家Jim Fan在看了最近的一批论文后也认为,使用合成数据,再加上传统用于游戏和图像生成的技术思路,可以让LLM完成大幅度的自我进化。

而正式提出这个方法的论文,是由来自UCLA的华人团队。

论文地址:https://arxiv.org/abs/2401.01335v1

他们通过自我对弈机制(SPIN)生成合成数据,再通过自我微调的方法,不使用新的数据集,让性能较弱的LLM在Open LLM Leaderboard Benchmark上将平均分从58.14提升至63.16。

研究人员提出了一种名为SPIN的自我微调的方法,通过自我对弈的方式——LLM与其前一轮迭代版本进行对抗,从而逐步提升语言模型的性能。

这样就无需额外的人类标注数据或更高级语言模型的反馈,也能完成模型的自我进化。

主模型和对手模型的参数完全一致。用两个不同的版本进行自我对弈。

对弈过程用公式可以概括为:

自我对弈的训练方式,总结起来思路大概是这样:

通过训练主模型来区分对手模型生成的响应和人类目标响应,对手模型是轮迭代获得的语言模型,目标是生成尽可能难以区分的响应。

假设第t轮迭代得到的语言模型参数为θt,则在第t+1轮迭代中,使用θt作为对手玩家,针对监督微调数据集中每个prompt x,使用θt生成响应y'。

然后优化新语言模型参数θt+1,使其可以区分y'和监督微调数据集中人类响应y。如此可以形成一个渐进的过程,逐步逼近目标响应分布。

这里,主模型的损失函数采用对数损失,考虑y和y'的函数值差。

对手模型加入KL散度正则化,防止模型参数偏离太多。

具体的对抗博弈训练目标如公式4.7所示。从理论分析可以看出,当语言模型的响应分布等于目标响应分布时,优化过程收敛。

如果使用对弈之后生成的合成数据进行训练,再使用SPIN进行自我微调,能有效提高LLM的性能。

但之后在初始的微调数据上再次简单地微调却又会导致性能下降。

而SPIN仅需要初始模型本身和现有的微调数据集,就能使得LLM通过SPIN获得自我提升。

特别是,SPIN甚至超越了通过DPO使用额外的GPT-4偏好数据训练的模型。

而且实验还表明,迭代训练比更多epoch的训练能更加有效地提升模型性能。

延长单次迭代的训练持续时间不会降低SPIN的性能,但会达到极限。

迭代次数越多,SPIN的效果的就越明显。

网友在看完这篇论文之后感叹:

合成数据将主宰大语言模型的发展,对于大语言模型的研究者来说将会是非常好的消息!

自我对弈让LLM能不断提高

具体来说,研究人员开发的SPIN系统,是由两个相互影响的模型相互促进的系统。

表示的前一次迭代t的LLM,研究人员使用它来生成对人工注释的SFT数据集中的提示x的响应y。

接下来的目标是找到一个新的LLM,能够区分生成的响应y和人类生成的响应y'。

这个过程可以看作是一个两人游戏:

主要玩家或新的LLM试图辨别对手玩家的响应和人类生成的响应,而对手或旧的LLM生成响应与人工注释的SFT数据集中的数据尽可能相似。

通过对旧的进行微调而获得的新LLM更喜欢的响应,从而产生与致的分布

在下一次迭代中,新获得的LLM为响应生成的对手,自我对弈过程的目标是LLM最终收敛到,使得最强的LLM不再能够区分其先前生成的响应版本和人类生成的版本。

如何使用SPIN提升模型性能

研究人员设计了个两人游戏,其中主要模型的目标是区分LLM生成的响应和人类生成的响应。与此同时,对手的作用是产生与人类的反应无法区分的反应。研究人员的方法的核心是训练主要模型。

首先说明如何训练主要模型来区分LLM的回复和人类的回复。

研究人员方法的核心是自我博弈机制,其中主玩家和对手都是相同的LLM,但来自不同的迭代。

更具体地说,对手是上一次迭代中的旧LLM,而主玩家是当前迭代中要学习的新LLM。在迭代t+1时包括以下两个步骤:(1)训练主模型,(2)更新对手模型。

训练主模型

首先,研究人员将说明如何训练主玩家区分LLM反应和人类反应。受积分概率度量(IPM)的启发,研究人员制定了目标函数:

更新对手模型

对手模型的目标是找到更好的LLM,使其产生的响应与主模型的p数据无异。

实验

SPIN有效提升基准性能

研究人员使用HuggingFace Open LLM Leaderboard作为广泛的评估来证明 SPIN的有效性。

在下图中,研究人员将经过0到3次迭代后通过SPIN微调的模型与基本模型zephyr-7b-sft-full的性能进行了比较。

研究人员可以观察到,SPIN通过进一步利用SFT数据集,在提高模型性能方面表现出了显着的效果,而基础模型已经在该数据集上进行了充分的微调。

在第0次迭代中,模型响应是从zephyr-7b-sft-full生成的,研究人员观察到平均得分总体提高了2.66%。

在TruthfulQA和GSM8k基准测试中,这一改进尤其显着,分别提高了超过5%和10%。

在迭代1中,研究人员采用迭代0中的LLM模型来生成SPIN的新响应,遵循算法1中概述的过程。

此迭代平均产生1.32%的进一步增强,在Arc Challenge和TruthfulQA基准测试中尤其显着。

随后的迭代延续了各种任务增量改进的趋势。同时,迭代t+1时的改进自然更小

zephyr-7b-beta是从zephyr-7b-sft-full衍生出来的模型,使用DPO在大约62k个偏好数据上训练而成。

研究人员注意到,DPO需要人工输入或高级语言模型反馈来确定偏好,因此数据生成是一个相当昂贵的过程。

相比之下,研究人员的SPIN只需要初始模型本身就可以。

此外,与需要新数据源的DPO不同,研究人员的方法完全利用现有的SFT数据集。

下图显示了SPIN在迭代0和1(采用50k SFT数据)与DPO训练的性能比较。

研究人员可以观察到,虽然DPO利用了更多新来源的数据,但基于现有SFT数据的SPIN从迭代1开始,SPIN甚至超过了DPO的性能、SPIN在排行榜基准测试中的表现甚至超过了DPO。

参考资料:
https://arxiv.org/abs/2401.01335v1


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
提示词专场:从调整提示改善与LLMs的沟通,到利用LLMs优化提示效果UC伯克利「LLM排位赛」结果出炉!Claude 3追平GPT-4并列第一一位逝者生前写给自己的一封信吴恩达:别光盯着GPT-5,用GPT-4做个智能体可能提前达到GPT-5的效果谷歌深夜放杀器Gemini,最强原生多模态碾压GPT-4?语言理解首超人类,谷歌最新大模型Gemini,碾压GPT-4112页报告深挖GPT-4V!UCLA等发布全新「多模态数学推理」基准MathVistaWHEN A ChILD IS BORN陶哲轩看了都直呼内行!谷歌等用LLM自动证明定理拿顶会杰出论文,上下文越全证得越好国自然十年评审专家指导修改本子,中标率提升40%!连麦答疑!谷歌深夜放复仇杀器Gemini,最强原生多模态史诗级碾压GPT-4!语言理解首超人类黄学东分享:Zoom AI如何正确地「碾压GPT-4」斯坦福团队提出新型抗衰老疗法,单次注射可恢复小鼠免疫系统「年轻状态」,效果持久明显碾压GPT-4?谷歌发布最强AI模型,解读来了消灭「幻觉」!谷歌全新ASPIRE方法让LLM给自己打分,效果碾压10x体量模型碾压GPT4,超越人类?谷歌Gemini 6分钟互动视频来了用训练铸就善因|三、心的常态是我们自己训练出来的好吃的清水生煎包 — 皮酥、面软,汁浓、肉香GPT-4绝对性能暴涨74.4%!UIUC苹果华人团队提出CodeAct,用Python代码统一LLM智能体行动章诒和:谁是文化界的告密者?Llama2-7B升级为Pro版本!腾讯提出「块扩展」训练法,效果全面提升AAAI 2024 | 浙大赵天成博士团队提出全新评测基准OVDEval,全面审视开放词汇目标检测模型的泛化能力突发!谷歌深夜掀桌子,发最强大模型Gemini,跑分碾压GPT-4【附60页技术报告】瑞马唑仑临床应用专家指导意见GPT-4准确率最高飙升64%!斯坦福OpenAI重磅研究:全新Meta-Prompting方法让LLM当老板Meta发布自我奖励机制,Llama在3轮训练后超越GPT-4EMNLP 2023 | 阅读顺序很重要:蚂蚁联合复旦提出全新多模态文档信息抽取模型维基百科+大模型打败幻觉!斯坦福WikiChat性能碾压GPT-4,准确率高达97.3%浙大等团队提出全新「自我对比」策略,有效提高大模型的反思效果ICLR 2024 | 微软提出全新LLM剪枝方法:参数减少25%,大幅提升计算效率扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略Llama 2打败GPT-4!Meta让大模型自我奖励自迭代,再证合成数据是LLM终局视频场景图生成任务新SOTA!中山大学提出全新时空知识嵌入框架,登顶刊TIP'24ICLR接收结果出炉!有人提出异议:论文稍微超过9页,就被拒了??油膩思維之分析批評
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。