Redian新闻
>
人类偏好就是尺!SPPO对齐技术让大语言模型左右互搏、自我博弈

人类偏好就是尺!SPPO对齐技术让大语言模型左右互搏、自我博弈

公众号新闻
AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]


Richard Sutton 在 「The Bitter Lesson」中做过这样的评价:「从70年的人工智能研究中可以得出的最重要教训是,那些利用计算的通用方法最终是最有效的,而且优势巨大。」

自我博弈(self play)就是这样一种同时利用搜索和学习从而充分利用和扩大计算规模的方法。

今年年初,加利福尼亚大学洛杉矶分校(UCLA)的顾全全教授团队提出了一种自我博弈微调方法 (Self-Play Fine-Tuning, SPIN),可不使用额外微调数据,仅靠自我博弈就能大幅提升 LLM 的能力。

最近,顾全全教授团队和卡内基梅隆大学(CMU)Yiming Yang教授团队合作开发了一种名为「自我博弈偏好优化(Self-Play Preference Optimization, SPPO)」的对齐技术,这一新方法旨在通过自我博弈的框架来优化大语言模型的行为,使其更好地符合人类的偏好。左右互搏再显神通!

  • 论文标题:Self-Play Preference Optimization for Language Model Alignment
  • 论文链接:https://arxiv.org/pdf/2405.00675.pdf

技术背景与挑战

大语言模型(LLM)正成为人工智能领域的重要推动力,凭借其出色的文本生成和理解能力在种任务中表现卓越。尽管LLM的能力令人瞩目,但要使这些模型的输出行为更符合实际应用中的需求,通常需要通过对齐(alignment)过程进行微调。

这个过程关键在于调整模型以更好地反映人类的偏好和行为准则。常见的方法包括基于人类反馈的强化学习(RLHF)或者直接偏好优化(Direct Preference Optimization,DPO)。

基于人类反馈的强化学习(RLHF)依赖于显式的维护一个奖励模型用来调整和细化大语言模型。换言之,例如,InstructGPT就是基于人类偏好数据先训练一个服从Bradley-Terry模型的奖励函数,然后使用像近似策略优化(Proximal Policy Optimization,PPO)的强化学习算法去优化大语言模型。去年,研究者们提出了直接偏好优化(Direct Preference Optimization,DPO)。

不同于RLHF维护一个显式的奖励模型,DPO算法隐含的服从Bradley-Terry模型,但可以直接用于大语言模型优化。已有工作试图通过多次迭代的使用DPO来进一步微调大模型 (图1)。

图1.基于Bradley-Terry模型的迭代优化方法缺乏理论理解和保证


如Bradley-Terry这样的参数模型会为每个选择提供一个数值分数。这些模型虽然提供了合理的人类偏好近似,但未能完全捕获人类行为的复杂性。

这些模型往往假设不同选择之间的偏好关系是单调和传递的,而实证证据却常常显示出人类决策的非一致性和非线性,例如Tversky的研究观察到人类决策可能会受到多种因素的影响,并表现出不一致性。

SPPO的理论基础与方法

图2.假想的两个语言模型进行常和博弈。

在这些背景下,作者提出了一个新的自我博弈框架 SPPO,该框架不仅具有解决两玩家常和博弈(two-player constant-sum game)的可证明保证,而且可以扩展到大规模的高效微调大型语言模型。

具体来说,文章将RLHF问题严格定义为一个两玩家常和博弈 (图2)。该工作的目标是识别纳什均衡策略,这种策略在平均意义上始终能提供比其他任何策略更受偏好的回复。

为了近似地识别纳什均衡策略,作者采用了具有乘法权重的经典在线自适应算法作为解决两玩家博弈的高层框架算法。

在该框架的每一步内,算法可以通过自我博弈机制来近似乘法权重更新,其中在每一轮中,大语言模型都在针对上一轮的自身进行微调,通过模型生成的合成数据和偏好模型的注释来进行优化。

具体来说,大语言模型在每一轮回会针对每个提示生成若干回复;依据偏好模型的标注,算法可以估计出每个回复的胜率;算法从而可以进一步微调大语言模型的参数使得那些胜率高的回复拥有更高的出现概率(图3)。

图3.自我博弈算法的目标是微调自身从而胜过上一轮的语言模型

实验设计与成果

在实验中,研究团队采用了一种Mistral-7B作为基线模型,并使用了UltraFeedback数据集的60,000个提示(prompt)进行无监督训练。他们发现,通过自我博弈的方式,模型能够显著提高在多个评估平台上的表现,例如AlpacaEval 2.0和MT-Bench。这些平台广泛用于评估模型生成文本的质量和相关性。

通过SPPO方法,模型不仅在生成文本的流畅性准确性上得到了改进,更重要的是:「它在符合人类价值和偏好方面表现得更加出色」。

图4.SPPO模型在AlpacaEval 2.0上的效果提升显著,且高于如 Iterative DPO 的其他基准方法。

在AlpacaEval 2.0的测试中(图4),经过SPPO优化的模型在长度控制胜率方面从基线模型的17.11%提升到了28.53%,显示了其对人类偏好理解的显著提高。经过三轮SPPO优化的模型在AlpacaEval2.0上显著优于多轮迭代的DPO, IPO和自我奖励的语言模型(Self-Rewarding LM)。

此外,该模型在MT-Bench上的表现也超过了传统通过人类反馈调优的模型。这证明了SPPO在自动调整模型行为以适应复杂任务方面的有效性。


结论与未来展望

自我博弈偏好优化(SPPO)为大语言模型提供了一个全新的优化路径,不仅提高了模型的生成质量,更重要的是提高了模型与人类偏好的对齐度。

随着技术的不断发展和优化,预计SPPO及其衍生技术将在人工智能的可持续发展和社会应用中发挥更大的作用,为构建更加智能和负责任的AI系统铺平道路。






© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
想去加拿大留学又担心毕业不好就业?没关系,这十大专业不仅好就业,还高薪!ACL 2024 | 多目标直接偏好优化MODPO:大语言模型的多目标对齐《阴阳鱼》连载第42章:时间如刀,空间如砧板,而你我都不过是鱼肉大语言模型对齐的四种方法!1959-1961 famine predisposed on diabetes...Mamba再下一城!Cobra:将Mamba扩展到多模态大语言模型极长序列、极快速度:面向新一代高效大语言模型的LASP序列并行爆胎以後的流水帳直播预告 | 蓝方×闻琛:不内耗、自驱、自我负责这种神仙娃是天生的吗?AI早知道|Kimi智能助手升级;Meta开源推出新一代大语言模型Llama3人物 | 所罗门诺夫:大语言模型的先知美股基本面 - 2024_03_12 * 晚报 * 美国核心通胀高于预期 市场仍预测6月最可能降息 欧洲股指创新高 丰田成亚洲复旦发布层次性奖励学习框架,增强大模型人类偏好对齐推特热帖:大语言模型自荐能够替代的20种人类工作!快来看你是否需要转行!深圳/香港/上海内推 | 商汤研究院基础语言模型团队招聘大语言模型算法研究员简单好用!北大、普林斯顿联合提出即插即用的大语言模型加速方法WWW 2024 | 阿里等提出GraphTranslator,将图模型对齐大语言模型可信度超越GPT-4V,清华&面壁揭秘「小钢炮」模型背后的高效对齐技术ICML 2024 Spotlight | 在解码中重新对齐,让语言模型更少幻觉、更符合人类偏好奥特曼谈AI的机遇、挑战与人类自我反思:中国将拥有独特的大语言模型华为回应智界 S7 截胡小米 SU7,雷军表态/苹果正在自研设备端大语言模型/「欧洲版OpenAI」洽谈融资5亿LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」T100比赛,pro们惊人的实力马斯克宣布正式开源大语言模型Grok;人体避免多个精子使一个卵子受精的机制揭示 | 环球科学要闻今日arXiv最热NLP大模型论文:揭露大语言模型短板,北京大学提出事件推理测试基准如何加速大模型推理?万字综述全面解析大语言模型高效推理技术统一化数据库:为大语言模型垂域应用奠定基础用大语言模型控制交通信号灯,有效缓解拥堵!“她傻我也傻!”澳洲华人再陷“左右互搏”换汇骗局,损失数万!悔之莫及:“大概率是追不回来了”AI早知道|Apple 发布 MM1多模态大语言模型;xAI 是市场上薪酬最高的人工智能公司ACL 2024 | 大语言模型的安全对齐会适得其反?无需训练便能逆转安全对齐微软拟与OpenAI投资1000亿美元建AI超算;Databricks 推出1320亿参数大语言模型 DBRX丨AIGC日报今日arXiv最热NLP大模型论文:清华大学:大语言模型的常见词僻意理解能力竟不如中学生免费在线体验Meta LIama 3大语言模型!GpuMall狂送10万代金券!NAACL 2024 | 阿里提出大语言模型对齐框架Reward Learning on Policy (RLP)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。