Redian新闻
>
无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型

无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型

公众号新闻



  新智元报道  

编辑:好困
【新智元导读】最近,来自阿里达摩院和清华大学的研究人员提出了一种名为RRHF的对齐方法,无需强化学习即可用于训练语言模型,效果比肩RLHF。

OpenAI的ChatGPT能够理解各种各样的人类指令,并在不同的语言任务中表现出色。这归功于一种新颖的大规模语言模型微调方法——RLHF(通过强化学习对齐人类反馈)。

RLHF方法解锁了语言模型遵循人类指令的能力,使得语言模型的能力与人类需求和价值观保持一致。

目前,RLHF的研究工作主要使用PPO算法对语言模型进行优化。而,PPO算法包含许多超参数,并且在算法迭代过程中需要多个独立模型相互配合,因错误的实现细节可能会导致训练结果不佳。

同时,从与人类对齐的角度来看,强化学习算法并不是必须的。

论文地址:https://arxiv.org/abs/2304.05302v1

项目地址:https://github.com/GanjinZero/RRHF

为此,阿里巴巴达摩院和清华大学的作者们提出了一种名为基于排序的人类偏好对齐的方法——RRHF。
RRHF不需要强化学习,可以利用不同语言模型生成的回复,包括ChatGPT、GPT-4或当前的训练模型。RRHF通过对回复进行评分,并通过排名损失来使回复与人类偏好对齐。
与PPO不同,RRHF的训练过程可以利用人类专家或GPT-4的输出作为对比。训练好的RRHF模型可以同时用作生成语言模型和奖励模型。

Playgound AI的CEO表示,这是最近最有意思的一篇论文

下图中对比了PPO算法和RRHF算法的区别。
RRHF对于输入的查询,首先通过不同的方式获得k个回复,再用奖励模型对这k个回复分别打分。对于每一个回复采用对数概率的方式进行得分:
其中是自回归语言模型的概率分布。
我们希望对于奖励模型给分高的回复给与更大的概率,也就是希望和奖励得分相匹配。我们通过排序损失优化这个目标:
额外的,我们还给模型一个目标是去直接学习得分最高的回复:
可以看到RRHF训练的过程十分简单,下面给出了一个RRHF训练时的loss下降情况,可以看到下降的十分稳定,而且奖励得分随着loss下降稳步上升。
文章作者在HH数据集上进行了实验,也可以看到和PPO可比的效果:

RRHF算法可以有效地将语言模型输出概率与人类偏好对齐,其训练思路非常简单,训练完成的模型有几个特点:

  • 仅需要1到2个模型,而PPO需要4个模型,因此RRHF算法更加简单高效。
  • 监督微调(SFT)可以被看作是RRHF算法的一种特殊形式。
  • RRHF算法可以同时被用作语言模型和奖励模型。
  • RRHF算法可以在较低的训练难度下拟合奖励模型的偏好,达到PPO算法的效果,并且避免了PPO算法中的复杂性和不稳定性问题。

RRHF方法利用OpenAI的chatGPT或GPT-4作为得分模型和ChatGPT、Alpaca等模型的输出作为训练样本,开发了两个新的语言模型,分别是Wombat-7BWombat-7B-GPT4训练的时间在2-4个小时不等,十分轻量化。

袋熊Wombat作为新的开源预训练模型相比于LLaMA、Alpaca等可以更好的与人类偏好对齐。作者们实验发现Wombat-7B拥有角色扮演和进行反事实推理等复杂的能力。
如果让Wombat介绍来自3000年的未来科技,Wombat会这样回答(翻译自英文):
  • 作为一名来自3000年的时间旅行者,我有幸见证了许多革命性的技术进步。其中我想向现代人分享的最重要的技术进步之一是人工智能(AI)技术的发展。AI技术已经发展到了一个使其成为我们日常生活不可或缺的一部分的程度。它已被用于开发能执行广泛任务的智能机器,从驾驶汽车到诊断医疗条件。AI技术还被用于创建像Siri和Alexa这样的虚拟助手,可以回答问题,安排预约,甚至订购杂货。我还想强调的另一个技术进步是可再生能源的发展。在3000年,我们几乎所有的能源需求都由太阳能、风能和水力发电等可再生能源满足。这极大地降低了我们的碳足迹,并有助于减缓气候变化的影响。最后,我想提及的是太空探索领域的进步。在3000年,人类已经能够探索和殖民超出我们太阳系的几个星球。由于先进的推进系统和使用人工智能导航和探索新世界,太空旅行已经变得更快、更安全和更容易。总的来说,我提到的技术进步只是多年来已经发展出来的许多创新中的几个例子。作为时间旅行者,我们已经亲眼目睹了人类在技术领域取得的惊人进步。
希望我们的未来如Wombat预测的一样越来越好。
参考资料:
https://github.com/GanjinZero/RRHF



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
无需人力标注!悉尼大学华人团队提出「GPT自监督标注」范式,完美解决标注成本、偏见、评估问题突然出手!意大利封杀ChatGPT!马斯克也下场呼吁限制ChatGPT!AI发展可能超越人类思维?有没有欺骗 或 被欺骗过开源版ChatGPT,30分钟训完,性能堪比GPT3.5!恭喜恭喜丨又一I-485申请无需RFE、无需面谈6个月收到美国绿卡!汤面中的法拉利 - TWNRM !Stability AI连扔两个王炸!首个开源RLHF模型登基,DeepFloyd IF像素级出图2000元训练比肩ChatGPT的开源大模型!GPT-4亲自盖章认证,模型权重均可下载巴黎市长将重修Châtelet 广场以方便行人最新RLHF拯救语言模型「胡说八道」!微调效果比ChatGPT更好,两名华人共同一作人手一个ChatGPT!微软DeepSpeed Chat震撼发布,一键RLHF训练千亿级大模型斯坦福“草泥马”火了:100美元就能比肩GPT-3.5!手机都能运行的那种0门槛克隆ChatGPT!30分钟训完,60亿参数性能堪比GPT-3.5军旅故事原创系列(45)花生米像什么?玩不起RLHF?港科大开源高效对齐算法RAFT「木筏」,GPT扩散模型都能用RLHF 实践中的框架使用与一些坑 (TRL, LMFlow)ChatGPT破圈的「秘密武器」:详解RLHF如何影响人类社会!无需强化学习的与人类偏好对齐的语言模型:Wombat袋熊好玩!GPT-4重磅发布,吊打ChatGPT!性能炸天:10秒做出一个网站,在考试中击败90% 人类放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院发布全新对齐算法刘知远团队提出:如何通过扩大高质量指导性对话数据集,来提高模型的性能和效率放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院华人领衔发布全新对齐算法:「AI社会」是最好的老师【城事】巴黎市长将重修Châtelet 广场以方便行人Meta AI 重磅推出LIMA!媲美GPT-4、无需RLHF就能对齐!《卖给洋人》《卖博士》的特色如何更好地蒸馏ChatGPT模型能力:Lion闭源大型语言模型的对抗性蒸馏模型原理及实验工作介绍免费可商用开源GPT模型问世,50G权重直接下载,性能不输GPT-3Diffusion+目标检测=可控图像生成!华人团队提出GLIGEN,完美控制对象的空间位置斯坦福“草泥马”火了:100美元就能比肩GPT-3.5!手机就能运行零门槛复现ChatGPT:预训练模型数据集直接用,包含完整RLHF流程,在线可体验比SAM分割一切更全能!华人团队提出SEEM:通用分割新模型RLHF中的「RL」是必需的吗?有人用二进制交叉熵直接微调LLM,效果更好RLHF中的「RL」是必需的吗?斯坦福提出用二进制交叉熵直接微调LLM10行代码媲美RLHF!谷歌DeepMind用游戏数据让大模型更像人类
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。