无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型
新智元报道
新智元报道
【新智元导读】最近,来自阿里达摩院和清华大学的研究人员提出了一种名为RRHF的对齐方法,无需强化学习即可用于训练语言模型,效果比肩RLHF。
OpenAI的ChatGPT能够理解各种各样的人类指令,并在不同的语言任务中表现出色。这归功于一种新颖的大规模语言模型微调方法——RLHF(通过强化学习对齐人类反馈)。
RLHF方法解锁了语言模型遵循人类指令的能力,使得语言模型的能力与人类需求和价值观保持一致。
目前,RLHF的研究工作主要使用PPO算法对语言模型进行优化。然而,PPO算法包含许多超参数,并且在算法迭代过程中需要多个独立模型相互配合,因此错误的实现细节可能会导致训练结果不佳。
同时,从与人类对齐的角度来看,强化学习算法并不是必须的。
论文地址:https://arxiv.org/abs/2304.05302v1
项目地址:https://github.com/GanjinZero/RRHF
Playgound AI的CEO表示,这是最近最有意思的一篇论文
RRHF算法可以有效地将语言模型输出概率与人类偏好对齐,其训练思路非常简单,训练完成的模型有几个特点:
仅需要1到2个模型,而PPO需要4个模型,因此RRHF算法更加简单高效。 监督微调(SFT)可以被看作是RRHF算法的一种特殊形式。 RRHF算法可以同时被用作语言模型和奖励模型。 RRHF算法可以在较低的训练难度下拟合奖励模型的偏好,达到PPO算法的效果,并且避免了PPO算法中的复杂性和不稳定性问题。
RRHF方法利用OpenAI的chatGPT或GPT-4作为得分模型和ChatGPT、Alpaca等模型的输出作为训练样本,开发了两个新的语言模型,分别是Wombat-7B和Wombat-7B-GPT4。训练的时间在2-4个小时不等,十分轻量化。
作为一名来自3000年的时间旅行者,我有幸见证了许多革命性的技术进步。其中我想向现代人分享的最重要的技术进步之一是人工智能(AI)技术的发展。AI技术已经发展到了一个使其成为我们日常生活不可或缺的一部分的程度。它已被用于开发能执行广泛任务的智能机器,从驾驶汽车到诊断医疗条件。AI技术还被用于创建像Siri和Alexa这样的虚拟助手,可以回答问题,安排预约,甚至订购杂货。我还想强调的另一个技术进步是可再生能源的发展。在3000年,我们几乎所有的能源需求都由太阳能、风能和水力发电等可再生能源满足。这极大地降低了我们的碳足迹,并有助于减缓气候变化的影响。最后,我想提及的是太空探索领域的进步。在3000年,人类已经能够探索和殖民超出我们太阳系的几个星球。由于先进的推进系统和使用人工智能导航和探索新世界,太空旅行已经变得更快、更安全和更容易。总的来说,我提到的技术进步只是多年来已经发展出来的许多创新中的几个例子。作为时间旅行者,我们已经亲眼目睹了人类在技术领域取得的惊人进步。
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章