Redian新闻
>
Meta AI 重磅推出LIMA!媲美GPT-4、无需RLHF就能对齐!

Meta AI 重磅推出LIMA!媲美GPT-4、无需RLHF就能对齐!

科技

深度学习自然语言处理 原创
作者:鸽鸽

昨天Meta AI+CMU这篇文章一出,twitter都炸了!

LIMA,只使用1000个精心挑选的样本微调一个 65B LLaMa,无需RLHF,性能媲美甚至优于GPT-4!

论文:LIMA: Less Is More for Alignment
地址:https://arxiv.org/pdf/2305.11206.pdf

天下人苦“对齐”久矣!要让预训练语言模型的响应和特定任务和用户偏好对齐,动辄需要百万示例数据集上的instruction tuning、以及最近从人类反馈中进行的强化学习,才能实现ChatGPT级别的性能。

这篇文章旨在用简单的方法解决复杂的对齐问题,作者提出表面对齐假说(Superficial Alignment Hypothesis),将对齐视为一个简单的过程:学习与用户交互的样式或格式,来展示预训练期间就已经获得的知识和能力!

结果发现,少量高质量样例上的简单微调就足以与当今最先进的技术竞争!这也证明预训练过程的强大威力和重要性,远胜于大规模instruction tuning和强化学习

实验设置

数据集来源:这1000个近似真实用户提示和高质量响应的示例中,有750个来自Stack Exchange和wikiHow这样的社区论坛,其余250个则是手动编写。

微调的超参数:使用AdamW进行微调,其中,权重衰减为0.1。没有热身步骤,初始学习率设置为,并线性地降至训练结束时的。批量大小设为32个示例(更小的模型为64个),长度大于2048 token的文本将被裁剪。与以往的显著不同是在残差连接上应用dropout,从底层的 开始,线性升高到最后一层的 (更小的模型为 )。

基准模型

实验将 LIMA 与五个基准模型进行比较:

(1) Alpaca 65B :将 LLaMa 65B 在 Alpaca 训练集中的 52,000 个样例上进行微调;(2) OpenAI 的 DaVinci003,经过 RLHF 训练的大语言模型;(3) 基于 PaLM 的 谷歌 Bard;(4) Anthropic 的 Claude, 52B 参数,经过从 AI 反馈进行强化学习 (Constitutional AI) 训练;(5) OpenAI 的 GPT-4,经过 RLHF 训练,目前认为最先进的大语言模型。

结果

根据人类偏好的实验结果,LIMA 的表现比 Alpaca 65B 和 DaVinci003 都要更好!尽管Alpaca 65B 的训练数据量比 LIMA 高52倍,而DaVinci003 采用了 RLHF,一种被认为是更优秀的对齐方法。

Bard 情况要好,在 42% 的时间产生了比 LIMA 更好的响应;然而,这也意味着至少58%的时间, LIMA 的表现和 Bard 相当。

最后,虽然 Claude 和 GPT-4 通常比 LIMA 的表现更加出色,但很多情况下,LIMA 确实能产生更好的响应。有些讽刺的是,即使是 GPT-4 也有19% 的时间会认为 LIMA 的输出更好。

我们来欣赏下LLaMa的出色表演。蓝色文本为prompt,左边是与训练集中示例相关的提示,中间是训练集中不存在的提示,右边则是挑战模型拒绝不安全行为。

数据质量和多样性更重要

为了证明 LIMA (Less Is More for Alignment)这个少胜于多的观点,作者通过消融实验研究了训练数据的多样性、质量和数量对模型的影响。

结果发现,数据质量对生成质量存在显著影响,使用筛选过的数据集训练的模型与使用未经过滤的数据源训练的模型之间存在0.5分差异。但是,令人惊讶的是,示例数量的加倍并不能改善响应的质量。这表明对齐的 scaling laws 不仅仅取决于数量,而在于保证质量的同时提高提示的多样性

多轮对话

不过,一个仅在1,000个单轮对话上进行微调的模型能否从事多轮对话(Multi-Turn Dialogue)呢?

在零样本上,LIMA的响应出奇地连贯,并引用了前面对话的信息。但很明显,这个模型正在超出分布范围;在10次交流中有6次,LIMA在3个互动之内未能遵循提示。

为了提高对话能力,作者收集了30个多轮对话链。使用组合的1,030个示例对预训练的LLaMa模型进行微调,得到一个新版本的LIMA,并针对相同的提示进行了10次实时对话。发现加入这30个示例后生成质量显著提升,优质响应比例从45.2%提高到76.1%!

30个样本的有限监督就能调用模型的多轮对话能力,这也支持了作者提出的表面对齐假说,即:这些能力是在预训练期间学习的。

总结

作者在discussion部分指出了该方法的一系列问题:比如构建数据集示例需要巨大的脑力投入、难以扩展,不如产品级别的模型稳健等~

话虽如此,这篇研究证明了简单方法就有解决复杂对齐问题的潜力。几乎所有大语言模型中的知识都是在预训练期间学习的,教导模型产生高质量输出只需少量但精心的instructional tuning.

简单才是王道!


进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Google/Meta/Amazon狗脸麻LAYOFF后大面积招人ChatGPT的替代品来了!HuggingChat号称媲美GPT-3.5,要拆掉OpenAI的围墙89元3件?重磅220g纯棉T恤卖爆了!媲美千元大牌,不花冤枉钱!零门槛复现ChatGPT:预训练模型数据集直接用,包含完整RLHF流程,在线可体验RLHF中的「RL」是必需的吗?斯坦福提出用二进制交叉熵直接微调LLM多GPU通信效率提升4倍,RLHF生成提升2.25倍!DeepSpeed ZeRO++重磅升级RLHF 实践中的框架使用与一些坑 (TRL, LMFlow)玩不起RLHF?港科大开源高效对齐算法RAFT「木筏」,GPT扩散模型都能用RLHF中的「RL」是必需的吗?有人用二进制交叉熵直接微调LLM,效果更好2023ESC-HFA | ARNI再添HFpEF新证!沙库巴曲缬沙坦PARAGLIDE-HF研究结果重磅公布遥思龙泉桃花宴StackLLaMA: 用 RLHF 训练 LLaMA 的手把手教程我和聊天机器人(AI)对话复旦NLP组开源PPO-Max:32页论文详解RLHF背后秘密,高效对齐人类偏好想ruá!这几只“小猫”,怎么“虎里虎气”的~人手一个ChatGPT!微软DeepSpeed Chat震撼发布,一键RLHF训练千亿级大模型无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院华人领衔发布全新对齐算法:「AI社会」是最好的老师GPT作文能力比拼:GPT3.5、GPT4、百度文心一言、讯飞星火Stability AI连扔两个王炸!首个开源RLHF模型登基,DeepFloyd IF像素级出图Meta VS Apple: Meta产品做的差 Apple产品做的好 和员工福利待遇的关系大模型RLHF的trick恭喜恭喜丨又一I-485申请无需RFE、无需面谈6个月收到美国绿卡!Meta推出Llama2,免费可商用!24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」模拟器Meta 突然宣布,明天要再次裁员4000人!10行代码媲美RLHF!谷歌DeepMind用游戏数据让大模型更像人类Meta 股票今天大跌,花街也看不过天天裁员的公司老板了第三届 冇(Mǎo)国际青年影像周 开始征片啦!Meta推出Llama 2,不只免费还可商用!其实有人欢喜有人愁……FudanNLP团队最新成果,借助RLHF实现人类对齐的MOSS-RLHF来了又见桐花开性价比超高的台湾越光米!媲美日本口感,价格超实惠!米粒饱满香甜亮晶晶!最新RLHF拯救语言模型「胡说八道」!微调效果比ChatGPT更好,两名华人共同一作荣耀发全球「最轻薄」折叠屏手机!媲美直板机,数款“黑科技”加持...还有一大波新品冷却的不止季节(41)— 丧葬费Meta staff engineer 被layoff 了,要卖房了贼喊捉贼式的新疆指控,让人出离愤怒放弃RLHF吧!无需手动训练模型价值观,达特茅斯学院发布全新对齐算法小扎豪赌大模型!Meta重磅推出定制芯片MTIA v1和全新超算
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。