Redian新闻
>
羊驼进化成鲸鱼,Meta把对齐「自动化」,Humpback击败现有全部LLaMa模型

羊驼进化成鲸鱼,Meta把对齐「自动化」,Humpback击败现有全部LLaMa模型

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | 机器之心
编辑 | 小舟、陈萍
数据质量很重要。
这一年来,以 ChatGPT 和 GPT-4 为代表的大语言模型(LLM)发展迅速,紧随其后,Meta 开源的 LLaMa、Llama 2 系列模型在 AI 界也引起的了不小的轰动。但随之而来的是争议不断,有人认为 LLM 存在一些不可控的风险,给人类生存构成一些潜在威胁。
为了应对这些挑战,对 LLM 对齐的研究变得越来越重要,有研究者提出指令跟随(instruction following),但这种方法需要大量的人工注释。然而,注释如此高质量的指令跟随数据集耗费巨大。
本文来自 Meta AI 的研究者提出了一种可扩展的方法即指令回译(instruction backtranslation),该方法通过自动注释相应的指令来构建高质量的指令跟随语言模型。
论文地址:https://arxiv.org/pdf/2308.06259.pdf
具体而言,该研究从一个语言模型开始,并作为种子模型,该模型在少量的种子数据以及 web 语料库上进行了微调。种子模型的作用是用来构建训练样本,然后这些样本中的一些高质量样本将会被筛选出来,接着,这些数据被用来微调一个更强大的模型。
经过两轮迭代的数据集对 LLaMa 进行微调,所产生的模型 Humpback 在 Alpaca 排行榜上优于其他现有的非蒸馏模型,如 LIMA、Claude、Guanaco 等。
Humpback 原意为座头鲸,又名驼背鲸,Meta 将模型命名为 Humpback,也别有深意吧。
之所以称为指令回译,研究者表示这借鉴了机器翻译中经典的反向翻译方法,其中人类编写的目标句子会自动用模型生成的另一种语言的源句子进行注释。
图灵奖得主 Yann LeCun 高度概括了这项研究的方法,并称赞 Meta 这项工作为对齐研究做出重要贡献:
还有网友对这项研究进行了很好的概括:数据质量对大模型来说确实很重要,研究过程中,他们使用不同级别的过滤数据,微调了一个模型,结果表明,只有最好的样本才能得出比其他样本表现更好的模型。
该论文提出了一种需要两个步骤完成的新的数据增强范式。首先,必须拥有一组种子(指令、输出)对和语料库才能生成更多好的指令数据。
下图比较了 Humpback 与一些开源模型和专有模型。
下表 4 表明,本文方法在 65B 和 33B 模型尺度上都是非蒸馏模型中表现最好的模型。
下面我们看看具体方法。

方法简介

该研究提出了一种自训练方法(self-training),该方法通常假定可以访问基本语言模型、少量种子数据和未标记的样本集(例如网络语料库)。未标记数据往往是一大堆形态各异的文档,由人类编写,其中包括人类感兴趣的各种话题内容,但最重要的是没有与指令进行配对。
这里还有两个关键的假设,第一个假设是这个非常大的文本集(未标记样本集)存在一些子集,适合作为某些用户指令的生成样本。第二个假设是可以预测这些候选答案的指令,这些指令可以用于形成高质量样本对,以训练指令遵循模型。
如下图 1 所示,该研究提出指令回译过程包含两个核心步骤: 
  • 自增强:为未标记的数据(即网络语料库)生成指令,以为指令调优产生训练数据对(指令 - 输出)。
  • 自管理:自主选择高质量样本数据作为训练数据,以微调基础模型来遵循指令,这种方法是迭代完成的。
其中,自管理步骤采用的 prompt 如下表 1 所示:

实验及结果

本文的数据集主要包括种子数据和增强数据,具体信息如表 2 和图 2 所示:
图 3 表示尽管扩大了数据规模,但没有自我管理(self-curation)的增强数据用来训练模型并不能提高指令跟随性能。
下图比较了不同指令调优数据集的数据效率。
数据和模型的联合扩展:该研究发现在 7B 模型中观察到的数据扩展趋势同样也适用于更大的模型。例如对 65B 的种子模型增加高质量的增强数据会带来进一步的改进。
常识推理:该研究在五个常识推理基准上进行了测试,SIQA 、PIQA、Arc-Easy、Arc-Challenge 和 Openbook QA (OBQA) , 结果总结于表 5 中。结果表明,与基础模型相比,本文模型在社会推理等多个方面的表现有所提高。
MMLU:表 6 总结了不同模型在 MMLU(massive multitask language understanding)的结果。与基础模型相比,本文微调模型提高了零样本准确率,但在 5 个样本上下文示例中表现不佳。

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
OpenAI破解对齐难题?超级对齐负责人Jan Leike采访实录:「可扩展监督」是良策病毒羔羊第七章 六嬸和分數Meta为什么要发布开源Llama 2大模型;2027上市,Meta AR眼镜放弃MicroLED技术GPT-4里套娃LLaMA 2!OpenAI创始成员周末爆改「羊驼宝宝」,GitHub一日千星智能周报|Meta和Google把对标GPT-4提上日程;英伟达在AI领域有20笔投资;英国初创公司推出能解释行为的自动驾驶系统China Falls Back on Coal To Meet Summer Peak Demand训练14分钟,超越Alpaca!华人团队发布「飞天羊驼」,基于LLM的数据过滤新范式万字长文概览大语言模型对齐(欺骗性对齐、可扩展的监管、机械可解释性、工具性目标趋同)美国外交家杂志揭骗闫丽梦和郭文贵一样是反共骗子高温预警!多伦多9月将有极端天气,Humidex 指数将达到40用AI对齐AI?超级对齐团队领导人详解OpenAI对齐超级智能四年计划AmEx Platinum 80k & AmEx Gold 60k可Churn链接 (No Lifetime Language)【读书】警察与盗贼(Policeman and Robbery)俄勒冈州将「卖淫合法化」要集齐「黄赌毒」三大巨头!拨款10万美元专门研究利弊!LLaMA核心原作多半离职,Meta AI内幕曝光!算力争夺撕破脸,大模型团队成员连换三轮羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品手把手教你剪「羊驼」,陈丹琦团队提出LLM-Shearing大模型剪枝法7B羊驼战胜540B“谷歌版GPT”,MIT用博弈论调教大模型,无需训练就能完成为防大模型作恶,斯坦福新方法让模型「遗忘」有害任务信息,模型学会「自毁」了重训「羊驼」大模型并彻底开放商用,UC伯克利博士生:Meta不愿做就自己做Jenkins+Docker 实现一键自动化部署项目!步骤齐全,少走坑路!能胜任统计学家?Transformers超强学习机制「自动算法选择」32k上下文可商用!羊驼进化成长颈鹿,“开源大模型之最”Erklärung zur Zusammenarbeit人人玩转Llama 2!Meta正式官宣免费用,微调羊驼指南大全集OpenAI联创Karpathy爱上羊驼:纯C代码实现婴儿Llama2,MacBook可运行,已揽1.6k星盘腿之谜?——浅谈冥想之八家庭笑话(一)击败整个羊驼家族,Meta AI自对齐新方法只需极少人工标注数据扩散模型「读脑术」,自动化所MindDiffuser清晰重建人脑视觉画面澳洲海滩惊现大量鲸鱼搁浅!数十头鲸鱼死亡,专家:极为反常!《原神》冰箱贴:神子&宵宫&申鹤&甘雨&刻晴&优菈&莫娜7位角色!不装电池也能「自动驾驶」,这个机器人还能无限续航 | 华盛顿大学独家|OpenAI超级对齐负责人Jan Leike:如何破解对齐难题?用可扩展监督AI 又进化了,羊驼再度进化成鲸鱼!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。