Redian新闻
>
击败整个羊驼家族,Meta AI自对齐新方法只需极少人工标注数据

击败整个羊驼家族,Meta AI自对齐新方法只需极少人工标注数据

公众号新闻
西风 发自 凹非寺
量子位 | 公众号 QbitAI

人工标注数据告急?

Mata新方法仅用少量种子数据,就构建了一个高质量的指令遵循( instruction following)语言模型。

换言之,大语言模型需要大量人工标注的指令数据进行微调,而现在模型可自动从网络语料库未标记的文本中推理出指令。

然后用自己生成的指令数据进行训练,堪比自产自销。

并且用这种方法训练出的模型在Alpaca基准测试上,超越开源羊驼及其一系列衍生模型

LeCun发推认为该研究在模型自对齐方面具有轰动性:

用网友的一句话总结:

羊驼开始自我训练了。

两句话总结是这样婶儿的:

原本需要指令>响应数据集(需要人工标注),现在只需要简单训练一个“反向模型”做响应>指令。任何文本可随意转换为指令数据集。

还有网友发出灵魂拷问:

是只有我一个人,觉得这看起来像是通往超级智能的道路?如果你不需要额外的高质量外部数据,就能获得越来越智能的LLM,那么这就是一个自我改进的封闭系统。

也许只需要一种强化学习系统来提供信号,然后LLM自身的迭代就可以完成其余的工作。

羊驼:我自己搞数据训练了一头鲸

这种可扩展的新方法叫做指令回译,Mata为用这种方法训练出的模型起了个名字——Humpback(座头鲸,又称驼背鲸)。

(研究人员表示,之所以起这么个名字,是因为它和骆驼背的关系,而且鲸鱼体型更大,对应模型规模更大)

训练一个Humpback的步骤简单来说就是,从少量标注数据开始,使用语言模型生成未标注文本所对应的指令,形成候选训练数据。再用模型评估数据质量,选择高质量数据进行再训练。然后重复该过程,进一步改进模型。

如上图所示,需要准备的“材料”有:

  • 一个基础模型——LLaMa

  • 一个由Open Assistant数据集中的3200个示例构成的种子数据(Seed Data),每个示例包括一个指令和对应的输出。

  • 从ClueWeb语料中抽取了502K段已去重、过滤、删除了潜在低质量段落的未标注文本(Unlabeled Data)。

标注示例和语料来源都有了,下一步就是自增强(Self-augment)阶段。

研究人员用种子数据对基础模型LLaMa进行了微调,获得指令预测模型。然后用这个指令预测模型,为未标注文本推理出一个候选指令。之后组合候选指令与文本(指令-输出对),作为候选增强训练数据,也就是上图中的Augmented Data A。

但还不能用A的数据直接训练,因为未标注文本本身质量参差不齐,生成的候选指令也存在噪声。

所以需要关键的自管理(Self-curate)步骤,使用模型预测数据质量,选择高质量样本进行训练。

具体来说,研究人员使用仅在种子数据上微调的指令模型对候选数据打分。满分五分,分数较高的才会被挑选出来作为下一轮的候选数据。

为了提高模型指令预测质量,研究人员用候选数据迭代训练了模型,在迭代训练中,数据质量也会越来越好。

此外,在组合种子数据和增强数据微调模型时,他们还使用不同的系统提示标记区分了这两个数据源:

  • 种子数据使用提示“Answer in the style of an AI Assistant.”

  • 筛选数据使用提示“Answer with knowledge from web search.”

进行两轮迭代后,最终模型就新鲜出炉啦。

合并两种训练数据:1+1>2

下面再来看看研究人员的分析结果:

种子数据和增强数据的指令多样性。内圈是常见的根动词,外圈是与其对应的常见名词。

上图是用8%种子数据和13%的增强数据统计的指令多样性。

可以很直观地看到,在长尾部分增强数据多样性更强,且增强数据与现有的人工标注种子数据相辅相成,补充了种子数据中未出现的类型。

其次,研究人员比较了三个增强数据集:Augmented data,all(无自管理)、数据更少但质量更高的

实验观察到,尽管数据集变小,但伴随着训练数据质量的提升模型性能也有了很好的提升。

使用自筛选评估不同数据大小和质量的自增强数据。y轴表示在使用给定数据大小和质量微调LLaMa 7B时与text-davinci-003的胜率。

(text-davinci-003,一种基于GPT-3的指令遵循模型,使用强化学习在人类编写的指令数据、输出、模型响应和人类偏好上进行了微调)

最后来看一下Alpaca排行榜上的结果。Humpback在不依赖蒸馏数据的情况下,表现明显优于其它方法,并且缩小了与专有模型之间的差距。

非蒸馏(Non-distilled),指不依赖于任何外部模型作为任何形式监督的训练模型;蒸馏(Distilled),指在训练过程中引入更强大的外部模型,例如使用从外部模型蒸馏的数据;专有(Proprietary),指使用专有数据和技术进行训练的模型。

相对于text-davinci-003的胜率

在与开源模型LIMA 65B、Guanaco 65B、Falcon-Instruct 40B和专有模型davinci-003、Claude的比较中,Humpback的表现也都更符合人类偏好。

此外,研究人员还指出了该方法的局限性:

由于用于训练的文本数据来自网络语料库,微调后的模型可能会放大网络数据的偏差。虽然和基础模型相比,微调后的模型提高了检测偏差的准确性。然而,这并不意味着会完全解决这个问题。

传送门:https://arxiv.org/abs/2308.06259(论文链接)

参考链接:
[1]https://twitter.com/jaseweston/status/1690888779878330368/retweets/with_comments

[2]https://twitter.com/swayducky/status/1690989046749868032
[3]https://twitter.com/ylecun/status/1691149506165747720

「中国仿生机器人产业全景报告 · 量子位智库」下载

AGI 的火热发展为仿生机器人的实现补全了最后一块拼图,仿⽣机器⼈将在技术创新和商业模式上迎来新周期。量子位智库发布《中国仿生机器人产业全景报告》,扫描下方二维码即可查看并下载完整报告。

9月6日,我们将在北京举办仿生机器人行业沙龙,欢迎感兴趣的企业联系活动负责人王琳玉,联系方式见下方。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
寻找AIGC数据标注TOP玩家!中国AIGC数据标注全景报告案例征集启动移民生活(15)王老师的贤妻刘岩凤GPT-4终结人工标注!AI标注比人类标注效率高100倍,成本仅1/7「柏川数据」获千万元天使轮融资,强化以自动化标注为核心的数据智能服务|早起看早期万字长文概览大语言模型对齐(欺骗性对齐、可扩展的监管、机械可解释性、工具性目标趋同)79岁挽狂澜,救家族,当首富,她是香港豪门最强的妈人人玩转Llama 2!Meta正式官宣免费用,微调羊驼指南大全集独家|OpenAI超级对齐负责人Jan Leike:如何破解对齐难题?用可扩展监督用AI对齐AI?超级对齐团队领导人详解OpenAI对齐超级智能四年计划钱能换来幸福吗?收入变化对中年男性影响最大,来自对中国1200对双胞胎的调查百年家族,精忠报国「柏川数据」获千万元天使轮融资,强化以自动化标注为核心的数据智能服务|36氪首发波士顿市民有福了,戈登·拉姆齐新餐厅上线!5096 血壮山河之武汉会战 浴血田家镇 4「简报」Shapiro 州长访问卡耐基梅隆大学——人工智能的诞生地,签署关于生成式人工智能的行政命令;拓展:以新方式建模神经元专柜羊皮单鞋清仓捡大漏!这个羊毛任何姐妹没薅到,我都会流泪!库存极少了,真的售完不补!12种模态,一个学习框架,Meta-Transformer实现骨干网络大一统OpenAI联创Karpathy爱上羊驼:纯C代码实现婴儿Llama2,MacBook可运行,已揽1.6k星ChatGPT羊驼家族全沦陷!CMU博士击破LLM护栏,人类毁灭计划脱口而出苏格兰女子每天在自家花园投喂野生狐狸家族,25年喂了4代狐!却被狂批害惨当地…基金交易数据显示:极少投资者能抄到底部,“低买高卖”成功率仅0.35%OpenAI破解对齐难题?超级对齐负责人Jan Leike采访实录:「可扩展监督」是良策Meta为什么要发布开源Llama 2大模型;2027上市,Meta AR眼镜放弃MicroLED技术羊驼进化成鲸鱼,Meta把对齐「自动化」,Humpback击败现有全部LLaMa模型长文本信息准确率超过ChatGPT,Meta提出降低大模型幻觉新方法妈妈的发型久遠的端午節回憶羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品慈溪首富家族,缩水1600亿熬夜又不想伤肝?方法只有一个重训「羊驼」大模型并彻底开放商用,UC伯克利博士生:Meta不愿做就自己做CVPR 2023|无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA7B羊驼战胜540B“谷歌版GPT”,MIT用博弈论调教大模型,无需训练就能完成从纽约64岁的大妈卖淫说起极少数据就能微调大模型,一文详解LoRA等方法的运作原理
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。