Redian新闻
>
7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023

7.7亿参数,超越5400亿PaLM!UW谷歌提出「分步蒸馏」,只需80%训练数据|ACL 2023

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】LLM不实用,小模型蒸馏才是「现实」的大模型应用路线,全面领先微调技术!土豪请无视。。。


大型语言模型虽然性能优异,可以用零样本或少样本提示解决新任务,但LLM在实际应用部署时却很不实用,内存利用效率低,并且需要大量计算资源。

 

比如运行一个1750亿参数的语言模型服务至少需要350GB的显存,而目前最先进的语言模型大多已超过5000亿参数量,很多研究团队都没有足够的资源来运行,在现实应用中也无法满足低延迟性能。

 

也有一些研究使用人工标注数据或使用LLM生成的标签进行蒸馏来训练较小的、任务专用的模型,不过微调和蒸馏需要大量的训练数据才能实现与LLM相当的性能。

 

为了解决大模型的资源需求问题,华盛顿大学联合谷歌提出了一种新的蒸馏机制「分步蒸馏」(Distilling Step-by-Step),蒸馏后的模型尺寸相比原模型来说非常小,但性能却更好,并且微调和蒸馏过程中所需的训练数据也更少。

 

论文链接:https://arxiv.org/abs/2305.02301

 

分布蒸馏机制把LLM中抽取出的预测理由(rationale)作为在多任务框架内训练小模型的额外监督信息。

 

 

在4个NLP基准上进行实验后,可以发现:

 

1. 与微调和蒸馏相比,该机制用更少的训练样本实现了更好的性能;

 

2. 相比少样本提示LLM,该机制使用更小尺寸的模型实现了更好的性能;

 

3. 同时降低模型尺寸和数据量也可以实现优于LLM的性能。

 

实验中,微调后770M的T5模型在基准测试中仅使用80%的可用数据就优于少样本提示的540B的PaLM模型,而标准微调相同的T5模型即使使用100%的数据集也难以匹配。

 

蒸馏方法

 

分布蒸馏(distilling step by step)的关键思想是抽取出信息丰富且用自然语言描述的预测理由,即中间推理步骤,可以解释输入问题与模型输出之间的联系,然后再反过来用该数据以更高效的方式训练小模型。

 

 

分布蒸馏主要由两个阶段组成:

 

1. 从LLM中抽取原理(rationale)

 

研究人员利用少样本思维链(CoT)提示从LLM中提取预测中间步骤。

 

给定目标任务后,先在LLM输入提示中准备几个样例,其中每个样例由一个三元组组成,包含(输入,原理,输出)。

 

 

输入提示后,LLM能够模仿三元组演示以生成其他新问题的预测原理,例如,在常识问答案任务中,给定输入问题:


「Sammy想要去人群所在的地方。他会去哪里?答案选项:(a)人口稠密地区,(B)赛道,(c)沙漠,(d)公寓,(e)路障」


(Sammy wanted to go to where the people are. Where might he go? Answer Choices: (a) populated areas, (b) race track, (c) desert, (d) apartment, (e) roadblock)

 

通过逐步提炼后,LLM可以给出问题的正确答案「(a)人口稠密地区」,并且提供回答问题的理由「答案必须是一个有很多人的地方,在上述选择中,只有人口稠密的地区有很多人。」

 

通过在提示中提供与基本原理配对的CoT示例,上下文学习能力可以让LLM为没见过的问题类型生成相应的回答理由。

 

2. 训练小模型

 

通过将训练过程构建为多任务问题,将预测理由抽取出来,并将其纳入训练小模型中。

 

除了标准标签预测任务之外,研究人员还使用新的理由生成任务来训练小模型,使得模型能够学习生成用于预测的中间推理步骤,并且引导模型更好地预测结果标签。

 

通过在输入提示中加入任务前缀「label」和「rationale」来区分标签预测和理由生成任务。

 

实验结果

 

在实验中,研究人员选择5400亿参数量的PaLM模型作为LLM基线,使用T5模型作为任务相关的下游小模型。

 

然后在三个不同的NLP任务中对四个基准数据集进行了实验:用于自然语言推理的e-SNLI和ANLI、常识问答的CQA,以及用于算术数学应用题的SVAMP.

 

更少的训练数据

 

与标准微调相比,分步蒸馏方法使用更少的训练数据即实现了更好的性能。

 

在e-SNLI数据集上,当使用完整数据集的12.5%时就实现了比标准微调更好的性能,在ANLI、CQA和SVAMP上分别只需要75%、25%和20%的训练数据。

 

 

与使用220M T5模型对不同大小的人工标记数据集进行标准微调相比,在所有数据集上,分布蒸馏使用更少的训练示例优于在完整数据集上训练的标准微调。

 

更小的部署模型尺寸

 

与少样本CoT提示的LLM相比,分布蒸馏得到的模型尺寸要小得多,但性能却更好。

 

在e-SNLI数据集上,使用220M的T5模型实现了比540B的PaLM更好的性能;在ANLI上,使用770M的T5模型实现了比540B的PaLM更好的性能,模型尺寸仅为1/700

 

更小的模型、更少的数据

 

在模型尺寸和训练数据同时降低的情况下,也实现了超越少样本PaLM的性能。

 

在ANLI上,使用770M T5模型超越了540B PaLM的性能,只使用了完整数据集的80%

 

 

并且可以观察到,即使使用100%的完整数据集,标准微调也无法赶上PaLM的性能,表明分步蒸馏可以同时减少模型尺寸和训练数据量实现超越LLM的性能。


参考资料:
https://blog.research.google/2023/09/distilling-step-by-step-outperforming.html




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
大语言模型(LLM)预训练数据集调研分析ICCV 2023最佳论文候选!谷歌提出Zip-NeRF:照片转视频,像航拍一样丝滑!DeepMind指出「Transformer无法超出预训练数据实现泛化」,但有人投来质疑1800亿参数,性能碾压Llama 2,世界最强开源大模型Falcon 180B发布【2023 坛庆】 ※ 烟雨行舟 ※ 夜垂云流缓 清梦醉阑珊图文并茂,三步速出「原神」文稿!首个70亿参数图文混合创作大模型正式开源,一键生成神作1800亿参数,世界顶级开源大模型Falcon官宣!碾压LLaMA 2,性能直逼GPT-4语言模型战胜扩散模型!谷歌提出MAGVIT-v2:视频和图像生成上实现双SOTA!耶鲁&谷歌提出HyperAttention:近线性时间的长上下文注意力【2023 坛庆】 ⑤⑥ 花妖的鸳鸯枕一拖一拽,玫瑰复活了!谷歌提出生成图像动力学,从此万物皆有灵苹果日砸百万,豪赌2000亿参数Apple GPT!疯狂挖角谷歌,打造核弹级iPhone越得不到,越念念不忘。。。。。中文最强开源大模型来了!130亿参数,0门槛商用,来自昆仑万维谷歌DeepMind力证:Transformer模型无法超越训练数据进行泛化!GPT-4终局是人类智慧总和!NeurIPS 2023 | 任意模型都能蒸馏!华为诺亚提出异构模型的知识蒸馏方法当数据成为「生产资料」,三篇论文总结如何用水印技术保护AI训练数据版权国产大模型开源一哥再登场,最强双语LLM「全家桶」级开源!340亿参数超越Llama2-70BChatGPT只算L1阶段,谷歌提出AGI完整路线图大数据|四口之家年入这个数,才能在加州体面生活1300亿参数,国内首个数学大模型MathGPT上线!多项基准赶超GPT-4OpenAI 忙着“宫斗”,手握 2.2 万块 H100 的竞争对手趁机发布新款大模型:1750 亿参数,性能仅次于 GPT-4谷歌DeepMind力证:GPT-4终局是人类智慧总和!Transformer模型无法超越训练数据进行泛化【2023 坛庆】贴首今天吹的笛子当今外国人在中国的境遇,一言难尽第九章 政府公权力的组织运作 (1)最新千亿大模型免费商用:1026亿参数,无需授权!诚邀开发者共同训练700亿参数LLaMA2训练加速195%,开箱即用的8到512卡LLaMA2全流程方案来了!【2023 坛庆】《菊花台》只需1%参数,效果超越ControlNet,新AI绘画控制大师来袭OpenAI忙着“宫斗”,手握2.2万块H100的竞争对手趁机发布新款大模型:1750亿参数,性能仅次于GPT-4小米AI大模型MiLM-6B:64亿参数,C-Eval总榜排名第10吹尽黄沙不见金(七十二):豆腐锅昆仑万维开源130亿参数大模型!0门槛商用、多榜超Llama 2,预训练数据也开源优雅的观叶植物,瓜叶海棠阿里云通义千问140亿参数Qwen-14B发布;TCL中环签约首个绿电园区项目|绿研院日报ICCV 2023 | TUM&谷歌提出md4all:挑战性条件下的单目深度估计【2023 坛庆】山之茶首次击败GPT-4?700亿参数Xwin-LM登顶斯坦福AlpacaEval,13B模型吊打ChatGPT谷歌大模型研究陷重大争议:训练数据之外完全无法泛化?网友:AGI奇点推迟了
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。