Redian新闻
>
丢弃99%的参数!阿里团队提出语言模型合体术,性能暴涨且无需重新训练和GPU

丢弃99%的参数!阿里团队提出语言模型合体术,性能暴涨且无需重新训练和GPU

科技

©PaperWeekly 原创 · 作者 | 于乐
单位 | 阿里巴巴集团
研究方向 | 自然语言处理


论文题目:
Language Models are Super Mario: Absorbing Abilities from Homologous Models as a Free Lunch

论文链接:

https://arxiv.org/abs/2311.03099

代码链接:

https://github.com/yule-BUAA/MergeLM

试想一下,如果我们能够轻而易举地将具备不同能力的多个模型融合成拥有全部能力的单个模型,那该是多么酷炫的一件事!现在,利用来自阿里团队的研究者们提出的语言模型合体术,我们有望实现这一目标!研究者们能够在无需重新训练和 GPU 的情况下将 WizardMath 的能力合并至 WizardLM 中,让 GSM8K 上的零样本准确率从 2.2 飙升至 66.3!



引言

人类总是通过各种方式(如电影和游戏)来表达获取额外能力的愿望。例如,在《X战警:天启》中,角色可以吸收其他变种人的能力来增强自身实力;在超级马里奥游戏中,主角可以通过吸收游戏中的道具获得扔火球的超能力。在本项工作中,阿里团队的研究者们发现语言模型与天启和超级马里奥类似,也可以通过吸收其他模型来增强自身的能力,且这一过程无需重新训练或 GPU

对于语言模型(LM)而言,有监督式微调(SFT)是一种被广泛采用的策略。SFT 在预训练基模型的基础上,通过微调其参数来获得激发了特定能力的微调模型。显而易见,SFT 带来的效果体现在了模型在 SFT 前后的参数变化中,可以称之为 delta 参数


阿里团队的研究者们首先证实 SFT 后的 LMs(无论是基于编码器还是基于解码器的)倾向于学习到大量冗余的 delta 参数。研究者们借鉴 Dropout 的思路提出了 DARE(Drop And REscale)来显著降低 delta 参数的冗余性。在将 DARE 应用于拥有 700 亿参数的 LMs 后,可以在维持模型性能的前提下去除多达 99% 的 delta 参数(见图 1(a))。同时,LMs 拥有的参数越多,它就能容忍越大的。


进一步地,研究者们通过 DARE 来合并多个同源的 LMs(即从同一个预训练模型微调而来的多个模型):首先使用 DARE 降低每个模型中的参数冗余性,而后利用现有模型合并方法来获得具有多样能力的单个模型。研究者们将 WizardMath 合并到了 WizardLM 中,实现了 WizardLM 在 GSM8K 上的零样本准确率从 2.2 到 66.3 的飙升(见图 1 (b))。为了提高工作的可复现性,研究者们开源了一个支持多种类型的 LMs 和常用的模型合并方法的代码库,访问链接为:

https://github.com/yule-BUAA/MergeLM

▲ 图1部分实验结果


方法介绍

2.1 DARE:一种用于消除delta参数冗余性的简单方法

研究者们提出的 DARE 方法非常简单,仅由两部分组成:丢弃和重新缩放,其工作流程如图2所示。 表示预训练基模型的参数, 代表在预训练模型的基础上针对任务 进行 SFT 得到的模型参数。给定 delta 参数 ,DARE 首先根据丢弃率 进行随机丢弃(将它们的值重置为零),然后将剩余的参数乘以 1/(1-p),计算过程如下:
最后,研究者们将 相加来得到用于推理的参数,即 。研究者们指出重新缩放操作在 DARE 中是极其重要的,它能够保持模型输出的期望大致不变。后续的实验也展示了该操作的有效性。

▲ 图2 DARE流程图

2.2 使用DARE进行模型合并

研究模型合并方法的一个难点在于:对原始的模型参数进行简单的加权平均等运算会产生参数冲突,导致合并得到的模型效果比融合前的模型差。研究者们认为 DARE 具备的大幅降低参数冗余性的能力能天然地克服这一问题,并将 DARE 作为一个通用的预处理技术来有效地合并多个 LMs。


研究者们首先使用 DARE 来消除每个模型中的冗余 delta 参数以缓解多个模型之间的参数冲突,而后基于现有的模型合并方法整合降低了冗余性的 delta 参数(见图 3)。DARE 能应用于任何现有的模型合并方法,以 Task Arithmetic 方法来举例,DARE 的应用过程可以写为如下公式:

▲ 图3 使用DARE进行模型合并的流程图



实验结果

研究者们在基于编码器的 LMs(预训练模型为 BERT 和 RoBERTa)和基于解码器的 LMs(预训练模型为 LLaMA,Llama 2,Code Llama)进行了实验。实验用到了 GLUE 中的 8 个数据集,AlpacaEval,GSM8K,MATH,HumanEval 和 MBPP。

3.1 经过SFT后的LMs中delta参数的冗余性

在参数丢弃率的不同取值下 LMs 的表现如图 4 和图 5 所示。首先,可以观察到基于编码器和解码器的 LMs 的 delta 参数有非常高的冗余性。大多数情况下,利用 DARE 去掉 90% 甚至 99% 的 delta 参数不会显著降低性能,说明了 LMs 在 SFT 过程中只需要微调极少的参数就能学习到类似于 LoRA 的“低秩结构”。

其次,LMs 对丢弃率的容忍度随着模型参数量的增加而增加,即模型越大,能够承受的丢弃率越高。最后,值得注意的是,WizardLM-70B 在丢弃率为 0.9 时的表现急剧下降,研究者们猜测可能是指令遵循任务相对比较复杂,需要更多的 delta 参数来实现这一目标,这同时导致规模更大的模型中的参数依赖性变得更强。因此,更高的丢弃率可能会破坏这种依赖关系,导致性能的巨幅下滑。

▲ 图4 基于解码器的LMs在不同丢弃率下的表现

▲ 图5 基于编码器的LMs在不同丢弃率下的表现

3.2 利用DARE来合并多个LMs

研究者们首先使用 DARE 来去除 delta 参数中的冗余性,而后应用现有模型合并方法(包括 Average Merging, Task Arithmetic, Fisher Merging, RegMean 和 TIES-Merging)将多个 LMs 整合为单个 LM,结果如表 1 和图 6 所示。可以发现 DARE 通常能促进基于解码器的 LMs 的合并性能,在某些情况下取得比单个模型更好的表现。DARE 也能提升基于编码器的 LMs 的模型合并效果


然而,合并的模型大多数情况下仍难以超越单个模型,这与先前研究基于编码器的 LMs 的模型合并工作结论一致。同时,研究者们指出 DARE 带来的提升在基于解码器的 LMs 上更明显一个可能的原因是,由于模型大小的差异,基于解码器的 LMs 能够容纳更多的能力。

▲ 表1 基于解码器的LMs的模型合并表现

▲ 图6 基于编码器的LMs的模型合并表现

3.3 对于DARE中各组件的分析

研究者们验证了 DARE 中重新缩放操作的功能,也将 DARE 中的随机丢弃操作和基于参数量级的剪枝方法进行了比较。由于篇幅限制,仅展示在基于解码器的 LMs 上的实验结果,如图 7 和图 8 所示。实验结果显示 DARE 均取得了优于另外两种方法的效果,验证了 DARE 中两个组件的优越性

▲ 图7 在基于解码器的LMs上是否进行重新放缩的实验结果

▲ 图8 在基于解码器的LMs上与基于参数量级的剪枝方法的比较结果

3.4 对DARE应用条件的探究

研究者们还探索了 DARE 的适用条件,通过统计经过 SFT 的 LMs 相较于预训练模型的参数变化范围(见图 9)可以发现,WizardCoder-Python-13B 和 Llama-2-13b 之间 delta 参数的绝对值(通常大于 0.01)比 WizardCoder-Python-13B 和 CodeLlama-13b-Python 之间的绝对值(通常在 0.0002 以内)大几个数量级,导致 DARE 失败。


对于其他从 Llama-2-13b 进行 SFT 得到的模型,它们 delta 参数的绝对值绝大部分都小于 0.005,使得 DARE 成为一个合适的选择。研究者们得出结论,当 delta 参数的绝对值相对较小(例如小于 0.005)时,DARE 可以很好地发挥作用。否则,DARE 可能会失效

▲ 图9 经过SFT的LMs相较于预训练模型产生的参数变化范围


原始论文中还包含许多其余的实验结果和分析,有兴趣的读者可以查看原文来了解。



总结


这篇工作重点围绕 “SFT 产生的 delta 参数存在极强的冗余性”展开研究。研究者们提出 DARE 来显著减少 SFT 所需的 delta 参数的数量,在保证模型性能的前提下可以丢弃 90% 甚至 99% 的 delta 参数。研究者们进一步将 DARE 作为适用于现有模型合并方法的通用预处理技术,将多个同源 LMs 合并成一个具有多样能力的 LM。


研究者们通过大量的实验证明了 DARE 在减少 delta 参数冗余性和促进模型合并性能上的有效性,同时对 DARE 的工作原理以及 DARE 的适用条件进行了深入分析。研究者们希望这项工作能激励更有效且高效的 SFT 策略设计,并相信 DARE 有潜力成为联邦学习领域中的一项新技术。



更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
MetaMath:新数学推理语言模型,训练大模型的逆向思维OpenAI忙着“宫斗”,手握2.2万块H100的竞争对手趁机发布新款大模型:1750亿参数,性能仅次于GPT-4语言模型战胜扩散模型!谷歌提出MAGVIT-v2:视频和图像生成上实现双SOTA!0.3%参数推理,实现78倍加速!ETH团队提出UltraFastBERT,构筑语言模型巨人小红书搜索团队提出全新框架:验证负样本对大模型蒸馏的价值手把手教你剪「羊驼」,陈丹琦团队提出LLM-Shearing大模型剪枝法​AAAI 2024 | 视觉定位标注难?浙大赵天成博士团队提出零样本定位新SOTA模型GroundVLP游绍兴东湖复旦团队提出思维交流框架EoT,由CoT到EoT,可跨模型通信,表现更出色一百四十七 元旦阿里云发布通义千问 2.0,性能超 GPT-3.5,加速追赶 GPT-4 | 新闻AAAI 2024 | 浙大赵天成博士团队提出全新评测基准OVDEval,全面审视开放词汇目标检测模型的泛化能力NeurIPS 2023 | 王利民团队提出MixFormerV2:首个基于ViT并在CPU设备实时运行的目标跟踪器!深入了解浮点运算——CPU和GPU算力是如何计算的华为提出Sorted LLaMA:SoFT代替SFT,训练多合一大语言模型AAAI 2024 | 中科院信工所提出结构化概率编码框架,有效增强预训练语言模型泛化能力AI早知道|自定义ChatGPT商店下周上线;腾讯推出语音识别大模型;美图大模型上线Meta 宣布改组旗下 AI 部门,正训练自家下一代大语言模型 Llama 3;国内首个网络安全大模型评测平台发布丨AIGC日报扩散模型图像理解力刷新SOTA!字节联合复旦团队提出全新「元提示」策略北京理工大学发布双语轻量级语言模型,明德大模型—MindLLM,看小模型如何比肩大模型扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略参数量仅为1/700,性能超越GPT-3.5!CMU+清华开源Prompt2Model框架一百四十八 秋韵重磅!OpenAI 在 ChatGPT 内推出语言和图像功能北京/杭州内推 | 阿里通义实验室对话智能团队招聘大语言模型方向算法专家​参数少近一半,性能逼近谷歌Minerva,又一个数学大模型开源了9999999999999999.0 - 9999999999999998.06013 血壮山河之随枣会战 南昌之战 6AAAI 2024 | 小红书搜索团队提出全新框架:验证负样本对大模型蒸馏的价值改进分子表征学习,清华团队提出知识引导的图 Transformer 预训练框架K2乔戈里,上交大团队推出一个70亿参数的地球科学大语言模型红米K70 Pro 测评体验:游戏性能暴涨,大电池长久续航...太强了!第九章第四节 地方警察司法系统的运作OpenAI 忙着“宫斗”,手握 2.2 万块 H100 的竞争对手趁机发布新款大模型:1750 亿参数,性能仅次于 GPT-4用暂停token重新训练大模型,AI学会三思而后行
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。