Redian新闻
>
能像乐高一样组合,LoraHub挖掘LoRA 模块化特性

能像乐高一样组合,LoraHub挖掘LoRA 模块化特性

公众号新闻

机器之心报道

编辑:Panda

低秩自适应(Low-Rank Adaptation, LoRA)是一种常用的微调技术,让基础 LLM 可以高效地适应具体任务。近日,来自新加坡 Sea AI Lab、圣路易斯华盛顿大学和艾伦人工智能研究所的研究者提出了一种新的 LoraHub 学习方法,可让 LLM 通过少量样本就能适应多种前所未见的新任务。研究者发布了 LoraHub 的代码以促进相关研究。

OpenAI GPT、Flan-T5 和 LLaMA 等大型预训练语言模型(LLM)极大的推动了自然语言处理(NLP)领域的发展。这些模型在许多 NLP 任务上都有绝佳表现。但是,由于这些模型都有大量参数,因此在微调时会涉及计算效率和内存使用量等问题。


低秩自适应(LoRA)就是一种可以缓解这些问题的高效微调技术。它能降低内存需求和计算成本,从而提升 LLM 训练速度。


LoRA 的做法是冻结基础模型(即 LLM)的参数,然后训练一个轻量级的辅助模块,并且这个模块通常在目标任务上能取得优良表现。


尽管之前已有研究探索过使用 LoRA 来提升效率,但少有人探究 LoRA 模块固有的模块化特性和可组合性。大体而言,之前的方法训练的 LoRA 模块都是专精于各个任务和领域。然而,LoRA 模块固有的模块化特性本身就具备一个有趣的研究问题:能否将 LoRA 模块用于将 LLM 高效地泛化用于未曾见过的任务?


这篇论文挖掘了 LoRA 的模块化特性在广泛围任务泛化方面的潜力,使之不再局限于单任务训练,通过精心构建 LoRA 模块使之在未知任务上也能取得一定性能。最重要的是,这种方法据称能实现 LoRA 模块的自动组合,从而无需再依赖人工设计或人类专家。只需从未曾见过的任务取少量示例,这种新方法就能自动编排兼容的 LoRA 模块,而无需人类干预。研究者并没有预设在具体任务上训练的哪些 LoRA 模块可以组合,而是符合规范(例如使用相同的 LLM)的模块都可以灵活地合并进来。由于该方法使用了多种可用的 LoRA 模块,因此研究者将其命名为 LoraHub,将新的学习方法称为 LoraHub 学习。



论文地址:https://arxiv.org/abs/2307.13269

代码地址:https://github.com/sail-sg/lorahub


他们也通过实验验证了新方法的效率,其中使用的基础 LLM 是 Flan-T5,评估基准是被广为认可的 BBH 基准。结果表明,通过一些少样本 LoraHub 学习过程,LoRA 模块组合就能高效地用于未曾见过的任务。值得注意的是,新方法获得的分数非常接近于少样本上下文学习的表现。


此外,相比于上下文学习,新方法还能显著降低推理成本,消除了 LLM 对示例输入的需求。这个学习过程还体现出了另一个重要优势,即计算效率;其使用了一种无梯度方法来获取 LoRA 模块的系数,并且对于未见过的任务只需少量推理步骤。举个例子,当在 BBH 基准上评估时,新方法使用单块 A100 在一分钟内就能取得更优的表现。


图 1:零样本学习、少样本上下文学习和新提出的少样本 LoraHub 学习。注意组合过程是基于每个任务执行的,而不是基于每个示例。新方法的推理吞吐量与零样本学习相近,而在 BIG-Bench Hard(BBH)基准上的性能表现接近上下文学习。


需要重点指出的是,LoraHub 学习在只有 CPU 的计算机上也能完成,毕竟它只需要熟练处理 LLM 推理。这种方法凭借其多功能性和稳健的性能表现,有望催生出一个平台,让用户可以毫不费力地共享和获取训练好的 LoRA 模块并将其用于新任务。研究者设想,通过这样一个平台,可培育一个包含无数功能的可复用 LoRA 模块库。这也能为协作式 AI 开发提供舞台,让社区能够通过动态 LoRA 组合来共同丰富 LLM 的能力。这种共享和复用模块的潜力可望实现在不同任务上的资源最优利用。


方法


如图 2 所示,研究者首先在多种上游任务上训练 LoRA 模块。具体来说,对于 N 个不同的上游任务,首先分别训练 N 个 LoRA 模块。然后,对于新任务(如图 2 中的布尔表达式),就使用该任务的示例来引导 LoraHub 学习过程。


图 2:新方法包含两个阶段:组合阶段(COMPOSE)和适应阶段(ADAPT)


组合阶段是通过一组权重系数将已有的 LoRA 模块整合成一个统一模块。适应阶段是使用未曾见过的任务的少量示例对合并得到的 LoRA 模块进行评估。然后,使用一个无梯度算法来优化上述权重。执行过几轮迭代后,会产生一个经过高度适应的 LoRA 模块,其可被集成到 LLM 中,用以执行目标任务。对该方法的详细数学描述请参阅原论文。


评估


研究者对新提出的方法进行了评估,其使用的 LLM 是 Flan-T5。


表 1 给出了实验数据,可以看到,新方法的功效接近零样本学习,同时在少样本场景中的性能表现又接近上下文学习。这一观察结论基于五次不同实验的平均结果。


表 1:零样本学习(Zero)、少样本上下文学习(ICL)和新提出的少样本 LoraHub 学习的性能表现对比。


需要重点指出,实验中,使用新方法的模型使用的 token 数量与零样本方法一样,明显少于上下文学习所用的 token 数。尽管性能表现偶尔会有波动变化,但新方法的表现在大多数实例中都优于零样本学习。新方法真正出彩的地方是其最优表现超越了上下文学习,但使用的 token 却更少。在 LLM 时代,推理成本与输入长度成正比,因此 LoraHub 能经济地利用输入 token 达到接近最佳性能的能力会越来越重要。


如图 3 所示,当未曾见过的任务的示例数量低于 20 时,新方法的表现大体上都优于 LoRA 微调。


图 3:传统微调(FFT)、LoRA 微调(LoRA)和新提出的 LoraHub 学习(Ours)在不同数量的任务示例下的表现对比。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
美国间谍魔高一尺,我们反间谍必须道高一丈!《西部让我走进你》&合唱《这一生关于你的风景》武汉病毒所袁志明、夏菡/云南兽医科学院王静林合作揭示Oya病毒的遗传进化特征与感染致病风险C919各系统的供货商乐高集团正式发布乐高IDEAS 21343 维京村庄,一款致敬2005年经典乐高北欧海盗系列的套装MBE | 中国学者揭示新冠病毒变异在宿主内/间的拮抗演化特性乐高一出手,法拉利就变成了这样……ACL 2023 | 复旦邱锡鹏组提出模块化Prompt多任务预训练,可快速适应下游任务专注于工商业模块化光储系统,「亿兰科」完成数千万元Pre-A轮融资丨36氪首发没有哪双鞋能像这双一样便宜又好穿,还能从20穿到80岁!AI诈骗波及多国:道高一尺,魔高一丈?模块化大模型来了!IBM公开WastonX核心架构技术细节每月乐高新刊:2023年9月,连续两款中国风独占乐高套装在乐高书刊中登场了!Framework 16 英寸模块化笔记本新进展:官方晒外壳骨架瑞龙诺赋完成首例人体临床试验,中国模块化手术机器人刷新里程碑13条咒语挖掘GPT-4最大潜力,Github万星AI导师火了,网友:隔行再也不隔山了[视听] 模块化的解码耳放一体机——XD05Pro,HIFI界最强的六边形战士既然是野草,只能像野草一样生长 | 李一诺【开箱】模块化+可拓展,欢迎来到心湖城娱乐中心谷歌当初没做成的模块化手机,竟然被这家小厂做成了!重磅!大批人失业!Uber、DoorDash和Grubhub败诉!价格上涨!Khadas 推出模块化迷你主机:可接驳显卡坞和笔记本套件[电脑]模块化 A4 水冷主机——ROG B760-I+影驰 4070+机械大师 MC14 魔方装机展示突发!Uber、DoorDash 、Grubhub怒发冲冠大暴走!STTT | 四川大学苏昭铭团队揭示呼吸道合胞病毒核衣壳样组装体的冷冻电镜结构尹烨:生命科学的爆发可能像GPT一样很快到来餐馆老板们对UberEats、Grubhub和Doordash已经忍无可忍!如何像拼乐高一样,完成详情设计?Nature Medicine | 多团队合作发现城市环境-遗传-脑-精神健康的模块化神经生物通路着力深化特殊经济功能区与现代化新城建设,新片区取得了这些成效!新一轮支持政策将有29项任务举措不能像保姆一样听话的婆婆有什么用?Framework 预热模块化笔记本 Laptop 13:搭载 R7 7840U,支持 96GB 内存双林奇案录第三部之川黔连环案: 第十六节做了亿万富翁才有安全感邀你点开这一篇来记得六·四
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。