Redian新闻
>
LoRA继任者ReLoRA登场,通过叠加多个低秩更新矩阵实现更高效大模型训练效果

LoRA继任者ReLoRA登场,通过叠加多个低秩更新矩阵实现更高效大模型训练效果

公众号新闻

来自:将门创投

进NLP群—>加入NLP交流群

本文是一篇专注于减轻大型Transformer语言模型训练代价的工作。作者提出了一种基于低秩更新的ReLoRA方法。过去十年中深度学习发展阶段中的一个核心原则就是不断的“堆叠更多层(stack more layers),因此作者希望探索能否同样以堆叠的方式来提升低秩适应的训练效率,实验结果表明,ReLoRA在改进大型网络的训练方面更加有效。

论文链接:
https://arxiv.org/abs/2307.05695
代码仓库:
https://github.com/guitaricet/peft_pretraining

一段时间以来,大模型(LLMs)社区的研究人员开始关注于如何降低训练、微调和推理LLMs所需要的庞大算力,这对于继续推动LLMs在更多的垂直领域中发展和落地具有非常重要的意义。目前这一方向也有很多先驱工作,例如从模型结构上创新的RWKV,直接替换计算量较大的Transformer架构,改用基于RNN范式的新架构。还有一些方法从模型微调阶段入手,例如在原有LLMs中加入参数量较小的Adapter模块来进行微调。还有微软提出的低秩自适应(Low-Rank Adaptation,LoRA)方法,LoRA假设模型在任务适配过程中对模型权重的更新量可以使用低秩矩阵进行估计,因而可以用来间接优化新加入的轻量级适应模块,同时保持原有的预训练权重不变。目前LoRA已经成为大模型工程师必备的一项微调技能,但本文作者仍然不满足于目前LoRA所能达到的微调效果,并进一步提出了一种可叠加的低秩微调方法,称为ReLoRA

本文来自马萨诸塞大学洛厄尔分校的研究团队,作者团队将ReLoRA应用在具有高达350M参数的Transformer上时,展现出了与常规神经网络训练相当的性能此外,本文作者还观察到ReLoRA的微调效率会随着模型参数规模的增加而不断提高,这使得其未来有可能成为训练超大规模(通常超过1B参数)LLMs的新型手段。

一、引言
虽然目前学术界和工业界都在不断推出自家的各种基座模型,但不可否认的是,完全预训练一个具有初等推理能力的LLMs仍然需要非常庞大的算力,例如大家熟知的LLaMA-6B模型[1]就需要数百个GPU才能完成训练,这种规模的算力已经让绝大多数学术研究小组望而却步了。在这种背景下,参数高效微调(PEFT)已经成为了一个非常具有前景的LLMs研究方向。具体来说,PEFT方法可以在消费级GPU(例如RTX 3090或4090)上对十亿级语言或扩散模型进行微调。因此本文重点关注PEFT中的低秩训练技术,尤其是LoRA方法。作者思考到,过去十年中深度学习发展阶段中的一个核心原则就是不断的“堆叠更多层(stack more layers)”,例如ResNet的提出可以使我们将卷积神经网络的深度提升到100层以上,并且也获得了非常好的效果。因此本文探索能否同样以堆叠的方式来提升低秩适应的训练效率呢?
本文提出了一种基于低秩更新的ReLoRA方法,来训练和微调高秩网络,其性能优于具有相同可训练参数数量的网络,甚至能够达到与训练100M+规模的完整网络类似的性能,对比效果如上图所示。具体来说,ReLoRA方法包含(1)初始化全秩训练、(2)LoRA 训练、(3)参数重新启动、(4)锯齿状学习率调度(jagged learning rate schedule)和(5)优化器参数部分重置。作者选择目前非常火热的自回归语言模型进行实验,并且保证每个实验所使用的GPU计算时间不超过8天。
二、本文方法
作者首先从两个矩阵之和的秩入手,通常来说,矩阵相加的后秩的上界会比较紧凑,于矩阵 ,然后存在矩阵 ,使得矩阵之和的秩高于
作者希望利用这一特性来制定灵活的参数高效训练方法,然后从LoRA算法开始入手,LoRA可以将模型权重的更新量 分解为一组低秩矩阵乘积 ,如下式所示,其中 是固定缩放因子。

在具体操作时,LoRA通常是加入新的可学习参数 来实现,这些参数可以在训练后合并回原始参数中。因此,尽管上述方程允许我们在训练阶段中实现总参数更新量高于任意单个矩阵的秩,但其仍然受到 的限制。因此作者想到通过不断叠加这一过程来突破限制达到更好的训练效果。这首先需要对LoRA过程进行重新启动,就可以在训练阶段不断合并每次得到的 得到累加的权重更新量,计算公式如下:
但是,想要对已经完成的LoRA过程重新启动并不容易,这需要对优化器进行精细的调整,如果调整不到位,会导致模型在重启后立即与之前的优化方向出现分歧。例如Adam优化器在更新时主要由先前步骤中所累积梯度的一阶矩和二阶矩引导。实际上,梯度矩平滑参数 通常非常高,因而在重新启动时的秩上界为 ,相应的梯度矩 都是满秩的,在合并参数后就会使用先前的旧梯度来优化 朝向与 相同的子空间方向。
为了解决这个问题,作者提出了ReLoRA方法,ReLoRA在合并和重新启动期间可以对优化器进行部分重置,并在随后的预热中过程中将学习率设置为0。具体来说,作者提出了一种锯齿状学习率调度算法,如下图所示,在每次对ReLoRA参数进行重置时,都会将学习率设置为零,并执行快速(50-100 步)学习率预热使其回到与重置前相同的水平范围内。
ReLoRA通过序列叠加的方式仅训练一小组参数就可以实现与全秩训练相当的性能,并且遵循LoRA方法的基础原则,即保持原始网络的冻结权重并添加新的可训练参数。乍一看,这种方式可能显得计算效率低下,但我们需要清楚的是,这种方法可以通过减小梯度和优化器状态的大小,来显著提高显存效率。例如Adam优化器状态消耗的显存通常是模型权重占用的两倍。通过大幅减少可训练参数的数量,ReLoRA可以在相同的显存条件下使用更大的batchsize大小,从而最大限度地提高硬件效率,ReLoRA的整体操作细节如下图所示。
三、实验效果 
为了清晰的评估ReLoRA方法的性能,作者将其应用在各种规模大小(60M、130M、250M 和 350M)的Transformer模型上,并且都在C4数据集上进行训练和测试。为了展现ReLoRA方法的普适性,作者重点考察NLP领域的基础语言建模任务。模型架构和训练超参数设置基本与LLaMA模型保持一致。与LLaMA不同的是,作者在实验中将原始的注意力机制(使用float32进行 softmax计算)替换为了Flash注意力[2],并且使用bfloat16精度进行计算,这样操作可以将训练吞吐量提高50-100%,且没有任何训练稳定性问题。此外,使用ReLoRA方法训练的模型参数规模相比LLaMA要小得多,最大的模型参数才仅有350M,使用8个RTX4090上训练了一天时间就可以完成。
下图展示了本文方法与其他方法的性能对比效果,可以看到ReLoRA显着优于低秩LoRA方法,证明了我们提出的修改的有效性。此外,ReLoRA还实现了与满秩训练(Full training)相当的性能,并且我们可以观察到,随着网络规模的增加,性能差距逐渐缩小。有趣的是,ReLoRA 唯一无法超过的基线模型是仅具有60M参数的最小模型。这一观察结果表明,ReLoRA在改进大型网络的训练方面更加有效,这与作者最开始研究探索一种改进大型网络训练方法的目标是一致的。
此外,为了进一步判断ReLoRA是否能够通过迭代低秩更新来实现相比LoRA更高的秩更新训练,作者绘制了ReLoRA、LoRA和全秩训练的热启动权重与最终权重之间差异的奇异值谱如下图所示,下图说明了LoRA和ReLoRA之间对于 奇异值的显著差异,可以看到ReLoRA在所有四个矩阵参数上均得到了最小的奇异值。
四、总结 
本文是一篇专注于减轻大型Transformer语言模型训练代价的工作,作者选取了一条非常具有前景的方向,即低秩训练技术,并且从最朴素的低秩矩阵分解 (LoRA) 方法出发,利用多个叠加的低秩更新矩阵来训练高秩网络,为了实现这一点,作者精心设计了包含参数重新启动、锯齿状学习率调度算法和优化器参数重置等一系列操作,这些操作共同提高了ReLoRA算法的训练效率,在某些情况下甚至能够达到与全秩训练相当的性能,尤其实在超大规模的Transformer网络中。作者通过大量的实验证明了ReLoRA的算法可行性和操作有效性,不知ReLoRA是否也会成为大模型工程师一项必备的算法技能呢?
参考 
[1] H. Touvron, T. Lavril, G. Izacard, X. Martinet, M.-A. Lachaux, T. Lacroix, B. Rozière, N. Goyal, E. Hambro, F. Azhar, A. Rodriguez, A. Joulin, E. Grave, and G. Lample. Llama: Open and efficient foundation language models. arXiv preprint arXiv:2302.13971, 2023.

[2] T. Dao, D. Y. Fu, S. Ermon, A. Rudra, and C. Re. Flashattention: Fast and memory-efficient exact attention with IO-awareness. In A. H. Oh, A. Agarwal, D. Belgrave, and K. Cho, editors, Advances in Neural Information Processing Systems, 2022.

作者:seven_

Illustration by IconScout Store from IconScout



关于我“

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: 
[email protected]


进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
智源开放3亿条语义向量模型训练数据, BGE模型持续迭代更新硬核观察 #1113 已停止支持的 OS/2 Warp 的继任者 ArcaOS 发布新版本亚马逊近年高管纷离职,贝佐斯的"烂摊子",继任者贾西来填大模型训练成本降低近一半!新加坡国立大学最新优化器已投入使用32卡176%训练加速,开源大模型训练框架Megatron-LLaMA来了从原理到代码理解语言模型训练和推理,通俗易懂,快速修炼LLM澳央行行长要被免职?最早有望本周公布继任者?未来还会再加息吗?万亿基金公司总经理辞职!曾推动开创“余额宝时代”,继任者是...大型语言模型训练加速专场在线研讨会上线,三位专家将主讲AI服务器、训练框架和云上高性能存储架构国内高校首例!支持千亿参数的大模型训练长篇小说《如絮》第一百四十二章 哈尔滨 夜审巴菲特昨天93岁了,继任者会是谁?连续加息后,澳联储行长要下台了?继任者已有人选?澳总理、财长将于本周宣布结果!光大集团原董事长唐双宁被查!自称“擅长诗歌、书法,略通金融”,其继任者此前已落马AI大模型训练背后,一条数据产业链正在形成韩国学会判断LK-99不是室温超导体/苹果已研究生成式AI多年/Switch继任者最早本月宣布千亿巨头片仔癀,原董事长刘建顺被开除党籍!继任者潘杰也被查;现董事长曾长期在纪检系统工作…他将辞职?“西方中意女性继任者”减少内存消耗、降低大模型训练成本,ACL杰出论文作者揭秘CAME优化器普里戈任飞机曾“1分钟下降2400多米”,其手机在一具尸体旁被发现!潜在继任者不在飞机上天天吃鱼双林奇案录第三部之川黔连环案: 第三十四节病毒羔羊第九章 媽媽來了斯坦福博士独作!大模型训练速度再翻倍,还官宣加入明星创业公司当首席科学家11月必看!“新世界三大男高音”Juan Diego Flórez首次亮相澳洲!类GPT模型训练提速26.5%,清华朱军等人用INT4算法加速神经网络训练谷歌火力全开!新一代芯片TPU v5e炸场,大模型训练飙升5倍,成本砍半加州传奇女参议员,90岁范恩斯坦辞世!谁是继任者?纽森州长承诺将指定一位非裔女性!从狂热到理性:大模型训练三堵墙,一场少数人的游戏"AI框架"与"AI中台"在大模型训练实践中如何发挥作用?| Q推荐故国2023,闺蜜游长安英伟达H100霸榜权威AI性能测试,11分钟搞定基于GPT-3的大模型训练iPhone 15 Pro维修费或将降低 / Twitter完成App Store更名 / 任天堂Switch继任者或明年推出怒甩25斤,2个月练出马甲线,35岁妈妈靠这个方法逆袭!夏天练效果最好大模型训练太难了!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。