Redian新闻
>
不要只追求模型收敛了,一个简单Trick让模型更稳定!绝对想不到

不要只追求模型收敛了,一个简单Trick让模型更稳定!绝对想不到

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | 夕小瑶科技说
作者 | 智商掉了一地、Python
大型语言模型(LLM)近年来在技术方面取得了巨大的突破,从 10 亿参数模型发展到 1 万亿参数模型,其规模日益庞大,然而,这种规模的增加也导致了昂贵的训练过程和计算资源的巨大消耗。为了找到更高效的 LLM 训练方法,研究人员一直在积极探索。
近期研究表明,在 LLM 训练中,追求收敛并不一定是最高效的训练方式。相反,提前停止训练并改善相应的性能表现则更具潜力。在大模型训练领域,一种被称为最近权重平均(LAWA)的方法引起讨论。这种方法通过在训练过程中滑动窗口式地对中间检查点进行权重平均,以改善模型在未收敛之前的质量。然而,我们不禁要问,这种现象是否适用于 LLM 训练呢?让我们一起揭开这个有趣的谜团,也许能够更全面地了解 LLM 的训练方法以及如何提高其性能~
论文题目:
Understanding the Effectiveness of Early Weight Averaging for Training Large Language Models
论文链接:
https://arxiv.org/abs/2306.03241

论文速览

将 LLM 训练至收敛状态是一项昂贵的任务,而最近的研究表明并不一定需要完全收敛。本文作者提出的训练方法 LAWA(latest weight averaging)。这是一种在训练过程中对最近的 k 个检查点进行平均的方法,只需在传统 LLM 训练协议中添加一个额外的步骤即可。
▲算法1 LAWA 的 PyTorch 风格伪代码
具体来说,LAWA 使用一个移动窗口,按照预定的间隔收集保存的检查点序列θ_t中的k个最近检查点。LAWA衍生的检查点的计算如公式所示:

实验

作者对 Pythia 中公开提供的四种不同规模的 GPT 风格的仅解码器自回归 LLM 进行了探索,模型细节如表 1 所示。实验的训练步骤数在 10k-100k 量级,模型规模在 1B-12B。
▲表1 四种模型细节展示
LAWA 在最终收敛之前实现了更快的收敛速度,而且没有额外的成本,相反节省了大量的 GPU 耗时。并且改善了 zero-shot 情况下的性能,确保了评估结果的稳定性。
如图 1 所示,作者对四个 Pythia LLM 模型进行了实验,分别为 10 亿、28 亿、69 亿和 120 亿参数,以及一个 422M 的扩散模型。对于这四个 LLM 模型,节省了大量的 GPU 耗时,从而减少了云计算成本。
▲图1 与原始的训练协议相比,LAWA 节省了大量的 GPU 耗时

改进的测试泛化和收敛速度

对于来自原始数据集 PILE 的 5 个不同任务,图 2 和图 3 显示,使用 LAWA 得出的检查点在 Pythia-1B 和 Pythia-2.8B 模型(即中等规模的 LLM)的测试泛化方面优于原始训练过程中保存的检查点。
▲图2 LAWA 加速了 Pythia-1B 在原始预训练数据集子任务上的收敛速度
▲图3 LAWA 加速了 Pythia-2.8B 在原始预训练数据集子任务上的收敛速度
图 4 和图 5 中可以看出,在早期和中期训练阶段,Pythia-6.9B 和 Pythia-12B 模型的测试泛化明显改善,而在训练结束时改善较小。
▲图4 LAWA 加速了 Pythia-6.9B 在原始预训练数据集子任务上的收敛速度
▲图5 LAWA 加速了 Pythia-12B 在原始预训练数据集子任务上的收敛速度
在所有用于实验的 LLM 中,与原始训练轨迹相比,它们在较少的训练步骤中实现了更低的困惑度(衡量 LLM 在预测下一个词时的困难程度),因此节省了大量的 GPU 时间、后续训练成本和输入的训练数据。LAWA 在需要从头开始训练这样或类似模型的情况下证明是有益的,但由于计算预算的限制,只能进行有限数量的训练步骤。
此外,较高的学习率有助于 LAWA。作者推测在中等规模的 Pythia 模型中观察到的显著改进可能归因于大的batch size与高学习率的结合使用。相反,作者认为较大的 Pythia 模型相比于较小的模型取得的改进较小,是因为这些特定模型的学习率被降低。

缓解评估期间损失峰值

如图 4 所示,可以观察到两个困惑度峰值,都出现在 Pythia-6.9B 模型中。有趣的是,发现 LAWA 在评估过程中相当有效地缓解了这些峰值。

提升 zero-shot 性能

  • 如表2所示,可以观察到在整个 LLM 检查点的训练过程中,不论规模如何,早期中期(24K、36K、48K、60K)检查点的 zero-shot 性能几乎始终比较高。
  • 使用LAWA得出的检查点在后期阶段(105K、141K)的大多数任务上也有改进。
  • 在所有模型中一直观察到性能提升,直到 105K 步,这大约占了总训练步骤的 75%。因此,本方法在计算优化的LLM训练场景中非常有益,其中在总训练步骤的 75% 处提前停止。
▲表2 LAWA 在学术问答和知识评估等下游任务的 zero-shot 性能有提升

扩散模型

该实验用以评估 LAWA 在语言之外的生成模型上的有效性。LAWA 检查点平均值在已经进行指数移动平均(EMA)处理的检查点上进一步改善了 FID 值。
▲图6 LAWA 以 FID 为指标加速了图像扩散模型的收敛速度

消融实验

▲图7 消融实验结果

初步探索早期权重平均化

▲图8 线性模型在一维合成数据集上训练的二维损失曲面可视化
如图 9 所示,LAWA 通过减少权重更新的方差提供了某种隐式正则化效果。令人惊讶的是,可以观察到使用较高学习率训练的模型相比使用较低学习率训练的模型在LAWA中获得更好的效果。
▲图9 对小规模 PreAct ResNet-18 在 CIFAR-10 数据集上的实验结果

小结

作者探究了提前权重平均(LAWA)在 LLM 训练中的应用。发现相比于原始模型,使用 LAWA 获得的检查点在更少的训练步骤下展现出卓越的测试和零样本性能,可以加速收敛,使模型训练更稳定。这一发现尤其在中等规模的 LLM 中表现得更加显著。此外,将 LAWA 应用于生成式图像扩散模型也带来了类似的性能提升。
研究仍存在一定的局限:
  • 本文的分析基于预训练的 Pythia 检查点。但由于计算资源的限制,无法进行包括不同批次大小和学习率的全面消融研究。
  • 分析范围仅限于 Pythia 或等效模型。可能实验结果并不完全适用于拥有数十亿参数的 LLM。
然而,尽管存在这些限制,这项研究还是为提高 LLM 训练效率和性能提供了有价值的思路和实验结果,同时也为未来有限训练预算下微调设置中的相关研究指明了新方向。让我们共同期待后续研究继续揭开 LLM 训练中的这个有趣谜团,为自然语言处理领域的发展做出贡献吧~


技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
免费领 | 三四句一篇英文小短文,阅读理解也可以很有趣,一年四季都能练!绝对干货!一个简单的姿势就能轻松止鼾,让全家都睡个好觉红豆沙松软香面包(附菜谱)澳街头采访:这样一个简单的问题,竟难倒不少人……草根三本毕业生和名校精英做同事,结局你绝对想不到Final周,做好这件事儿,要比只追求成绩重要得多…从日俄战争到十月革命:犹太人是如何颠覆沙俄统治的?【转帖】中年夫妻都是怎么聊天的?未婚的绝对想不到房市和房事有鸡毛关系余世存谈阅读:不要只追求片面的深刻或深刻的片面键盘到底有多脏?绝对想象不到……城市修补计划:那些废弃的灰空间还能这么做,你绝对想不到!​ICML 2023 | 可证明的动态多模态融合框架:一个简单而有用的理论怪奇物语:你绝对想不到,蚊子的嘴有多灵活!浙江农民的壕,你绝对想不到10个华人最多的国家!第一个你绝对想不到!买住房保险有门道 不要只看价钱澳洲最适宜居住地排名公布!第一名居然是这个州,你绝对想不到...佛州限制外国人购买不动产的法案限制了谁?首位加拿大景观建筑新人奖华人得主阮怡文:不要只想着融入北美的圈子,要走出自己的路自称深二代的悉大浪女约网友深入交流,结果你绝对想不到...千万别把“low tea”翻译成了“低级茶”!真正的意思你绝对想不到!在澳洲,用这些硬币支付竟然不合法?一个简单问题难倒众多澳人英伟达H100用11分钟训完GPT-3!PyTorch创始人:不要只看时间“阅衣”无数后,我对这个牌子情有独钟,一件简单T恤就能穿得很好看超尴尬!一个简单的emoji却被外国同学理解偏了,差点“友尽”?健身小白挑战八块腹肌!改良健腹轮,三角结构更稳定,新手也能轻松轻松练!顶级豪门!中国姑娘风光嫁入雅诗兰黛家族,男方身价百亿,这个姑娘的背景你绝对想不到...一个简单的代码拼写错误导致17个生产数据库被删!微软Azure DevOps宕机10小时始末观点 I 亚裔美国人不再只追求“被融入”,还要在主流文化中自定义GPT-5将死于GPT-4背刺?牛津剑桥研究警告:AI训AI成「剧毒」,会让模型崩溃!一个简单模型就让ChatGLM性能大幅提升 | 最“in”大模型国寿安保基金黄力:贯彻绝对收益理念,追求产品长期稳定性北大事件牵出的“天价研学”, 是一台对中产父母的大型收割机
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。