不要只追求模型收敛了,一个简单Trick让模型更稳定!绝对想不到
Understanding the Effectiveness of Early Weight Averaging for Training Large Language Models
https://arxiv.org/abs/2306.03241
论文速览
实验
改进的测试泛化和收敛速度
缓解评估期间损失峰值
提升 zero-shot 性能
如表2所示,可以观察到在整个 LLM 检查点的训练过程中,不论规模如何,早期中期(24K、36K、48K、60K)检查点的 zero-shot 性能几乎始终比较高。 使用LAWA得出的检查点在后期阶段(105K、141K)的大多数任务上也有改进。 在所有模型中一直观察到性能提升,直到 105K 步,这大约占了总训练步骤的 75%。因此,本方法在计算优化的LLM训练场景中非常有益,其中在总训练步骤的 75% 处提前停止。
扩散模型
消融实验
初步探索早期权重平均化
小结
本文的分析基于预训练的 Pythia 检查点。但由于计算资源的限制,无法进行包括不同批次大小和学习率的全面消融研究。 分析范围仅限于 Pythia 或等效模型。可能实验结果并不完全适用于拥有数十亿参数的 LLM。
扫描二维码添加小助手微信
关于我们
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章