ICML 2024 | 大模型Checkpoint极致压缩,精度无损存储降低70倍
大型语言模型最近成为人工智能领域的研究热点,然而它们的训练过程耗费巨大的计算和存储资源。因此,高效压缩存储模型的checkpoint文件显得尤为关键。我们提出了一种创新的模型 checkpoint 压缩方案(ExCP),该方案能够在保持性能几乎不受损失的前提下,显著降低训练过程中的存储开销。
首先,我们通过计算相邻 checkpoint 的残差值来捕获关键但稀疏的信息,从而提高压缩比。接下来,我们实行权重和优化器动量的联合压缩,利用优化器存储的动量信息实现更高效的压缩,并通过压缩优化器动量进一步去除 checkpoint 中的冗余参数。
最终,我们采用非均匀量化及编码压缩策略进一步减小 checkpoint 文件的存储尺寸。在从 410M 到 7B 不同规模的模型上测试我们的压缩框架,特别是在 Pythia-410M 模型上,我们实现了近乎无损的性能下达到约70倍的压缩比例。
论文地址:
代码地址:
方法
1.1 Checkpoint残差
而与此相反的,优化器中存储的动量是梯度一阶矩和二阶矩的滑动平均值,对于一阶矩来说,它的滑动平均默认的参数是0.9,在数百到数千个迭代之后与上一次checkpoint存储的内容已经没有太大的关联,所以我们对于优化器直接压缩其本身的值而非残差。最终待压缩的checkpoint我们表示为:
1.2 权重-优化器动量联合压缩
1.3 整体压缩流程
而恢复出checkpoint完整文件的流程则如Algorithm 2所示,进行解压缩之后,首先从非均匀量化后存储的码本和下标中恢复出浮点结果,然后再与基准权重(上一个checkpoint的原始权重或恢复出的重建权重)相加,得到checkpoint完整文件。
实验结果
2.1 大语言模型
2.2 视觉模型
2.3 消融实验
总结
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者