在语言模型的训练中,优化器往往占据了大量的内存使用。然而,随着大语言模型参数量的不断增加,随之而来的是训练时的内存消耗更为严峻。目前,自适应梯度优化算法,如 Adam 和 LAMB,在大规模语言模型的训练中表现出出色的训练性能。然而,传统优化算法对自适应的需求需要保存每个参数梯度的二阶矩估计,从而导致额外的内存开销。为了解决这个问题,研究者们提出了一些内存高效的优化器(例如 Adafactor),以大幅减少额外内存的使用,但已有的内存节约优化器通常会牺牲部分训练性能。在本研究中,来自新加坡国立大学、华为诺亚方舟实验室的研究者首先设计了一种置信度引导策略来降低现有内存节约优化器的训练不稳定性。基于这一策略,他们进一步提出了 CAME 优化器,旨在同时实现两个目标:传统自适应方法的快速收敛和内存高效方法的低内存使用。大量实验证明了 CAME 在 BERT、GPT-2 等语言模型训练任务中的训练稳定性和出色性能。值得注意的是,在批量大小为 32k 的大批量 BERT 预训练场景下,与 Adam 优化器相比,该研究提出的 CAME 优化器实现了更快的收敛速度和更高的收敛精度,这是对现有内存节约优化器的重要扩展。为了让大家更好的了解这一研究,机器之心最新一期线上分享邀请到了论文第一作者罗旸,通过本次分享,大家可以更深入的了解这一项研究。分享主题:CAME 优化器分享:置信度引导的内存节约优化算法嘉宾简介:罗旸为新加坡国立大学在读硕士生,导师为尤洋教授,HPC-AI 实验室成员。本科毕业于武汉大学,研究兴趣包含机器学习以及高性能计算,当前研究重点为大模型训练的稳定性以及高效训练。分享摘要:本次分享将首先对大规模语言模型优化算法的相关工作进行概述,随后重点阐述提出的置信度引导策略如何有效解决已有的内存节约优化器中存在的训练不稳定问题,进一步详细介绍基于此策略提出的 CAME 优化器。相关链接
论文链接:https://arxiv.org/abs/2307.02047交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动,欢迎所有 AI 领域技术从业者加入。