Redian新闻
>
减少内存消耗、降低大模型训练成本,ACL杰出论文作者揭秘CAME优化器

减少内存消耗、降低大模型训练成本,ACL杰出论文作者揭秘CAME优化器

公众号新闻


在语言模型的训练中,优化器往往占据了大量的内存使用。然而,随着大语言模型参数量的不断增加,随之而来的是训练时的内存消耗更为严峻。

目前,自适应梯度优化算法,如 Adam 和 LAMB,在大规模语言模型的训练中表现出出色的训练性能。然而,传统优化算法对自适应的需求需要保存每个参数梯度的二阶矩估计,从而导致额外的内存开销。

为了解决这个问题,研究者们提出了一些内存高效的优化器(例如 Adafactor),以大幅减少额外内存的使用,但已有的内存节约优化器通常会牺牲部分训练性能。

在本研究中,来自新加坡国立大学、华为诺亚方舟实验室的研究者首先设计了一种置信度引导策略来降低现有内存节约优化器的训练不稳定性。基于这一策略,他们进一步提出了 CAME 优化器,旨在同时实现两个目标:传统自适应方法的快速收敛和内存高效方法的低内存使用。

大量实验证明了 CAME 在 BERT、GPT-2 等语言模型训练任务中的训练稳定性和出色性能。值得注意的是,在批量大小为 32k 的大批量 BERT 预训练场景下,与 Adam 优化器相比,该研究提出的 CAME 优化器实现了更快的收敛速度和更高的收敛精度,这是对现有内存节约优化器的重要扩展。

为了让大家更好的了解这一研究,机器之心最新一期线上分享邀请到了论文第一作者罗旸,通过本次分享,大家可以更深入的了解这一项研究。


分享主题:CAME 优化器分享:置信度引导的内存节约优化算法

嘉宾简介:罗旸为新加坡国立大学在读硕士生,导师为尤洋教授,HPC-AI 实验室成员。本科毕业于武汉大学,研究兴趣包含机器学习以及高性能计算,当前研究重点为大模型训练的稳定性以及高效训练。

分享摘要:本次分享将首先对大规模语言模型优化算法的相关工作进行概述,随后重点阐述提出的置信度引导策略如何有效解决已有的内存节约优化器中存在的训练不稳定问题,进一步详细介绍基于此策略提出的 CAME 优化器。
 

相关链接

论文链接:https://arxiv.org/abs/2307.02047

直播间:关注机器之心机动组视频号,立即预约直播。
交流群:本次直播设有 QA 环节,欢迎加入本次直播交流群探讨交流。


机器之心 · 机动组

机动组是机器之心发起的人工智能技术社区,聚焦于学术研究与技术实践主题内容,为社区用户带来技术线上公开课、学术分享、技术实践、走近顶尖实验室等系列内容。机动组也将不定期举办线下学术交流会与组织人才服务、产业技术对接等活动欢迎所有 AI 领域技术从业者加入

  • 点击阅读原文,访问机动组官网,观看往期回顾;

  • 关注机动组服务号,获取每周直播预告

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
DeepMind等摘得杰出论文、IBM超算深蓝成经典,IJCAI2023奖项公布32卡176%训练加速,开源大模型训练框架Megatron-LLaMA来了GPT-4被破解,训练成本,模型架构的秘密都被挖出来了?谷歌火力全开!新一代芯片TPU v5e炸场,大模型训练飙升5倍,成本砍半大模型训练成本降低近一半!新加坡国立大学最新优化器已投入使用马腾宇团队新出大模型预训练优化器,比Adam快2倍,成本减半ACL 2023奖项公布:3篇最佳论文、39篇杰出论文,多家国内机构上榜终极「揭秘」:GPT-4模型架构、训练成本、数据集信息都被扒出来了准确性极低!OpenAI下架AI检测器,ICML杰出论文被打脸【文献】为什么美国应该向黑人赔偿纵情消耗、悲核解剖到自我疗愈:Lana Del Rey的辩证法九剑一魂 - 第24回 汉胡同源 九剑一魂(四)Meta连甩AI加速大招!首推AI推理芯片,AI超算专供大模型训练谷歌最后一位Transformer论文作者离职创业,野心不小,要颠覆当前生成AI范式【老键曲库】 Eros (by Chris Spheeris )ACL 2023 | 面向信息检索的结构感知语言模型训练方法ACL 2023最佳论文出炉!CMU西交大等摘桂冠,杰出论文奖华人学者占半壁江山一则通告+遭贾母厌弃的长子贾赦是谁7 Papers & Radios | 英伟达把GPT-4塞进我的世界;比Adam快2倍的大模型预训练优化器厉害国保卫战: 债务和骗子开源大模型FLM-101B:训练成本最低的超100B参数大模型DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率爆了!GPT-4模型架构、训练成本、数据集信息都被扒出来了...训练成本不到1000元,直降90%!NUS、清华发布VPGTrans:轻松定制类GPT-4多模态大模型陈丹琦团队提出低内存高效零阶优化器MeZO,单卡A100可训练300亿参数模型只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型ICML 2023杰出论文奖放榜!北大校友一作斩获大奖,华人作者参与三篇,DeepMind苹果纷纷获选ICML杰出论文开奖,北大数院、武汉理工校友获奖,苹果大模型相关研究入选陈怡然教授论文获2024 IEEE优秀论文奖!STN-iCNN:端到端的人脸解析框架比Adam快2倍!斯坦福提出Sophia:大模型预训练新优化器,成本减半!ICML2023杰出论文大幅减少至6篇,北大、武理工校友获奖,大模型水印受青睐玉做的护身符可预防新冠?论文作者自爆发表该论文后遭遇歧视!现已起诉学校!「拖拽」就能实现精准P图的DragGAN,论文作者亲自揭秘技术了提升效率、降低成本,作业帮数据采集体系架构升级实践类GPT模型训练提速26.5%,清华朱军等人用INT4算法加速神经网络训练
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。