Redian新闻
>
大模型训练成本降低近一半!新加坡国立大学最新优化器已投入使用

大模型训练成本降低近一半!新加坡国立大学最新优化器已投入使用

公众号新闻
克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

优化器在大语言模型的训练中占据了大量内存资源。

现在有一种新的优化方式,在性能保持不变的情况下将内存消耗降低了一半。

该成果由新加坡国立大学打造,在ACL会议上获得了杰出论文奖,并已经投入了实际应用。

随着大语言模型不断增加的参数量,训练时的内存消耗问题更为严峻。

研究团队提出了 CAME 优化器,在减少内存消耗的同时,拥有与Adam相同的性能。

CAME优化器在多个常用的大规模语言模型的预训练上取得了相同甚至超越Adam优化器的训练表现,并对大batch预训练场景显示出更强的鲁棒性。

进一步地,通过CAME优化器训练大语言模型,能够大幅度降低大模型训练的成本。

实现方法

CAME 优化器基于 Adafactor 优化器改进而来,后者在大规模语言模型的预训练任务中往往带来训练性能的损失。

Adafactor中的非负矩阵分解操作在深度神经网络的训练中不可避免地会产生错误,对这些错误的修正就是性能损失的来源。

而通过对比发现,当起始数值mt和当前数值t相差较小时,mt的置信度更高。

受这一点启发,团队提出了一种新的优化算法。

下图中的蓝色部分就是CAME相比Adafactor增加的部分。

CAME 优化器基于模型更新的置信度进行更新量修正,同时对引入的置信度矩阵进行非负矩阵分解操作。

最终,CAME成功以Adafactor的消耗得到了Adam的效果。

相同效果仅消耗一半资源

团队使用CAME分别训练了BERT、GPT-2和T5模型。

此前常用的Adam(效果更优)和Adafactor(消耗更低)是衡量CAME表现的参照。

其中,在训练BERT的过程中,CAME仅用一半的步数就达到了和Adafaactor相当的精度。

左侧为8K规模,右侧为32K规模

对于GPT-2,从损失和困惑度两个角度看,CAME的表现和Adam十分接近。

在T5模型的训练中,CAME也呈现出了相似的结果。

而对于模型的微调,CAME在精确度上的表现也不输于基准。

资源消耗方面,在使用PyTorch训练4B数据量的BERT时,CAME消耗的内存资源比基准减少了近一半。

团队简介

新加坡国立大学HPC-AI 实验室是尤洋教授领导的高性能计算与人工智能实验室。

实验室致力于高性能计算、机器学习系统和分布式并行计算的研究和创新,并推动在大规模语言模型等领域的应用。

实验室负责人尤洋是新加坡国立大学计算机系的校长青年教授(Presidential Young Professor)

尤洋在2021年被选入福布斯30岁以下精英榜(亚洲)并获得IEEE-CS超算杰出新人奖,当前的研究重点是大规模深度学习训练算法的分布式优化。

本文第一作者罗旸是该实验室的在读硕士生,他当前研究重点为大模型训练的稳定性以及高效训练。

论文地址:
https://arxiv.org/abs/2307.02047

GitHub项目页:
https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/CAME

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「电商零售」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
爆了!GPT-4模型架构、训练成本、数据集信息都被扒出来了...只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型国产“量子芯片温度计”已投入使用;研究发现纽约正在逐年下沉丨科技早新闻防止AI胡说八道!OpenAI公布最新大模型训练方法,监督AI像人类一样思考“新生住在校外厂房”,高校:通勤巴士已投入使用无奈!纽约又一游民所将投入使用!附近是华人区和商业区!马腾宇团队新出大模型预训练优化器,比Adam快2倍,成本减半新加坡国立大学Cognitive AI for Science实验室招收博士研究生、实习生、博士后和访问学者WAIC 2023 | 新加坡国立大学尤洋教授 :AI大模型的挑战与系统优化博士申请 | 新加坡国⽴⼤学LV Lab招收人工智能方向博士生/RA/访问学生减少内存消耗、降低大模型训练成本,ACL杰出论文作者揭秘CAME优化器优衣库母公司市值创新高;肖章林担任天虹股份董事长;喜茶自研全套智能设备投入使用;美团外卖测试15分钟极速达|联商头条一花一世界,一树一菩提DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率陈丹琦团队提出低内存高效零阶优化器MeZO,单卡A100可训练300亿参数模型值得交往的朋友有几个进度报告|里斯本未來城·中央壹号5月通风系统已投入使用,整体稳步推进!国内的食品新加坡国立大学尤洋:高性能 AI 的突破|GAIR 2023新型野战帐篷医院系统投入使用【提示】金山新江水质净化二厂二期工程已完工,预计10月份正式投入使用新加坡国立大学尤洋:高性能 AI 的突破丨GAIR 2023博士申请 | 新加坡国立大学金玥明老师招收人工智能全奖博士/博后/RA7 Papers & Radios | 英伟达把GPT-4塞进我的世界;比Adam快2倍的大模型预训练优化器终极「揭秘」:GPT-4模型架构、训练成本、数据集信息都被扒出来了《春天的歌曲》&《梦想的远征》比Adam快2倍!斯坦福提出Sophia:大模型预训练新优化器,成本减半!谷歌火力全开!新一代芯片TPU v5e炸场,大模型训练飙升5倍,成本砍半充满细菌的温泉浴室你的电价涨了吗?美国近年来首座核反应堆在佐治亚州投入使用GPT-4被破解,训练成本,模型架构的秘密都被挖出来了?训练成本不到1000元,直降90%!NUS、清华发布VPGTrans:轻松定制类GPT-4多模态大模型博士申请 | 新加坡国立大学吴喆老师招收机器学习控制方向全奖博士/博后/RALlama2等30+模型接入千帆大模型平台,推理成本降50%!还有超全Prompt模板开放体验类GPT模型训练提速26.5%,清华朱军等人用INT4算法加速神经网络训练
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。