Redian新闻
>
大模型训练太难了!

大模型训练太难了!

公众号新闻
来自:包包算法笔记

进NLP群—>加入大模型与NLP交流群

这里大模型训练特指基座大模型的从0开始训练,不包括在2000条数据上SFT这样的小任务。

有人说大模型嘛,简单,给我卡就行,等到老板真给你买来了1000张卡你就知道有多难了,老板说,小王,卡买来了,三个月给我搞出来。

然后你发现,就算有人把正确的代码,数据,参数全告诉你,你也就够完整跑一次把它训练出来,万一中间服务器停电一次,完蛋交不了活儿了。

更别提你要自己写模型代码,调试,想办法评估模型,根据结果反馈调整实验方向,时间和资源完全不够!

大模型的训练有三大难点,1.消耗计算资源巨大。2.对数据的数量和数据的质量要求极高。3.很难用技术指标进行评估他的好坏。

大家在传统的DL时代热衷于对网络架构进行屎上雕花,喜欢排列组合和魔改,手动去做一些NAS(automl)的事情,然后到了大模型时代发现这个路子玩不转了。

以前一个实验,单卡V100上,顶多半天跑完。炼丹工程师在8个V100上同时试8个配方,然后炼制好丹咂摸咂摸味道,尝尝淡了还是咸了,再决定下一步配方调整的方向。

到了大模型时代,发现这个“直觉-魔改-实验-不work-改work”的路子根本行不通。

首先,做实验需要几百个A100 80GB,然后需要准备10TB数据,还得是好好清洗得到干净数据集的情况下,这亮点决定了做实验很慢,

另外,很关键的是,你很难想出一个metric去评价他的好坏!这就像捂着鼻子眼睛火柴炒菜,做成啥样不知道,两眼一黑。

以上三大难点,这决定了你的实验做的又慢又不靠谱,又费劲又不确定。

并且当一个事情的复杂度变高,试错成本变得奇高的时候,就脱离了手动炼丹可以掌控的程度了,进一步向大规模工业化炼丹发展。

我们看看META AI的Susan Zhang分享他们训练OPT-175B,也就是对应GPT-3的实现模型的经验教训。

5名工程师组成的小组训练了175B参数的LLM,使用了1024张A100(80G显存),总耗时大约三个月。

按照训练效率预估,在不发生错误和重启的情况下,在300B token数据集上训练需要花费33天。

第一轮:初步训练三次(这里的训练一次未必是跑完所有数据,只是启动和停止训练过程),先按照经验假定模型和训练超参数,并根据实际情况简单调整。如增加weight decay从0.01到0.1、设置全局梯度norm clipping为1.0、调整Adam的参数等。

这些调整都是基于对训练时每个batch的loss结果的观察做出的。但是其实都没什么意义,因为他们发现是自己的代码有bug(惨,前三次白跑),所以应该在小规模数据和模型参数上测试代码。

第二轮:超参数调整,根据观察反复确认哪些参数更有效果(最考验观察能力和经验)。

第三轮:确定了最终的超参数(实际上很多参数仍然是估计的),开始正式训练(已经过去了一个月)。训练过程中依然在观察loss曲线(有不少尖峰),并不断调整参数。尤其是Run11.6开始不断反复重新计算同一段batches,观察超参数不同对结果的影响。在Run11.10还换了激活函数Gelu->ReLU。

第四轮(“最后”一轮):33天,175B参数,300B tokens,992张80G显存的A100卡。遇到了包括但不限于:GPU掉线等硬件问题、CUDA错误、任务挂起、NCCL错误、代码bug(检查点存储问题、损失函数问题等)、训练不稳定问题再次发生。所以,即使是有丰富经验、充足的数据集和庞大硬件资源,训练大模型依然是困难重重的。

就算是openAI在训练gpt4的时候也被极其困扰,他们用了一些meta learning的方式,用一些小模型的表现来预测更大的规模的表现,

虽然挺直观的,但这确实是没办法的办法。


为什么openAI在gpt一条路上走到黑,厚积薄发两年才给大家启了智,那都是实验喂出来的。

另外,在数据方面,中文有特有的难题,由于中文互联网众所周知的原因,导致中文优秀语料极其稀少,也有说这也是一种甩锅的说法,真相可能是技术差一点,openAI用公开爬去的中文数据也能搞好。

现状就算是国内厂商找数据上买了很多公开渠道难以爬取的数据,也远远被openAI甩开了一个身位。

大模型时代最宝贵的算法人才,就是这些拿钱和时间砸出来的实践经验,能总结一套训练方法论的人才,有实际经验跑过几百个实验的老师傅,普通人完全没条件没资源。相比设备钱,时间钱,人才的成本反而可以忽略不计了。

参考资料:
https://www.zhihu.com/question/498271491 
包大人和子春之酒的回答

进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率32卡176%训练加速,开源大模型训练框架Megatron-LLaMA来了英伟达推出大模型加速包;Meta将训练对标GPT-4的大模型;ChatGPT等成费水大户丨AIGC大事日报连GPT-4都考不及格,17个大模型悉数落败,因果推理太难了Ziyi Zhang Dong-gun Jang Cecilia Cheung glenn close michael dougLoRA继任者ReLoRA登场,通过叠加多个低秩更新矩阵实现更高效大模型训练效果全面拥抱大模型!腾讯正式开放全自研通用大模型:参数规模超千亿、预训练语料超 2 万亿 tokens防止AI胡说八道!OpenAI公布最新大模型训练方法,监督AI像人类一样思考从狂热到理性:大模型训练三堵墙,一场少数人的游戏LLM大模型训练Trick系列之拒绝采样斯坦福博士独作!大模型训练速度再翻倍,还官宣加入明星创业公司当首席科学家RLHF vs RL「AI」F,谷歌实证:大模型训练中人类反馈可被AI替代欧洲最美花园是啥样?凡尔赛花园今年东京三月底的樱花平心而论,目前在国内生活和办事挺方便Meta连甩AI加速大招!首推AI推理芯片,AI超算专供大模型训练类GPT模型训练提速26.5%,清华朱军等人用INT4算法加速神经网络训练ACL 2023 | 面向信息检索的结构感知语言模型训练方法英伟达H100霸榜权威AI性能测试,11分钟搞定基于GPT-3的大模型训练地中海邮轮行之一ACL2023 | 面向信息检索的结构感知语言模型训练方法百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报Alluxio助力AI大模型训练"AI框架"与"AI中台"在大模型训练实践中如何发挥作用?| Q推荐大模型训练成本降低近一半!新加坡国立大学最新优化器已投入使用百度百舸平台的大模型训练最佳实践国内高校首例!支持千亿参数的大模型训练阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl大模型评测,也太难了吧优酷否认将被注入阿里影业;谷歌调整 AI 模型训练隐私规定;东方甄选启动首次自有 App 直播| 极客早知道AI大模型训练背后,一条数据产业链正在形成只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型开源大模型FLM-101B:训练成本最低的超100B参数大模型减少内存消耗、降低大模型训练成本,ACL杰出论文作者揭秘CAME优化器谷歌火力全开!新一代芯片TPU v5e炸场,大模型训练飙升5倍,成本砍半
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。