Redian新闻
>
从狂热到理性:大模型训练三堵墙,一场少数人的游戏

从狂热到理性:大模型训练三堵墙,一场少数人的游戏

公众号新闻


本文来自公众号(ID:)


“只要有GPU卡,把服务器买走都行”。3月份开始,张阳明显感受大模型带来的冲击,作为一家云厂商算力平台负责人,他意识到市场甚至有些盲目。“当时客户比较慌,相当于对产品都没有什么要求,不关心网络和存储,就是感觉大家都在抢机器,先抢过来固定住时间,然后再去看怎么用,那会大家还没有想明白怎么用。”


到了4月,有些客户已经尝试过或者见过大模型训练,逐渐开始想明白,大概知道想要什么样的配置。要一堆GPU卡,实际上是一个认知误区,大模型训练的实现依靠的是一个算力集群,包含整套的服务。


但不是所有企业都能驾驭大规模算力集群,这注定是一场少数人的游戏。事实上,微软和OpenAI的合作也已经证明,用云来训练大模型,似乎是更合理的选择。


作为中间层,云厂商向下屏蔽底层软硬件的复杂性,向上对接企业的研发和算法工程师、个人开发者等,此外背靠集团的云厂商,还具备资金、人才、数据等优势,也就最先开始声势浩大的进军大模型。


AI算力芯片、服务器/交换机、光模块/光芯片、数据中心、云计算……算力产业链条的每个角色,仿佛齿轮般咬合在一起,构成数字经济的产业发动机,如今,大模型让每个齿轮都极速传动起来。



训练基础模型,是一切大模型产业生态的起点,也只有闯过算力关,才能拿到大模型竞赛的入场券。


大模型训练的三堵墙

技术的发展有其延续性,正如微软Azure为OpenAI打造的“超级计算机”,经历了数年的演进才有成果,现阶段大模型训练比拼的,其实是过去几年厂商的战略预判与技术积累,能上牌桌的大多是老玩家。


“大模型存在明显的炒作过热倾向,行业应该更加理性,而不是套着大模型概念做资本或者业务的炒作。我自己的观点是,真的不要去考虑端到端地去做一个大模型,对于非要做的企业,我只能说有机会,但是挑战很大。”一家互联网大厂大模型产品负责人对钛媒体表示。


在学术界看来,OpenAI并没有做出革命性的创新,本质是围绕AGI产品进行的“工程创新”,但正是工程化造就了OpenAI和大模型的成功,工程化体现在大模型研究、工程、产品、组织各个环节,算力训练集群也是如此。


“工程化做得好也很难,它证明了往上堆算力,堆数据是可以往前推进的。”微软技术中心首席架构师韩凯对钛媒体表示。


这一看似简单的逻辑背后,对企业而言却是极大的考验——看不见可能的出路,担心巨大的投入没有产出,这是最大的风险,也是为什么国内没有先做出“ChatGPT”的原因——他们更多选择跟随,而不是对一条没被验证过的路投资。



算力集群的工程化,至少要突破三堵墙。


首先是“算力”墙。“完成一个千亿参数级别的大模型例如GPT-3需要314ZFLOPs算力的模型训练,而单卡只有312TFLOPS算力时,一张卡训练一个模型要耗时32年。所以需要引入分布式训练的方法,使用多机多卡的方式来加速模型的训练,包括比较常见的数据并行和张量并行。”天翼云资深专家陈希表示。


其次是“存储”墙。单显卡的显存已经无法加载千亿级参数。千亿级参数完全加载到显存大概需要几个TB,如果再考虑梯度、优化器状态等训练过程产生的一些中间结果,占用的显存量就更大了,往往需要上百张卡才可以支持。


所以厂商一般会引入流水线并行,将模型不同的层放到不同的节点的显卡内进行计算。对于这一组节点只需要加载某一些层的参数,降低显存的压力。


随之而来的是“通信”墙。大模型并行切分到集群后,模型切片间会产生大量通信,包括节点内多卡通信,节点间通信。几种并行方式都会涉及到大量的节点与节点间的通信,这时候就会对总线和总带宽都有很高的要求,要达到几百G的吞吐。


另外除了这三堵墙以外,还有一些其他问题:如大模型参数的增长速度和芯片工艺发展之间的矛盾也日趋明显。最近几年随着transformer结构的引入,平均每两年,模型参数数量增长15倍。而相应的芯片制程从7nm提升到4nm,单卡算力增长不超过4倍,芯片工艺发展落后于大模型的需求。


大模型训练需要的不单单是算力,对存储,对安全,对训练框架都有一定的要求,需要一套比较完整的平台或服务来提供支持。“大家最近的一个普遍的感受,就是能满足大模型训练平台的提供商不多,高性能算力供应整体比较紧张。”陈希说。


为什么“他们”能成?


现在仍有不少企业毫无准备或者自我感觉有所准备,就冲进基础模型领域。


然而,如果细细研究现阶段做出基础模型的厂商,无一例外在AI领域都有足够积累,特别是底层基础设施层面,他们的实践也在验证“云是规模算力的最佳承载平台”这一判断。


“为了打造AI超级计算机,微软早在2018年就开始布局,除了OpenAI还投资了几个小公司,大数据是AI的前序,云计算基础设施是算力平台,大模型是算力、算法和数据的集合,微软的成功在于全栈能力。”韩凯表示。


回到国内,百度也遵循类似的逻辑。百度副总裁谢广军提到,算力和存储一定要达到更高的密度,才能够支持大模型。显著的问题还有网络互联,大模型训练用的比较多的显卡是带有NVLink高速互连的A800,需要比传统云计算做到更低延时、更高带宽,大量的小文件,也需要低延时、高存储的基础设施。


“大模型跑起来之后,还有非常多的地方需要加速,像通信需要加速、显存需要压缩、整个推理也需要加速。百度智能云能够把调优手段集成到基础库,对于大模型计算和推理非常有帮助。”谢广军说。


从平台的视角来说,不管是训练任务还是推理任务,单个的任务就需要非常长的时间,需要占用很多资源。怎么能够保证资源的充分利用,以及降低它的训练和推理时间。这里面需要切任务、调度、并行,对于模型训练的加速比和并行度的支撑。


同时,一个平台上往往有有很多任务,如何灵活调度,进而能够让这些任务充分地使用资源,甚至能够感知到异构算力的拓扑,使得平台效率得到提升……这类AI任务调度、容器化支持方面都有非常多的工作需要去做。


以文心一言的训练为例,千卡规模的A100或者A800数据并行加速比达到90%,其中用了非常多的调优手段和技术,百度智能云围绕着大模型一层一层做优化,在平台上分成了AI 计算、AI 存储、AI 加速和 AI 容器等四层,共同组成了 AI IaaS,这些基础设施可以支持上万亿参数大模型的训练。


此外,预训练模型需要通过千卡以上的集群训练,而在大多数情况,精调或者微调更普遍,基于大模型训练行业模型,相当于在树干上长树枝,不需要超大规模的集群,小几十张卡足以满足企业所需训练资源。


达观数据将在7月份正式推出国产版GPT“曹植”系统,也是得益于多年文本智能技术积累和垂直领域场景业务经验,算法和数据层面有所储备,而在测试阶段的算力层面,达观数据CEO陈运文表示,自建算力数据中心较为吃力,达观寻求了多种算力平台的支持,包括运营商算力中心、鹏程实验室等。


达观数据也曾尝试某家头部云厂商的GPU算力,但经过测算成本太高,租一年半下来的成本,足够达观数据自家购置一个自己的算力平台,达观数据选择了英伟达DGX高性能工作站方案,相当于英伟达自身做了很多集群优化,解决了存储和网络的大部分问题,直接买GPU卡自建集群和英伟达解决方案相比,综合性能相差一倍。


“我们自己的模型训练成本其实还是很高的,但是我们帮客户算过账,模型在推理阶段需要的算力投入并不大,很多客户只要单机多卡就够,硬件投入不算很大,但是给客户带来的效果和体验提升非常明显。”陈运文表示。


英伟达不只有GPU


小厂商用英伟达的商业技术补齐能力,大厂商以英伟达的硬件为核心构建高性能计算集群、提升性能,进一步缩短训练时间……基本所有厂商的大模型的推理、训练都高度依赖英伟达的GPU。


来自市场的消息显示,A800的价格一度超过8万元人民币,A100更贵,甚至超过9万元。


“英伟达的策略是既要确保每家大客户都能拿到货,同时又不会完全满足其短时大量的需求,这使得英伟达GPU保持在一个供应紧张的状态。”一位业内人士表示,英伟达全球A100的产能并不缺,供货没有问题,对于禁售A100之后,特供中国的替代品A800,英伟达特意开了一条产品线,因其产能相对有限,造成了供需矛盾。


一些厂商也在想其他办法,比如在香港建立算力集群,同时H800和A800复用了一部分产品线,未来H800的产能上来之后或许会压制A800,不排除英伟达会继续增加适用于中国市场的产线。


除了产量,高企的价格也源于英伟达芯片的工程化能力,这是其成为大模型训练核心的决定性原因。


业界内外对英伟达有两种极端认知:一种认为,英伟达难以战胜;另一种是诸多厂商在PPT上“吊打”英伟达。然而,即便在理念和先进性上领先,但这一切只停留在芯片设计环节,没有真正工业落地,也就无从对比。


现实情况是,在大模型算力领域,英伟达的壁垒在于GPU+NVlink/Infiniband网络+CUDA的组合能力。


以英伟达最新发布的GH200GraceHopper超级芯片,以及拥有256个GH200超级芯片的DGXGH200超级计算机为例,产品性能上至少领先其他厂商一个身位。


涉及到算力集群,RDMA网络成为大模型时代的底层通信技术,业内主要使用的是Infiniband、RoCE,NVlink仅用于GPU之间通信,InfiniBand网络则为通用高性能网络,既可用于GPU之间通信,也可用于CPU之间通信。



Infiniband网络以往在超算领域应用较为广泛,随后扩展至人工智能计算,2019年,英伟达以69亿美元收购迈络思,补全了自己了网络短板,目前IB较为成熟,很多厂商都在尝试自研RoCE路线,在部分场景下较IB网络还有一定差距。


例如文心一言,早在2021年6月,百度智能云开始规划全新的高性能GPU集群的建设,联合NVIDIA共同完成了可以容纳万卡以上规模的IB网络架构设计,集群中节点间的每张GPU卡都通过IB网络连接,并在2022年4月将集群建设完成,提供单集群EFLOPS级别的算力。


2023年3月,文心一言在这个高性能集群上诞生,并不断迭代出新的能力。目前,这个集群的规模还在不断扩大。NVIDIA中国区解决方案与工程总经理赖俊杰也提到,高速IB网络互联的GPU集群是大模型时代的关键基础设施。


据了解,百度仅半年时间就采购了数万片英伟达A800,其他互联网厂商的采购量也在上万片,刨除一开始发生了挤兑现象导致供不应求外,目前英伟达产品的供货周期在三个月以内。


CUDA(ComputeUnifiedDeviceArchitecture)软件生态,也是备受开发人员好评的产品,它允许开发者使用C/C++、Fortran等编程语言在英伟达GPU上进行并行计算,提供了强大的计算能力和高效的数据传输方式,使得GPU在科学计算、机器学习、深度学习等领域得到了广泛的应用。


目前,英伟达是大模型热潮中最受益的厂商,没有之一,即便是微软为OpenAI搭建的超级计算机,也依赖于英伟达的产品,绝大多数训练算力都来自于英伟达GPU,面对全球如雪花般飞来的订单,英伟达赚的盆满钵满。


其最新的2024财年第一季度财报显示,英伟达数据中心业务营收为42.8亿美元,创下历史纪录,与上年同期相比增长14%,与上一财季相比增长18%,股价也创下历史新高。财报具有滞后性,大模型带来的业绩增收还没有完全体现在财报上。


国产算力的机会


在自主创新的大背景下,大模型算力也在加速拥抱国产化,大家的态度是远期普遍看好,短期仍有挑战。大模型时代到来之后,很多国产芯片虽然有所准备,但是在最高端的芯片上存在一定的差距。


燧原COO张亚林表示,当前所有人在做大模型训练的时候,时间至关重要,现在大家需要成熟的产品,不会倾向于选用国产化芯片,避免遇到一些稳定性或者成熟度的问题。


但推理层面是国产芯片的机会,张亚林表示,推理模型本身支持的方向比较单一,只要在推理模型上做到极致的调优,把性价比拿出来,很多用户反而愿意用国产化芯片。“我认为现在国产芯片应该倒过来,先做推理和微调,然后慢慢通过研究所、高校、国家级实验室的研究,牵引到集群化的能力,从推理到训练的曲线会更加合理。”他说。


谢广军提到,AI芯片的发展比摩尔定律更加激进,也会有更大的下降空间。算力短缺一方面算力跟不上需求,另一方面,还是由于整个供应形势所带来的问题。


“大模型的需求也会加速国产芯片的迭代。以昆仑芯来讲,今年年底昆仑第三代,更加适合大模型,不管是训练还是推理,包括通信、显存都会有非常大的提升。我相信其他的国产算力也是这样的,国产算力更具备竞争力,会使得整个算力成本进一步下降,而且是加速下降。”谢广军说。


钛媒体App了解到,今年国产芯片的发展呈现错位状态,国产芯片还没有对标到英伟达最高端的产品,比如A100。有几家国产芯片厂商已经预备在今年晚些时候,推出类似的对标产品。不论是训练还是推理,国产芯片的发展或多或少有一些滞后。


与之对应地,英伟达芯片供应相对紧张,国产算力在明年之后,会有比较大的机会,现在算力市场还在急剧增长,国产芯片的匹配度不够,主要还是英伟达在增长,如果需求匹配上之后,国内芯片会有很大的机会。


张亚林表示,如果燧原要真的“杀”到互联网客户场景,一定是在他们需要的场景和业务下,具备1.5倍的英伟达产品性能,和两倍的性价比。


“互联网客户普遍追求极致性价比,但是在集群方面要看TCO(总体拥有成本),集群的软硬件整体价格、运维服务部署等,比如我1000卡的集群,跟英伟达的600卡集群对比,可能性能差不多,但是我性价比更高,同时我提供更好的定制化的服务支持,在市场上也是很有竞争力的。”他说。


6月,关于大模型算力的讨论渐歇,基础模型厂商初窥门径,要么身体力行地去训练大模型,要么买到更有性价比的算力,但总体来说,以算力为中心的大模型基础设施,成本依然处于较高的水平。


IT产业总是遵循否定之否定的钟摆定理,在大模型的产业热潮中,接下来算力的各个环节如何进化,也更值得期待。(文中张阳为化名)


酷玩实验室经授权转载
如需转载,请联系原作者
分享给朋友或朋友圈请随意
得期

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
百度百舸平台的大模型训练最佳实践大模型训练成本降低近一半!新加坡国立大学最新优化器已投入使用特拉华州内穆尔庄园(Nemours Estate),春天色彩章鹏:大模型只是少数人的机会,小模型才是大多数人的机会小园春秋 三色堇杜鹃福禄考斯坦福博士独作!大模型训练速度再翻倍,还官宣加入明星创业公司当首席科学家一场少为人知的芯片战争"AI框架"与"AI中台"在大模型训练实践中如何发挥作用?| Q推荐LoRA继任者ReLoRA登场,通过叠加多个低秩更新矩阵实现更高效大模型训练效果Meta连甩AI加速大招!首推AI推理芯片,AI超算专供大模型训练只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型投资是一场追求极致理性的游戏阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-OwlGilead公司2023年股东会议的董事会民主选举提案以后的日子4000万猫奴,见证猫舍从狂热到崩塌a16z的游戏赛道调研报告,揭示生成式AI引发的游戏革命CVPR 2023 大牛演讲:改动一行代码,PyTorch训练三倍提速!这些技术是关键!CVPR 2023 | 改动一行代码,PyTorch训练三倍提速,这些高级技术是关键博士毕业当“专职辅导员”:少数人的跳板,多数人的无奈LLM大模型训练Trick系列之拒绝采样防止AI胡说八道!OpenAI公布最新大模型训练方法,监督AI像人类一样思考改动一行代码,PyTorch训练三倍提速,这些「高级技术」是关键类GPT模型训练提速26.5%,清华朱军等人用INT4算法加速神经网络训练谷歌火力全开!新一代芯片TPU v5e炸场,大模型训练飙升5倍,成本砍半AI大模型训练背后,一条数据产业链正在形成减少内存消耗、降低大模型训练成本,ACL杰出论文作者揭秘CAME优化器国内高校首例!支持千亿参数的大模型训练Alluxio助力AI大模型训练「同在此山中」——讀顏崑陽先生《詮釋的多向視域》大模型训练太难了!DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率英伟达H100霸榜权威AI性能测试,11分钟搞定基于GPT-3的大模型训练后摩尔时代芯片发展的四堵墙,是噩梦还是机遇?!从感知到理解-融合语言模型的多模态大模型研究
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。