大模型时代,国产GPU加速「狂飙」|Chat AI
文|杨逍、真梓
编辑|石亚琼
封面来源|视觉中国
人工智能已然掀起新一次产业浪潮。
近半月以来,人工智能领域大模型的消息层出不穷地传出。
OpenAI出乎意料地推出大型多模态模型GPT-4;百度“文心一言”如约上线,在展示中呈现了文心一言在文学创作、数理逻辑推算、多模态生产等多元能力。
腾讯总裁刘炽平表示会持续优化混元AI大模型;字节则传出了前达摩院大模型 M6 带头人入职,并参与语言生成大模型研发的消息。
大模型被认为有着带来产业革命的力量,能为行业带来切实的生产力变革。
谷歌率先宣布开放PaLM大模型的API,并将生成式AI功能用于各种应用程序;微软紧跟其后,宣布推出 Copilot AI产品,表明GPT-4等模型已具备被引入生产工具的稳定性。Adobe也宣布将与英伟达合作 ,探索将大模型能力引入产品中。
一个人工智能的新时代即将展开。人工智能领域的创业热情被点燃,多位大佬官宣入局大模型赛道。
创新工场CEO李开复、前搜狗CEO王小川、前京东AI掌门人周伯文、出门问问创始人李志飞,阿里技术副总裁贾扬清,这些声名赫赫的大佬,正一齐踏入大模型赛道的创业河流。
然而,大模型的发展有算法、算力、数据三大重要因素,算力是大模型训练的重要能量引擎,也是目前国内发展大模型产业的一大壁垒。
芯片能力直接影响着高算力训练效果和速度,这背后都是钱。芯片拥有数量的多少,也成为行业人士判断企业大模型能力的重要指标。
在刚刚结束的GTC大会期间,英伟达不负众望,推出了适用于ChatGPT的专用GPU,可以将推理速度提升10倍。
此外,针对中国用户,英伟达还按照A800操作模式(A100芯片的降维版本),推出了完全符合出口规定的H100的降维版本芯片,具体参数并未公布。
然后,无论是此前针对中国的A800,还是H100中国版本,都和国外市场可使用的原版芯片存在差距。
寻找A100
OpenAI ChatGPT大模型能有今日风光,英伟达的A100功不可没。大模型的训练需要庞大的算力资源,GPU是大模型的最佳算力发动机。
为了支撑OpenAI训练出ChatGPT,微软专门为OpenAI打造了一台由数万个A100 GPU组成的AI超级计算机,此外,还有60多个数据中心、几十万张GPU可以支持ChatGPT的推理工作。
国内云计算相关专家认为,做好AI大模型的算力最低门槛是1万枚英伟达A100芯片。TrendForce研究则显示,以A100的算力为基础,GPT-3.5大模型需要高达2万枚GPU,未来商业化后可能需要超过3万枚。
据台湾电子时报报道,微软等客户对英伟达的A100/H100芯片芯片需求强烈,目前英伟达订单能见度已至2024年,高端芯片非常紧缺。
而国内拥有的超高算力芯片并不多。
据《财经十一人》报道,国内云厂商主要采用的是英伟达的中低端性能产品,拥有超过1万枚GPU的企业不超过5家,其中,拥有1万枚英伟达A100芯片的最多只有一家。
作为大模型的主要入局者,国内互联网大厂拥有天然的数据优势,自然不希望因算力被卡在大模型能带来的广阔世界和商机之外。
多位行业人士向36氪表示,自2022年9月,美国禁止向国内客户售卖英伟达A100、H100和AMD的MI250人工智能芯片后,国内大厂就开始大举囤芯片。
一位为企业采购算力的从业者告诉36氪,有厂家自去年下半年起就持续在市场中寻觅能拆出A100的各类整机产品,目的仅是获得GPU芯片。“机子太多,存放的地方都不够用。”
有接近百度的人士告诉36氪,百度拥有部分A100芯片,同时部署了少量昆仑芯。
而另一家较早推出大模型的企业,在市面上抢芯的动作颇为激进,“几乎达到人尽皆知的程度”。
英伟达曾申请在2023年3月1日前,为A100的美国客户提供所需的出口支持。
如今期限已过, A100芯片的获取通道被锁死。英伟达特意为中国客户提供的降维版本GPU A800成为最叫卖的产品。此外,在3月的GTC大会上,英伟达发言人证实,将面向中国市场,推出符合管制要求的降维H100产品。
与A100相比,A800的计算性能没有发生改变,但是它的数据传输速度被限制了,功耗增加了。换句话说,A800获得数据的速度变慢了,且使用起来更费电了,但,它的计算速度仍然优秀。
目前,A800 80GB的显卡在京东上的售价达到了89999元,部分店铺甚至卖到了93999元,甚至超过了A100之前的价格。
超算中心建设成本极高,除百度、华为等极少数公司会自行建设超算力中心,更多的企业通过租用超算中心算力的方式入局。
在ChatGPT引领AI热潮后,数据中心的A100算力租用价格迅速上涨。
零散的算力资源已达到一张卡每小时10元,哪怕相对便宜的批量化算力资源,也涨价近20%达到一卡每小时6-7元。就连A800的算力资源也变得紧缺起来,需要提前预定。
一位数据标注从业者告诉36氪:“在飞天平台,现在想预定1000块A100,一定是没有的,如果想预定100块A100的算力,那可以排队试试。”
如果,连A800都等不到,那使用英伟达高端GPU系列中,性能更差的V100进行训练,也不失为一种可能。
在GTC大会上,面对强劲的算力需求,英伟达还新推出了云算力平台,企业可以租用算力,谷歌、微软AZURE等云算力平台会为其提供算力支持。黄仁勋表示中国也可以采用这个平台,但需要由阿里、腾讯等企业的云平台合作提供。
一切又回到了原点。
推理侧是机会
虽然英伟达的产品可以降维使用,但国内大模型企业在训练和推理时会受到底层算力的影响。
祥峰投资管理合伙人夏志进告诉36氪:“动态来看,海外企业会推出更大的模型,下一代需要的算力资源会更大,算力未来会是一个很大的挑战。”
国产GPU芯片是否可以支撑大模型的算力需求?
大模型对于算力的需求分为两个阶段,一是训练出ChatGPT一般大模型的过程;二是将这个模型商业化的推理过程。
国产GPU可以做对信息颗粒度要求没有那么高的云端推理工作,但大多目前无法处理超高算力需求的云端训练。
燧原科技、壁仞科技、天数智芯、寒武纪等公司都推出了自己的云端GPU产品,且理论性能指标不弱。
3月17日,李彦宏也在亚布力中国企业家论坛上分享,昆仑芯片现在很适合做大模型的推理,将来会适合做训练。
登临科技联合创始人王平告诉36氪:“从现实角度来看,国内GPU新创公司的短期机会在推理侧,推理侧服务器需要采用一机多卡。登临的创新通用GPU产品Goldwasser具有更高的效率和能效比,能实现很好助力客户实现降本增效,当然降本增效,也是现在以及未来云厂商需要解决的问题。”
摩尔线程全功能GPU显卡可以完成AI模型的训练、推理、精调全流程,目前可以进行ChatGLM和GLM系列模型的推理,并且支持超大大模型的分布式推理和offload推理。
大模型训练需要处理高颗粒度的信息,对云端训练芯片的芯片处理信息的精细度和算力速度要求更高,现阶段国产GPU大多还不具备支撑大模型训练所需的能力。
不同于多媒体和图形处理的单精度浮点计算(FP32)计算需求,在超算领域,双精度浮点计算能力FP64是进行高算力计算的硬性指标。
英伟达的A100同时具备上述两类能力,而国内GPU芯片的云端训练公司,大多只能处理单精度浮点计算,如壁仞科技(通用GPU芯片BR100)、天数智芯(“智铠100”)、寒武纪(云端推理思元270)的产品在FP32的理论指标上做得不错,但没有处理FP64的能力。
根据公开消息,目前国内唯一支持FP64双精度浮点运算的只有海光推出的DCU(协处理器),但是它的性能只有A100的60%左右。
王平认为,“国内通用GPU产品的确在满足大模型训练上与国际旗舰产品存在差距,但并非不可弥补,只是此前行业在产品定义里未朝着大模型方向做设计。”
摩尔学院院长李丰告诉36氪,公司现阶段已经可以支持3亿参数量模型的训练,2022年底就提前布局了自然语言模型预训练,自研了MusaBert模型。
目前,行业从业者在做相关的探索和努力,如思考能否通过Chiplet(将芯片堆叠或者并列摆放)、先进封装的方式提高算力。
一位Chiplet领域的从业者告诉36氪,某GPU明星大厂就曾询问能否通过Chiplet的方式达到大模型所需算力。
王平也表示,“针对大模型训练市场,行业可以选择做出有特性、在某些维度性能上超过英伟达的产品。”
目前国产GPU公司都在朝着大模型领域去做布局。
昆仑芯回复36氪:“昆仑芯2代芯片相较第一代产品大幅优化了算力、互联和高性能,公司正在不断研发新的产品和技术,为ChatGPT等大模型的应用提供更佳的性能体验。”
据王平介绍,登临科技首款产品Goldwasser已规模化运用在多家行业知名企业的主营业务中,新一代Goldwasser产品针对基于Transformer的网络和生成式AI类大模型的应用在性能有大幅提升,对标国际大厂的产品有明显的能效比和性价比的优势。
燧原科技宣布对公司品牌做战略升级,要打造AIGC时代的基础设施;摩尔线程则表示将推出基于公司全功能GPU的AIGC算力平台。
软件是更高的壁垒
比起硬件性能上可接受的差异,软件适配与兼容让客户接受更难。
当大模型和应用层面的竞争拉响,从商业角度思考,采用国产AI芯片参战并不是好的选择。
从硬件性能上,使用国产AI芯片计算会比采用英伟达A100慢,在分秒必争的当下,“慢”是企业最不愿意看到的场景。
此外,哪怕能通过堆芯片的方式堆出一个算力相当的产品,从服务器运营的角度,它的主板开销、电费、运营费,以及需要考虑的功耗、散热等问题,都会大大增加数据中心的运营成本。
因为算力资源常需要以池化的形式呈现,数据中心通常更愿意采用同一种芯片,或者同一公司的不同芯片,来降低算力池化难度。
对客户而言,把国产AI芯片用起来并不容易。
算力的释放需要复杂的软硬件配合,才能将芯片的理论算力变为有效算力。国产AI芯片想要替换英伟达的GPU,需要突破CUDA生态和整个产业生态的壁垒。
摩尔线程有着自己的全功能GPU芯片,且推出了AIGC平台,李丰告诉36氪:“最难的是生态的建立,我们要兼顾很多的生态兼容性。”
先说CUDA,为了把GPU的算力能力进一步发挥,英伟达花了10年时间,投入3000多人打造了一个CUDA框架。这套框架里集成了很多调用GPU算力所需的代码,工程师可以直接使用这些代码,无须一一编写。
如果没有这套编码语言,软件工程师发挥硬件价值的难度会变得极大。一位关注基础软件的投资人告诉36氪:“没有CUDA ,调用GPU的代码会写到地老天荒,不可能所有的东西都自己写。”
尚处于创业阶段的芯片设计公司,很难在生态上投入如此大的人力财力。大多会选择兼容CUDA架构,来降低客户使用门槛。
也有部分公司会选择自研加速器,如寒武纪就构建了自己的加速平台;昆仑芯也面向开发者提供了类似英伟达CUDA的软件栈,希望打造自己的生态,也能摆脱硬件需受CUDA更新的困扰。
即使有了这个编程框架,整个产业生态上的人也很难把这个芯片用起来。
目前世界上主流的深度学习框架都有基于CUDA进行加速的,整个产业中下游软件、驱动厂家等都基于此进行适配。这构成了一个极强大的生态壁垒,就像苹果系统内部的闭环生态,和windows操作系统+上层应用软件一样。
对于企业来说,更换云端 AI 芯片要承担一定的迁移成本和风险,除非新产品存在性能优势,或者能在某个维度上提供其他人解决不了的问题,否客户更换的意愿很低。
祥峰投资管理合伙人夏志进也告诉36氪:“软件生态是好用不好用的问题,没有CUDA会提高门槛,不是不可以用,只是需要花很多额外的功夫。”
芯片需要适配硬件系统、工具链、编译器等多个层级,需要很强的适配性,否则会出现这款芯片在某个场景能跑出90%的算力,在另一场景只能跑出80%效能的情景。
即使英伟达,为了更好发挥硬件的功效,对于大客户也会提供一些人力,帮忙做软件适配调试,软硬两方仍需要针对客户做部署、调试。
对性能要求较高的大厂,还会设置专门的软件部署师对硬件进行适配,来发挥硬件的最大性能。这也是很多手机厂商会自研芯片来更好适配产品的原因。
共建生态,寻求解法
目前,国内从业者已经在构建生态上做努力。
在一个AI生态中,支撑大模型训练需求,需要底层硬件、中间深度学习平台、上层应用软件的整体适配,互相支持。
硬件对上层软件的支持情况,必须代码写出后,有人一步步躺坑,才能知道问题所在,改进硬件对软件的支持效果。
一家C轮应用型软件公司告诉36氪,自己需要对不同类型、不同版本的基础软硬件进行适配,每年花在适配上的支出超出千万元。
百度飞桨已在推动和国内芯片适配。
2022年4月时,百度飞桨已完成和包括百度昆仑芯、华为昇腾在内的22家国内外硬件厂商,31种芯片的适配和优化,基本覆盖国内主流芯片。
目前,昆仑芯和飞桨完成3级兼容性适配,登临科技和飞桨也完成2级适配,沐曦集成电路和飞桨完成1级兼容性测试。
近期,华为的MindSpore被报道和爱可生向量数据库兼容。有信息显示,沐曦之前也已加入昇思MindSpore社区。
另一个大模型领域重要玩家,智源研究院,其九鼎智算平台也在和多家国内AI芯片公司合作。
未来,大模型训练对算力的需求会越来越大。比如,科研场景或训练视频类信息,都需要更大的算力支持。
英伟达等厂商也会不断追求研发更高性能的芯片,海外企业可以购买英伟达算力更高的芯片,推动大模型训练。比如,微软已经和宣布加强和英伟达和合作,将GPU 从此前的 A100 升级到 H100。
参战大模型竞赛,算法、算力、数据环环相扣。在最卡脖子的环节,如何缩小GAP,成为一个求共解的命题。
(感谢韦世玮老师的采访支持)
36氪旗下官方公众号
👇🏻 真诚推荐你关注 👇🏻
来个“分享、点赞、在看”👇
国产GPU还差了一个软件生态
微信扫码关注该文公众号作者