大模型时代，国产GPU加速「狂飙」｜Chat AI

公众号新闻

2023-03-28 13:03

当下，推理侧是更大的机会。

文｜杨逍、真梓

编辑｜石亚琼

来源｜数字时氪（ID：digital36kr)

封面来源｜视觉中国

人工智能已然掀起新一次产业浪潮。

近半月以来，人工智能领域大模型的消息层出不穷地传出。

OpenAI出乎意料地推出大型多模态模型GPT-4；百度“文心一言”如约上线，在展示中呈现了文心一言在文学创作、数理逻辑推算、多模态生产等多元能力。

腾讯总裁刘炽平表示会持续优化混元AI大模型；字节则传出了前达摩院大模型 M6 带头人入职，并参与语言生成大模型研发的消息。

大模型被认为有着带来产业革命的力量，能为行业带来切实的生产力变革。

谷歌率先宣布开放PaLM大模型的API，并将生成式AI功能用于各种应用程序；微软紧跟其后，宣布推出 Copilot AI产品，表明GPT-4等模型已具备被引入生产工具的稳定性。Adobe也宣布将与英伟达合作，探索将大模型能力引入产品中。

一个人工智能的新时代即将展开。人工智能领域的创业热情被点燃，多位大佬官宣入局大模型赛道。

创新工场CEO李开复、前搜狗CEO王小川、前京东AI掌门人周伯文、出门问问创始人李志飞，阿里技术副总裁贾扬清，这些声名赫赫的大佬，正一齐踏入大模型赛道的创业河流。

然而，大模型的发展有算法、算力、数据三大重要因素，算力是大模型训练的重要能量引擎，也是目前国内发展大模型产业的一大壁垒。

芯片能力直接影响着高算力训练效果和速度，这背后都是钱。芯片拥有数量的多少，也成为行业人士判断企业大模型能力的重要指标。

在刚刚结束的GTC大会期间，英伟达不负众望，推出了适用于ChatGPT的专用GPU，可以将推理速度提升10倍。

此外，针对中国用户，英伟达还按照A800操作模式（A100芯片的降维版本），推出了完全符合出口规定的H100的降维版本芯片，具体参数并未公布。

然后，无论是此前针对中国的A800，还是H100中国版本，都和国外市场可使用的原版芯片存在差距。

国外芯片是否能够撑起大模型的算力需求，成为行业内备受关注的问题。

寻找A100

OpenAI ChatGPT大模型能有今日风光，英伟达的A100功不可没。大模型的训练需要庞大的算力资源，GPU是大模型的最佳算力发动机。

为了支撑OpenAI训练出ChatGPT，微软专门为OpenAI打造了一台由数万个A100 GPU组成的AI超级计算机，此外，还有60多个数据中心、几十万张GPU可以支持ChatGPT的推理工作。

国内云计算相关专家认为，做好AI大模型的算力最低门槛是1万枚英伟达A100芯片。TrendForce研究则显示，以A100的算力为基础，GPT-3.5大模型需要高达2万枚GPU，未来商业化后可能需要超过3万枚。

据台湾电子时报报道，微软等客户对英伟达的A100/H100芯片芯片需求强烈，目前英伟达订单能见度已至2024年，高端芯片非常紧缺。

而国内拥有的超高算力芯片并不多。

据《财经十一人》报道，国内云厂商主要采用的是英伟达的中低端性能产品，拥有超过1万枚GPU的企业不超过5家，其中，拥有1万枚英伟达A100芯片的最多只有一家。

作为大模型的主要入局者，国内互联网大厂拥有天然的数据优势，自然不希望因算力被卡在大模型能带来的广阔世界和商机之外。

多位行业人士向36氪表示，自2022年9月，美国禁止向国内客户售卖英伟达A100、H100和AMD的MI250人工智能芯片后，国内大厂就开始大举囤芯片。

一位为企业采购算力的从业者告诉36氪，有厂家自去年下半年起就持续在市场中寻觅能拆出A100的各类整机产品，目的仅是获得GPU芯片。“机子太多，存放的地方都不够用。”

有接近百度的人士告诉36氪，百度拥有部分A100芯片，同时部署了少量昆仑芯。

而另一家较早推出大模型的企业，在市面上抢芯的动作颇为激进，“几乎达到人尽皆知的程度”。

英伟达曾申请在2023年3月1日前，为A100的美国客户提供所需的出口支持。

如今期限已过， A100芯片的获取通道被锁死。英伟达特意为中国客户提供的降维版本GPU A800成为最叫卖的产品。此外，在3月的GTC大会上，英伟达发言人证实，将面向中国市场，推出符合管制要求的降维H100产品。

与A100相比，A800的计算性能没有发生改变，但是它的数据传输速度被限制了，功耗增加了。换句话说，A800获得数据的速度变慢了，且使用起来更费电了，但，它的计算速度仍然优秀。

目前，A800 80GB的显卡在京东上的售价达到了89999元，部分店铺甚至卖到了93999元，甚至超过了A100之前的价格。

超算中心建设成本极高，除百度、华为等极少数公司会自行建设超算力中心，更多的企业通过租用超算中心算力的方式入局。

在ChatGPT引领AI热潮后，数据中心的A100算力租用价格迅速上涨。

零散的算力资源已达到一张卡每小时10元，哪怕相对便宜的批量化算力资源，也涨价近20%达到一卡每小时6-7元。就连A800的算力资源也变得紧缺起来，需要提前预定。

一位数据标注从业者告诉36氪：“在飞天平台，现在想预定1000块A100，一定是没有的，如果想预定100块A100的算力，那可以排队试试。”

如果，连A800都等不到，那使用英伟达高端GPU系列中，性能更差的V100进行训练，也不失为一种可能。

在GTC大会上，面对强劲的算力需求，英伟达还新推出了云算力平台，企业可以租用算力，谷歌、微软AZURE等云算力平台会为其提供算力支持。黄仁勋表示中国也可以采用这个平台，但需要由阿里、腾讯等企业的云平台合作提供。

一切又回到了原点。

推理侧是机会

虽然英伟达的产品可以降维使用，但国内大模型企业在训练和推理时会受到底层算力的影响。

祥峰投资管理合伙人夏志进告诉36氪：“动态来看，海外企业会推出更大的模型，下一代需要的算力资源会更大，算力未来会是一个很大的挑战。”

国产GPU芯片是否可以支撑大模型的算力需求？

大模型对于算力的需求分为两个阶段，一是训练出ChatGPT一般大模型的过程；二是将这个模型商业化的推理过程。

国产GPU可以做对信息颗粒度要求没有那么高的云端推理工作，但大多目前无法处理超高算力需求的云端训练。

燧原科技、壁仞科技、天数智芯、寒武纪等公司都推出了自己的云端GPU产品，且理论性能指标不弱。

3月17日，李彦宏也在亚布力中国企业家论坛上分享，昆仑芯片现在很适合做大模型的推理，将来会适合做训练。

登临科技联合创始人王平告诉36氪：“从现实角度来看，国内GPU新创公司的短期机会在推理侧，推理侧服务器需要采用一机多卡。登临的创新通用GPU产品Goldwasser具有更高的效率和能效比，能‍‍实现很好助力客户实现降本增效，当然降本增效，也是现在以及未来云厂商需要解决的问题。”

摩尔线程全功能GPU显卡可以完成AI模型的训练、推理、精调全流程，目前可以进行ChatGLM和GLM系列模型的推理，并且支持超大大模型的分布式推理和offload推理。

大模型训练需要处理高颗粒度的信息，对云端训练芯片的芯片处理信息的精细度和算力速度要求更高，现阶段国产GPU大多还不具备支撑大模型训练所需的能力。

不同于多媒体和图形处理的单精度浮点计算（FP32）计算需求，在超算领域，双精度浮点计算能力FP64是进行高算力计算的硬性指标。

英伟达的A100同时具备上述两类能力，而国内GPU芯片的云端训练公司，大多只能处理单精度浮点计算，如壁仞科技（通用GPU芯片BR100）、天数智芯（“智铠100”）、寒武纪（云端推理思元270）的产品在FP32的理论指标上做得不错，但没有处理FP64的能力。

根据公开消息，目前国内唯一支持FP64双精度浮点运算的只有海光推出的DCU（协处理器），但是它的性能只有A100的60%左右。

王平认为，“国内通用GPU产品的确在满足大模型训练上与国际旗舰产品存在差距，但并非不可弥补，只是此前行业在产品定义里未朝着大模型方向做设计。”

摩尔学院院长李丰告诉36氪，公司现阶段已经可以支持3亿参数量模型的训练，2022年底就提前布局了自然语言模型预训练，自研了MusaBert模型。

目前，行业从业者在做相关的探索和努力，如思考能否通过Chiplet（将芯片堆叠或者并列摆放）、先进封装的方式提高算力。

一位Chiplet领域的从业者告诉36氪，某GPU明星大厂就曾询问能否通过Chiplet的方式达到大模型所需算力。

王平也表示，“针对大模型训练市场，行业可以选择做出有特性、在某些维度性能上超过英伟达的产品。”

目前国产GPU公司都在朝着大模型领域去做布局。

昆仑芯回复36氪：“昆仑芯2代芯片相较第一代产品大幅优化了算力、互联和高性能，公司正在不断研发新的产品和技术，为ChatGPT等大模型的应用提供更佳的性能体验。”

据王平介绍，登临科技首款产品Goldwasser已规模化运用在多家行业知名企业的主营业务中，新一代Goldwasser产品针对基于Transformer的网络和生成式AI类大模型的应用在性能有大幅提升，对标国际大厂的产品有明显的能效比和性价比的优势。

燧原科技宣布对公司品牌做战略升级，要打造AIGC时代的基础设施；摩尔线程则表示将推出基于公司全功能GPU的AIGC算力平台。

软件是更高的壁垒

比起硬件性能上可接受的差异，软件适配与兼容让客户接受更难。

当大模型和应用层面的竞争拉响，从商业角度思考，采用国产AI芯片参战并不是好的选择。

从硬件性能上，使用国产AI芯片计算会比采用英伟达A100慢，在分秒必争的当下，“慢”是企业最不愿意看到的场景。

此外，哪怕能通过堆芯片的方式堆出一个算力相当的产品，从服务器运营的角度，它的主板开销、电费、运营费，以及需要考虑的功耗、散热等问题，都会大大增加数据中心的运营成本。

因为算力资源常需要以池化的形式呈现，数据中心通常更愿意采用同一种芯片，或者同一公司的不同芯片，来降低算力池化难度。

对客户而言，把国产AI芯片用起来并不容易。

算力的释放需要复杂的软硬件配合，才能将芯片的理论算力变为有效算力。国产AI芯片想要替换英伟达的GPU，需要突破CUDA生态和整个产业生态的壁垒。

摩尔线程有着自己的全功能GPU芯片，且推出了AIGC平台，李丰告诉36氪：“最难的是生态的建立，我们要兼顾很多的生态兼容性。”

先说CUDA，为了把GPU的算力能力进一步发挥，英伟达花了10年时间，投入3000多人打造了一个CUDA框架。这套框架里集成了很多调用GPU算力所需的代码，工程师可以直接使用这些代码，无须一一编写。

如果没有这套编码语言，软件工程师发挥硬件价值的难度会变得极大。一位关注基础软件的投资人告诉36氪：“没有CUDA ，调用GPU的代码会写到地老天荒，不可能所有的东西都自己写。”

尚处于创业阶段的芯片设计公司，很难在生态上投入如此大的人力财力。大多会选择兼容CUDA架构，来降低客户使用门槛。

也有部分公司会选择自研加速器，如寒武纪就构建了自己的加速平台；昆仑芯也面向开发者提供了类似英伟达CUDA的软件栈，希望打造自己的生态，也能摆脱硬件需受CUDA更新的困扰。

即使有了这个编程框架，整个产业生态上的人也很难把这个芯片用起来。

目前世界上主流的深度学习框架都有基于CUDA进行加速的，整个产业中下游软件、驱动厂家等都基于此进行适配。这构成了一个极强大的生态壁垒，就像苹果系统内部的闭环生态，和windows操作系统+上层应用软件一样。

对于企业来说，更换云端 AI 芯片要承担一定的迁移成本和风险，除非新产品存在性能优势，或者能在某个维度上提供其他人解决不了的问题，否客户更换的意愿很低。

祥峰投资管理合伙人夏志进也告诉36氪：“软件生态是好用不好用的问题，没有CUDA会提高门槛，不是不可以用，只是需要花很多额外的功夫。”

芯片需要适配硬件系统、工具链、编译器等多个层级，需要很强的适配性，否则会出现这款芯片在某个场景能跑出90%的算力，在另一场景只能跑出80%效能的情景。

即使英伟达，为了更好发挥硬件的功效，对于大客户也会提供一些人力，帮忙做软件适配调试，软硬两方仍需要针对客户做部署、调试。

对性能要求较高的大厂，还会设置专门的软件部署师对硬件进行适配，来发挥硬件的最大性能。这也是很多手机厂商会自研芯片来更好适配产品的原因。

共建生态，寻求解法

目前，国内从业者已经在构建生态上做努力。

在一个AI生态中，支撑大模型训练需求，需要底层硬件、中间深度学习平台、上层应用软件的整体适配，互相支持。

硬件对上层软件的支持情况，必须代码写出后，有人一步步躺坑，才能知道问题所在，改进硬件对软件的支持效果。

一家C轮应用型软件公司告诉36氪，自己需要对不同类型、不同版本的基础软硬件进行适配，每年花在适配上的支出超出千万元。

百度飞桨已在推动和国内芯片适配。

2022年4月时，百度飞桨已完成和包括百度昆仑芯、华为昇腾在内的22家国内外硬件厂商，31种芯片的适配和优化，基本覆盖国内主流芯片。

目前，昆仑芯和飞桨完成3级兼容性适配，登临科技和飞桨也完成2级适配，沐曦集成电路和飞桨完成1级兼容性测试。

近期，华为的MindSpore被报道和爱可生向量数据库兼容。有信息显示，沐曦之前也已加入昇思MindSpore社区。

另一个大模型领域重要玩家，智源研究院，其九鼎智算平台也在和多家国内AI芯片公司合作。

未来，大模型训练对算力的需求会越来越大。比如，科研场景或训练视频类信息，都需要更大的算力支持。

英伟达等厂商也会不断追求研发更高性能的芯片，海外企业可以购买英伟达算力更高的芯片，推动大模型训练。比如，微软已经和宣布加强和英伟达和合作，将GPU 从此前的 A100 升级到 H100。

参战大模型竞赛，算法、算力、数据环环相扣。在最卡脖子的环节，如何缩小GAP，成为一个求共解的命题。

（感谢韦世玮老师的采访支持）

36氪旗下官方公众号

👇🏻 真诚推荐你关注 👇🏻

来个“分享、点赞、在看”👇

国产GPU还差了一个软件生态

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章