深度| GPU国产替代潮,无路可退,也没有人想投降
邮箱|[email protected]
【代题记】
“预计到2020年,国际上微电子技术水平将发展到14纳米。我们应该清醒地认识到,核心技术是买不来的,必须靠我们自己,只是一代又一代的引进新的生产能力是赶不上世界先进水平的。我们研究人员要争口气,否则发达国家在核心技术方面总是要卡我们的脖子。”
——江泽民 《努力把握微电子、软件和计算机产业的技术主动权》(2006年12月10日)
“如果因为层层加码的外部限制,就直接啥也不做了。那我当初创业是为啥呢?”一名头部国产GPU创业公司的CEO对品玩表示。
2022年10月7日,美国商务部下属的工业和安全局(BIS)发布厚达139页的对华半导体出口管制措施,影响程度被形容为“把对华为的管制扩大到整个中国半导体产业”。这次扩大的限制并非毫无征兆,8月31日,英伟达披露美国政府已对其提出出口管制要求,禁止其两款高性能GPU产品出口中国。
这些步步紧逼的限制封锁指向的一个重要目标,就是极度依赖GPU算力来发展的人工智能。
支撑人工智能的深度学习系统,可以存在于你的手机里,但更多时候需要数据中心里连在一起的机器“集群”来实现。数十个鞋盒一样大的服务器层层叠插在和人一样高的“货架”上,一排排架子再塞满仓库一般的数据中心。一颗颗GPU就运转在这些盒子一样的“仓库”里。
今天在世界各地的大“仓库”里,英伟达的GPU最多。而这些GPU的计算能力超出普通人的想象,甚至最大胆的科幻家也会感到惊奇——在2003年的科幻电影《终结者3》里,那个差点毁灭人类的超级计算机“天网”,算力为60tflops(也就是每秒6万亿次浮点计算),今天英伟达最先进的数据中心GPU H100,在特定精度下,算力达到了67 TFLOPS。
与算力一样迅猛增长的还有市场规模。根据Verified Market Research 估算,预计2027年中国大陆GPU市场规模将超过345.57亿美元。
这是一个前所未有的大市场,也是一个被封锁最深的技术领域。美国人几近疯狂的限制,想要遏制中国本土企业取得任何进步,但面对一生难遇的巨大机会,给外国巨头打工多年的华人芯片从业者没人想要再退缩。
|| “我们能够替代它”
2018年6月,出乎业界预料的,AMD 抢在英伟达之前,发布了全球首款7纳米制程的GPU芯片,命名Radeon Vega。这款产品并非针对游戏市场,而被定义为专为人工智能和深度学习设计,用于工作站和服务器。
让人工智能达到今天的水平的一大功臣是神经网络。
神经网络本质上依靠的是大量的乘法和加法:当一个网络中的“神经元“彼此激活时,它们也会对彼此的信号进行放大或者缩小,乘以一些权重数。
这个过程其实就是在计算大量的加法和乘法。而GPU最初被设计出来要解决的就是类似的工作:快速的同时做大量乘法和加法,来算出所有图形,从而生成游戏里的一个个画面。
GPU的巨大机会从游戏转移到人工智能的市场,而这块首个7纳米GPU的发布,也意味着在显卡行业追赶英伟达的AMD,把战火也引入到了人工智能行业。
这个激进的策略充满挑战,AMD的高管当时形容:“转换到7纳米制程是近几代芯片设计最困难的路程,涉及使用新CAD工具及多项设计改变。7纳米的晶体管连接方法比较特殊,AMD必须与半导体厂更加密切的合作”。
不过,在当时对这块芯片的各种讨论中,却基本没人提及负责设计它的团队。
2018年,钱军在AMD上海负责GPU SoC核心部门,带领800多人的团队,从他团队手上流片的芯片已有40多颗。在诸多国外芯片厂商中,AMD是在中国建设研发团队最积极的那个,到2018年这个研发团队规模数千人。这块全球第一枚7纳米GPU芯片,就是钱军带领的团队开发的。
而六个月后,钱军离职创业,创办中国芯片公司——瀚博半导体。
2018年的GPU和芯片创业领域,其实国产替代的概念还没有今天这么强的压迫感,也没有伴随而来的热钱。在事业蒸蒸日上的时候离开AMD,钱军自己称,就是因为自己认为自己能做的更好。
“做芯片的初创公司很长时间不受待见。投资人觉得投入大回报周期长,有很大不确定性。但2012年机器学习的概念把人工智能推向风口浪尖,人们意识到算力和需求的gap(鸿沟)非常大。2015年谷歌推出TPU后,从硅谷到中国出来了很多初创公司。2018年我看到这个机会,我觉得我应该出来做,我能把这事做好。”钱军在一次分享中说。
很快一支核心团队成型。熟悉他的人称,钱军一呼百应,本就在AMD上海公司内部研发团队里号召力强。“很多人愿意跟着他干。”
这个新组建的有平均15年GPU开发经验的团队,并没有一上来就发布和英伟达对标的GPU产品,他们先用了两年研发并交付客户流片了一款7纳米的半定制芯片,之后在2021年第一季度量产首款服务器级别的智能芯片SV100和通用加速卡VA1。简单来说,这些芯片针对AI+视频的场景开发,而这些场景目前使用的主流的芯片也是英伟达的GPU芯片。
在2022年9月的人工智能大会上,钱军又发布了已经在用户机房里用起来的新一代产品——VA10。
根据他的介绍,VA10在一些主流应用场景的算力是破纪录的,最适合各种需要高实时性的云端AI应用部署,如直播视频增强、智慧交通管理、实时语义理解等。
“这个芯片在客户端,有时候可以看得见是100%打完,而且没超功耗。这个就厉害了。业界其他的竞品有他们的想法,我觉得最终不用纸上评判,你拿出来大家去跑,也别看你有多少Tops,我有多少Tops,就看做到同样的效果,我的功耗会不会比你更好。”他说。
“想知道具体怎么做到的,我们签个NDA,可以聊聊。”钱军略开玩笑的说。
与这些枯燥的数据相比,实际上对英伟达的替代才是更直观的实力证明。在被问到对英伟达的替代效果时,钱军介绍,在一些功能场景上,“瀚博75瓦的卡就已经可以替代它150瓦的卡”。
“现在任何形式的服务器结构,我都可以有对应的产品去跟我的对手去竞争,然后替代,所以完完全全现在是个全替代。”他说。
而瀚博还在研发一款GPU,SG100。“我们很快会正式对外发布。”“有全球第一颗 7 纳米GPU和第一颗 7 纳米 GPGPU 架构 AI 芯片开发经验,而且不只是一个人有。”一名国资背景的投资方对品玩说,他们正是看中了钱军的号召力和下面成建制的团队。“相信他未来能打仗的原因是打过胜仗。”
但即便这样,瀚博的团队也不是中国GPU创业热潮之下处在聚光灯里的最亮眼明星。
中国GPU创业潮里,从背景看着实星光璀璨。由英伟达中国区前负责人张建中在2020年创立的摩尔线程,于今年3月发布了12纳米的首款GPU——苏堤;由 AMD 中国前图形研发高级总监陈维良创立的沐曦等待着首款7纳米工艺GPU产品的量产,2015年底成立的天数智芯去年3月已发布7纳米GPU—— 天垓100。其中最被津津乐道的,则是2019年成立的壁仞,它一出生就融到超过47亿元的资金,目前尚未量产产品,但今年8月正式发布了对标英伟达最精锐GPU的产品:BR100。
因为种种原因,国内对壁仞的关注也更多聚焦在了张文的身上。多个媒体讲述过这名芯片技术门外汉、原商汤科技总裁,通过一张名单拉来诸多技术高手并借此又拿到巨额融资的故事。壁仞被描述为一个资本大潮的集大成者。
但在这个故事的另一面,是华人芯片高端人才前所未有的一次整合。
多名中国和硅谷的芯片从业者表示,壁仞这家中国GPU公司因技术上新尝试而受到来自全球芯片行业的关注程度,是近年中国公司少有“享受”的待遇。
与瀚博不同,壁仞选择的路线是“一步到位”研发GPU。在8月发布BR100后,9月,壁仞出现在全球最受瞩目的芯片行业会议HotChips上,在 GPU板块,跟在英伟达,AMD和英特尔之后做了主技术分享。
“我发现BR100的架构思路很有意思,它打市场时显然不想完全沿着英伟达的思路去做。”一名硅谷芯片行业的华裔资深架构师对品玩表示。
“GPU采用多核结构,并行计算很厉害,但问题又来了,核数再多以后,数据和存储都要从一个门进出,虽然核内计算是很厉害的,但是数据和存储有瓶颈,就像我们经常说的CPU太快了,内存跟不上了,GPU的数据传输也遇到了问题,所以架构上各方面还要调整,比如说采用一些分布式的架构。”中国互联网投资基金管理公司总经理李筱强说。
我们可以把芯片设计类比为在一个固定面积的土地做城市规划:如何在有限土地上组织街区之间的大路,和一户户房屋之间的小路,决定了这个城市的最终运输效率。
而根据多个芯片设计从业者的分析,从壁仞公开的架构设计来看,它用了大量的创新来提高这个运输网络的效率。比如建设距离街区更近的停车场,并且用一种技术让这些停车场可以连通起来当作一个大停车场来调配;比如在它的两个城市之间建设足够快速的公路,从而让两个城市在人们的感受上也看起来像是同一个城市——BR 100 使用了Chiplet封装,但两个芯粒可以被软件识别为同一个GPU来运转。
当然,同时也会牺牲一些其他的性能作为代价,比如计算的精度,以及高负载下的传输瓶颈。以及,在实现Chiplet的环节,对由芯片制造厂掌握的新技术的依赖,也带来不小的不确定性。
不过,前述硅谷芯片人士认为,壁仞能带着BR100上HotChips34去分享,就是因为它的设计思路里,有些地方的确是近几年GPU行业少见的尝试——哪怕不是完全新的东西,但英伟达这些年垄断不只是市场,也让其他公司对技术路线的野心少了许多,因为试错的代价高昂。
据壁仞内部人士称,在2019年成立之初壁仞设定了自己的GPU设计出来后的算力必须达到英伟达当时产品的10倍。而2019年,英伟达处在过渡到安培架构的过程,但当今年BR100推出时,英伟达最新的产品已经是Hooper架构下的H100。不过测试数据显示,在矩阵乘法的吞吐量上,BR100的确与H100不相上下。
在GPU领域,最接近“工业标准认定”的较权威评测,是MLPerf的比赛。它由多个行业重要公司一同发起,简单来说,就是通过让各家产品来跑最主流的模型来考察它们的算力。壁仞在HotChips上分享之后,9月第一次参加MLPerf,用BR100的“小弟”BR104芯片拿下两个全球第一,分别是一个主流的自然语言理解模型和图像分类模型。
某种程度上,壁仞在今年就是全球华人芯片从业者最关注的焦点公司:一次采访中,壁仞科技CTO兼首席架构师洪洲也曾形容 “从90年代开始的20多年内成长起来的(华人)架构师,基本上都在我们这边。”
“壁仞的节奏感很好,从发布到参加HotChips再到MLPerf,和目前定的量产节点,都是按整个芯片行业的最专业的标准在做。如果最终可以在年底按计划量产,那这种把控力还是挺难的。”上述硅谷人士称。
|| “天天背着包到处跑客户”
芯片设计上有了突破,接下来的难题是芯片制造环节。
有分析指出,美国商务部的最新限制,事实上是“假定拒绝”原则,据财新梳理,“运算速度达到4800TOPS (每秒1万亿次传输)、传输力达到600GB/s(每秒1G比特传输速率)的高性能计算芯片,都将被严格限制。”而根据壁仞在HotChips的PPT介绍,其芯粒间传输速度达到896GB/s。
芯片制造厂商如台积电,一方面忌惮于美国的长臂新规,另一方面,它们也急迫需要更多样的芯片设计客户,来减少对英伟达等主要客户的依赖。这就使得其中有许多可以努力争取的空间。
在美国商务部的限制出台后,传出台积电将暂停为壁仞流片的消息。据知情人士称,壁仞的确在相关超过限制标准的芯片上开始主动做调整,寻找可以按计划继续出片的方案。
而被问到现在的影响,另外两家主要国产GPU创业公司透露,目前还没有受到直接影响,但也在从订单和客户角度去研究调整订单量和库存计划。
一位依靠台积电7纳米制程进行量产的芯片公司高管则答到:“现在片上确实有更大可能出问题,但可以肯定地说,我们以及同行都没人想退让。”
“我们这些人其实骨子里都挺骄傲的,这事我们想做成,想见证中国芯片的高光时刻”,该芯片公司高管说。
困难很大,但方法也有。在今天的国产芯片创业热潮中,一个最大的特点,是这些核心人才普遍拥有真刀真枪的流片与抢占市场的经验,他们更清楚从真正的市场需求来倒逼制造厂商有多重要,也有丰富的经验。
“快手有3.5亿的平台,每天3000多万视频的大数据,我不缺数据,也有人做算法,我只做热门视频,热门视频还要分层、还要分优先级,为什么?我算力不够。”快手一名视频算法团队技术负责人说。“我们测了瀚博VA1的卡,作为算法开发人员,说实话从算法的效果和加速程度以及功耗上,是胜过通用GPU的。”
这种来自最终用户的认可最为关键。“我自己一定会说自己的产品好,但是我们的客户来说我们的产品好,那我们的产品应该是真的好。”钱军说。
这些芯片创业公司的进展速度有时候超过了外界对他们形成印象的速度,在不少人依然用PPT公司来形容他们时,这些公司已经建立起完备的公司体系,而产品已经实打实进入一些重要客户的机房。这些真实的需求让制造厂商真切感到它们给出的订单是可持续的。
“互联网客户的导入是非常严格的。快手的机房里面,它每天7天24小时都在跑高密度的,如果不散热的话,温度你是受不了的。所以在这种强度下再跑你的芯片,如果你的芯片,软件出问题,稳定性不行的话,其实是很难做,所以进互联网数据中心,这是一个很大的护城河。如果说你能够迈进互联网,那么不管你是什么样的卡,说明方方面面从性能、视频质量甚至迁移成本,都是完胜。”
事实上,这些初创的公司,从第一天开始就花费着巨大的努力来拓展客户,走着一条app driven的路线。
据品玩了解,瀚博在组织架构上分为IP部门(自研和三方IP维护),DV部门(负责各种IP验证等工作),SOC部门(芯片从前端到后端的全流程实现),PVP部门(用市场需求指导产品),软件部门和解决方案部门(验证各种算法以及云端部署需求)等。
其中,随着更多的产品线出现,瀚博的IP部门开始使用中台的概念。很多可以互用的核心技术IP,做统一开发,内部要求这些技术IP在GPU和AI产品里都得可以工作。
这样的架构有足够的灵活度,也处处体现出结合市场需求来指导研发的思路。
而壁仞的组织架构同样围绕产品的市场需求来设计。“直接触到用户和市场需求的部门地位很高,甚至是大部分业务项目的出发点。”一名壁仞员工说。
与芯片设计环节性能对标英伟达一样,在市场拓展时,他们的对手依然是这个美国巨头。
微信扫码关注该文公众号作者