从H20到H200,国产算力差在哪儿?公众号新闻2023-12-07 14:12本文来自公众号董指导聊科技(ID:kjqdldzd)英伟达最近动作不少。先是11月上旬,向我们国内出口了特(yan)供(ge)版的H20芯片,接着一周后就又发布了面向海外的H200芯片。看得出,这次芯片命名,老黄还是花了点心思的。特供和美版,肉眼可见的十倍差距,应该会令想制裁中国的登哥十分满意。H200确实很强,H20据说也很受欢迎,那么,国内GPU就真的不行吗?差距到底在哪里?众所周知的一个差距是在“算力”方面,也就是单位时间能处理的信息。这个差距的弥补主要靠“设计和制造”。芯片制造只能步步追赶,需要设备、材料、工艺等等的综合提升;而设计方面,需要靠积累,但也已经没那么差了。比如从算力角度来看,国产一款910的产品和H20对比的话,半精度算力还比H20高呢。那差在哪里?在显性算力的背后,隐性的差距,其实是在“网络”和“存储”,或者统一而言是“带宽”。如果以厨师做饭来做比喻的话,高算力就相当于手艺精湛的大厨,能做好菜、能高效做好菜;但做菜还需要运输,比如把菜从市场买回来、以及,把菜洗好传给大厨。如果买菜很慢、或者传菜很慢,那么大厨再牛也难为无米之炊。网络和存储,就是买菜和传菜;它们就是当前限制我国算力大厨的隐性关卡。为什么会这样?又该如何破解呢?01省掉一步,更快速度特斯拉有一个超算中心Dojo,作为其智能驾驶的火力支撑。然而,特斯拉FSD V12版本的训练,却并不是依靠Dojo,而依然是英伟达。马斯克对此称,“目前遇到的最大技术困难,是需要像InfiniBand那样的高速网络连接来并行更大的算力。”提到网络连接,就得先从美国施乐说起,也就是养活了微软和苹果的那位大哥。在计算机初期,网络连接有各种标准,不容易互相通信。后来,施乐在公司内部使用了一种连接标准,就是以太网的雏形。1982年发布了以太网标准。以太网标准下,服务器之间的交互流程是应用程序的数据,先到核心内存,再送到网卡,然后通过网卡,送到另一台服务器上。所有的信息对接,都要经过内存转换,增加了CPU的负担,也增加了传输的时延。这就好比我们打车。乘客打电话给出租车公司,公司再打电话给司机;司机到了之后,也不联系乘客,而是打电话给公司,公司再打电话给乘客。好处是可靠、便于管理。但缺点也很明显,流程太长了,信息来回传递也不方便。业务量少的时候,没有问题。但一旦数据量太多、需求很多,那么,效率就会有折扣。这对于AI而言,就非常明显了。大模型就是通过大量数据的大量计算,从而产生了涌现。数据传输快一点,能力也就会更强一点。如果数据都传得很慢,怎么可能大量计算呢。于是,InfiniBand脱颖而出。1999年,InfiniBand贸易协会成立,目的就是为了“干掉”传统以太网。目标很大,敌人也很强大,抗争很艰难。以至于2002年的时候,英特尔就从这个协会里退出了,随后微软也退出了。但成立于1999年的Mellanox还在坚持,2001年还推出了首款产品。InfiniBand的特点是,数据,不经过核心内存而是直接通过网卡连接。这个模式对于数据中心而言,效果非常好用。因为数据中心的场景很固定,也没有各种需求。所以,Mellanox很快就成为了数据中心网络连接的老大,市占率一度高达80%。2013年,Mellanox还收购了硅光技术公司,让数据传输进一步加快。Mellanox的高速发展,也吸引了巨头们的关注。GPU的高速并行运算,配合高速数据传输,对于英伟达而言,可谓是:周董看到了优乐美。于是,2019年,英伟达(Nvidia)公司豪掷69亿美元,击败对手英特尔和微软(分别出价60亿和55亿美元),把Mellanox捧到了手心里。英伟达也拿到了InfiniBand这个利器,令众人看不惯又干不掉。但随着英伟达在AI领域的地位越来越显著,“反抗”也随之而来。超以太网联盟(Ultra Ethernet Consortium)在今年成立,希望用新的协议来抗争。UEC 集结了AMD、Arista、博通、思科等设备商,以及Meta、微软等云厂商。而协议的标准也比较明确,“打不过就抄过来”。显然,在网络连接端吃亏的,也不只是我们的算力公司,马斯克不也抱怨了么。谁让英伟达眼光好呢,只能等超以太网干活了。02先进封装,黄金万两传菜为什么也受限了呢?说起这个,就不得不提冯·诺依曼,一位奠定了现代计算机架构的大师,一位让无数学子重考的大师。在冯·诺依曼架构中,有“运算”、“存储”、和“输入输出”等三大类设备,也就是炒菜、存菜、传菜。冯·诺依曼架构这种架构下,存储和CPU频繁的交换数据,一下子就提高了存储的地位,也让这个架构里存在了“内存墙”。那么如何打开一扇窗呢?这就是H200/H100的另一个核心力,HBM(High Bandwidth Memory,高带宽内存)存储芯片。HBM是2014年由AMD、SK海力士共同发布的,就是用TSV硅通孔技术,把多个DRAM存储芯片堆叠起来,并与GPU、CPU或者ASIC封装在一起,从而提高容量,以及更快的并行数据处理速度。快是有一定道理的,首先,存储就是逻辑层上方,从隔壁楼到上下楼,打个招呼就行,自然方便多了,功耗也降低不少。另外,统一封装,互联上的延时也更低。效果也很显著。HBM 的基本结构:左侧彩色的 5 层结构为 HBM 封装比如一组数据显示,HBM3的带宽可以达到819 GB/s,而GDDR6的带宽最高只有96GB/s,CPU常用DDR4,带宽也只有HBM的1/10。因此,英伟达、AMD都选择了HBM技术来配合。英伟达的H200更是选择了HBM3的升级版HBM3e。HBM成各家最爱HBM产品市场份额,目前是海外独享。海力士占比50%,三星占比40%,美光占比10%。中国企业目前仍在DRAM产品领域追赶。最简单的事情,却往往最难。好比说,炒股赚钱,最简单的方法就是“低买、高卖”,但赚钱的人不足10%。HBM也是如此,虽然看图片,好像挺简单的,但实现起来,则是困难重重。首先是设计,人才是稀缺的。其次是生产。HBM芯片的生产,主流的路线是台积电的CoWoS(chip-on-wafer-on-substrate)先进封装,也是2.5D封装。先把芯片集成在一起,再封装到基板上。哪一步都不容易。好消息是华为国产GPU也可以用HBM产品,不太好的消息是最高阶的产品,我们还是拿不到。所以,面临随时可能的断供,存储芯片依然需要持续发力。03投桃报李,讲点义气无论是算力、还是网络、或者高带宽内存,其实都有一个核心要素是:用起来。比如台积电的CoWoS技术开发早期,也遭遇过“冷眼”。公司希望价格是7美分/平方毫米,但客户高通却只愿意支付1美分/平方毫米。巨大的差异,导致公司不得不开发个平替产品。幸好当时自研芯片的苹果,给了台积电机会,于是有了CoWoS工艺的成熟、普及,以及再研发。提起英伟达,一个公认的护城河便是CUDA生态。生态,意味着参与者迁移成本很高,比如开发者已经熟悉了英伟达的开发套件,再去熟悉其他公司是有难度的。就跟用惯了微信,就很难再换其他聊天工具一样。要打破生态的壁垒,核心也是要让一批人在新的环境里用起来。最近互联网圈也爆出了不小的新闻,美团、网易、阿里、字节等等公司,都启动或完成了和鸿蒙系统的适配。只有越来越多的企业支持,系统才有生存空间。当然,新生态,尤其在后起步的芯片领域,许多环节会不如成熟生态好用。但即使是英伟达,前期搭建CUDA也花费了数十年心力,顶着不小的质疑。因此,对于国产芯片的支持,难免需要一些情怀,用爱发点电。不过,对于被支持的企业,要记得投桃报李。虽然目前我国的算力,依然和海外有不小的差距。但庆幸的是,社会已经逐渐形成了共识:1美分/平方毫米,也就是7万元/平方米的芯片,比7万元/平方米的房子,更能产生持久的生产力。酷玩实验室经授权转载如需转载,请联系原作者两个不那么显性的差距微信扫码关注该文公众号作者戳这里提交新闻线索和高质量文章给我们。来源: qq点击查看作者最近其他文章