疯狂的 H100 显卡

2023-09-12 04:09

本文经授权转自《硅基研习社》；作者：王一川，编辑：戴老板。

2023 年 8 月 3 日，华尔街和硅谷联袂奉上了一件震撼业界的大事：让一家创业公司拿到 23 亿美元的债务融资，抵押物则是当前全球最硬的通货 ——H100 显卡。

这个大事件的主角叫做 CoreWeave，主营业务是 AI 私有云服务，简单说就是通过搭建拥有大量 GPU 算力的数据中心，来给 AI 创业公司和大型商业客户提供算力基础设施。CoreWeave 累计融资 5.8 亿美金，目前是 B 轮，估值 20 亿美元。

CoreWeave 成立于 2016 年，创始人是三个华尔街大宗商品交易员。刚开始公司的主营业务只有一个：挖矿，采购大量 GPU 来组建矿机中心，尤其是在币圈低潮时，公司会逆周期囤大量显卡，也因此跟英伟达建立了铁杆的革命友谊。

CoreWeave 三位联合创始人

2019 年，CoreWeave 开始把这些矿机改造成企业级数据中心，向客户提供 AI 云服务，刚开始的生意也不温不火，但 ChatGPT 诞生之后，大模型的训练和推理每天都在消耗大量算力，已经拥有数万张显卡（当然未必是最新型号）的 CoreWeave 嗖的一下起飞，门口挤满了客户和风投。

但令人感到蹊跷的是：CoreWeave 累计一共只融到了 5.8 亿美金，账面 GPU 的净值不会超过 10 亿美元，甚至公司整体估值也只有 20 亿美元，但为何却能通过抵押借到 23 亿美元呢？一向精于算计、热衷对抵押物价值膝盖斩的华尔街，为何如此慷慨呢？

原因极有可能是：CoreWeave 虽然账上还没这么多显卡，但它拿到了英伟达的供货承诺，尤其是 H100。

CoreWeave 跟英伟达的铁杆关系已经是硅谷公开的秘密。这种铁杆根源于 CoreWeave 对英伟达的毫无二心的忠诚和支持 —— 只用英伟达的卡、坚决不自己造芯、显卡卖不动时帮英伟达囤卡。对黄仁勋来说，这种关系的含金量，远超跟微软、Google 和特斯拉的那些塑料友情。

因此，尽管英伟达 H100 十分紧缺，英伟达还是把大量新卡分配给了 CoreWeave，甚至不惜限制对亚马逊和谷歌等大厂的供应。黄仁勋在电话会议里夸赞：「一批新的 GPU 云服务提供商会崛起，其中最著名的是 CoreWeave，他们做得非常好。」

而在喜提 23 亿美金的一周前，CoreWeave 就已对外宣称，将耗资 16 亿美元在德州建立一个占地面积 42,000 平方米的数据中心。仅凭借跟英伟达之间的关系和优先配货权，CoreWeave 就可以把建数据中心的钱从银行里借出来 —— 这种模式，让人想起了拿地后立马找银行贷款的地产商。

所以可以这样说：当下一份 H100 的供货承诺，堪比房地产黄金时代的一纸土地批文。

一卡难求的 H100

今年 4 月在接受采访时，马斯克抱怨道 [2]：「现在似乎连狗都在买 GPU。」

很讽刺的是，特斯拉早在 2021 年就发布了自研的 D1 芯片，由台积电代工，采用 7nm 工艺，号称能替代当时英伟达主流的 A100。但 2 年过去了，英伟达推出了更为强大的 H100，而特斯拉的 D1 没有后续迭代，因此当马斯克试图组建自家的人工智能公司时，还是得乖乖地跪在黄老爷门前求卡。

H100 在去年 9 月 20 日正式推出，由台积电 4N 工艺代工。相较于前任 A100，H100 单卡在推理速度上提升 3.5 倍，在训练速度上提升 2.3 倍；如果用服务器集群运算的方式，训练速度更是能提高到 9 倍，原本一个星期的工作量，现在只需要 20 个小时。

GH100 架构图

相比 A100，H100 的单卡价格更贵，大约是 A100 的 1.5～2 倍左右，但训练大模型的效率却提升了 200%，这样这算下来的「单美元性能」更高。如果搭配英伟达最新的高速连接系统方案，每美元的 GPU 性能可能要高出 4-5 倍，因此受到客户疯狂追捧。

抢购 H100 的客户，主要分成三类：

第一类是综合型云计算巨头，比如微软 Azure、谷歌 GCP 和亚马逊 AWS 这样的云计算巨头。他们的特点是财大气粗，动辄就想「包圆」英伟达的产能，但每家也都藏着小心思，对英伟达的近垄断地位感到不满，暗地里自己研发芯片来降低成本。

第二类是独立的云 GPU 服务商，典型公司如前文提到的 CoreWeave，以及 Lambda、RunPod 等。这类公司算力规模相对较小，但能够提供差异化的服务，而英伟达对这类公司也是大力扶持，甚至直接出钱投资了 CoreWeave 和 Lambda，目的很明确：给那些私自造芯的巨头们上眼药。

第三类是自己在训练 LLM（大语言模型）的大小公司。既包括 Anthropic、Inflection、Midjourney 这种初创公司，也有像苹果、特斯拉、Meta 这样的科技巨头。它们通常一边使用外部云服务商的算力，一边自己采购 GPU 来自建炉灶 —— 有钱的多买，没钱的少买，主打一个丰俭由人。

在这三类客户中，微软 Azure 至少有 5 万张 H100，谷歌手上大概有 3 万张，Oracle 大概有 2 万张左右，而特斯拉和亚马逊手上也至少拿有 1 万张左右，CoreWeave 据称有 3.5 万张的额度承诺（实际到货大概 1 万）。其他的公司很少有超过 1 万张的。

这三类客户总共需要多少张 H100 呢？根据海外机构 GPU Utils 的预测，H100 当前需求大概 43.2 万张。其中 OpenAI 需要 5 万张来训练 GPT-5，Inflection 需求 2.2 万张，Meta 则是 2.5 万张（也有说法是 10 万张），四大公有云厂商每家都需要至少 3 万张，私有云行业则是 10 万张，而其他的小模型厂商也有 10 万张的需求 [3]。

英伟达 2023 年的 H100 出货量大概在 50 万张左右，目前台积电的产能仍在爬坡，到年底 H100 一卡难求的困境便会缓解。

但长期来看，H100 的供需缺口会随着 AIGC 的应用爆发而继续水涨船高。根据金融时报的报道，2024 年 H100 的出货量将高达 150 万张 - 200 万张，相比于今年的 50 万张，提升 3-4 倍 [4]。

而华尔街的预测则更为激进：美国投行 Piper Sandler 认为明年英伟达在数据中心上的营收将超过 600 亿美元（FY24Q2：103.2 亿美元），按这个数据倒推，A+H 卡的出货量接近 300 万张。

还有更夸张的估计。某 H100 服务器最大的代工厂（市占率 70%-80%），从今年 6 月开始就陆续出货了 H100 的服务器，7 月份产能陆续爬坡。一份最近的调研显示，这家代工厂认为 2024 年 A+H 卡的出货量会在 450 万张～500 万张之间。

这对英伟达意味着「泼天的富贵」，因为 H100 的暴利程度，是其他行业人难以想象的。

比黄金更贵的显卡

为了搞清 H100 有多暴利，我们不妨把它的物料成本（Bill of Materials, BOM）彻底拆解出来。

如图所示，H100 最通用的版本 H100 SXM 采用的是台积电 CoWoS 的 7 晶粒封装，6 颗 16G 的 HBM3 芯片分列两排紧紧围绕着中间的逻辑芯片。

而这也构成了 H100 最重要的三个部分：逻辑芯片、HBM 存储芯片、CoWoS 封装，除此之外，还有诸如 PCB 板以及其他的一些辅助器件，但价值量不高。

H100 拆机图

核心的逻辑芯片尺寸是 814mm^2，产自台积电最先进的台南 18 号工厂，使用的工艺节点则是「4N」，虽然名字上是 4 打头，但实际上是 5nm+。由于 5nm 的下游，手机等领域的景气度不佳，因此台积电在保供逻辑芯片上没有任何问题。

而这块逻辑芯片是由 12 寸（面积 70,695mm^2）的晶圆切割产生，理想状态下可以切出 86 块，但考虑到「4N」线 80% 的良率以及切割损耗，最后一张 12 寸晶圆只能切出 65 块的核心逻辑芯片。

这一块核心逻辑芯片的成本是多少呢？台积电 2023 年一片 12 寸的晶圆对外报价是 13,400 美元，所以折算下来单块大概在 200 美元左右。

接下来是 6 颗 HBM3 芯片，目前由 SK 海力士独供，这家起源于现代电子的企业，2002 年几乎要委身与美光，凭借着政府的输血以及逆周期上产能的战略，如今在 HBM 的量产技术上至少领先美光 3 年（美光卡在 HBM2e，海力士 2020 年中期量产)。

HBM 的具体价格，各家都讳莫如深，但根据韩媒的说法，HBM 目前是现有 DRAM 产品的 5-6 倍。而现有的 GDDR6 VRAM 的价格大概是每 GB3 美元，如此推算 HBM 的价格是在每 GB 15 美元左右。那一张 H100 SXM 在 HBM 上的花费就是 1500 美元。

虽然今年 HBM 的价格不断上涨，英伟达、Meta 的高管也亲赴海力士「督工」，可下半年三星的 HBM3 就能逐步量产出货，再加上韩国双雄祖传的扩张血脉，想必到了明年 HBM 就不再是瓶颈。

而真正是瓶颈的则是台积电的 CoWoS 封装，这是一种 2.5D 的封装工艺。相比于直接在芯片上打孔（TSV）、布线（RDL）的 3D 封装，CoWoS 可以提供更好的成本、散热以及吞吐带宽，前两者对应 HBM，后两者则是 GPU 的关键。

所以想要高存力、高算力的芯片，CoWoS 就是封装上的唯一解。英伟达、AMD 两家的四款 GPU 都用上了 CoWoS 就是最好的佐证。

CoWoS 的成本是多少呢？台积电 22 年财报披露了 CoWoS 工艺占总营收 7%，于是海外分析师 Robert Castellano 根据产能，以及裸晶的尺寸推算出封装一块 AI 芯片能给台积电带来 723 美元的营收 [6]。

因此把上述最大的三块成本项加总，合计在 2,500 美元左右，其中台积电占了 $1,000（逻辑芯片 + CoWoS）左右，SK 海力士占了 1500 美金（未来三星肯定会染指），再算上 PCB 等其他材料，整体物料成本不超过 3000 美金。

那 H100 卖多少钱呢？35000 美金，直接加了一个零，毛利率超过 90%。过去 10 年英伟达毛利率大概在 60% 上下，现在受高毛利的 A100/A800/H100 的拉动，今年 Q2 英伟达的毛利率已经站上了 70%。

这有点反常识：英伟达严重依赖台积电的代工，后者地位无人撼动，甚至是唯一能卡英伟达脖子的核心环节。但这么一块 3.5 万美金的卡，制造它的台积电只能拿 1000 美金，而且只是收入，不是利润。

不过，用毛利率来定义暴利，对于芯片公司意义不大，要是从沙子开始算，那毛利率更高。一张 4N 工艺的 12 寸晶圆，台积电卖给谁都差不多是 1.5 万美金一片，英伟达能加个零卖给客户，自然有其诀窍。

这个诀窍的秘密在于：英伟达本质上，是一个伪装成硬件厂商的软件公司。

软硬一体的护城河

英伟达最强大的武器，就藏在毛利率减去净利率的那一部分。

在本轮 AI 热潮之前，英伟达的毛利率常年维持在 65% 上下，而净利率通常只有 30%。而今年 Q2 受高毛利的 A100/A800/H100 的拉动，毛利率站上 70%，净利率更是高达 45.81%。

近 3 财年英伟达 (NVIDIA) 单季度毛利率与净利率

英伟达目前在全球有超过 2 万名员工，大都是高薪的软硬件工程师，而根据美国猎聘 Glassdoor 的数据，这些岗位的平均年薪基本都高于 20 万美元 / 年。

近十个财年英伟达研发费用率

在过去的十年里，英伟达研发支出的绝对值保持着高速增长，而研发费用率稳态下也维持在 20% 以上。当然，如果某一年的终端需求爆发，比如 2017 年的深度学习、21 年的挖矿、以及今年的大语言模型，营收的分母骤然抬升，研发费用率就会短暂的跌倒 20%，相应地利润也会非线性暴增。

而在英伟达研发的这么多项目中最关键的无疑是 CUDA。

03 年为解决 DirectX 编程门槛过高的问题，Ian Buck 的团队推出了一款名为 Brook 的编程模型，这也是后来人们常说的 CUDA 的雏形。06 年 Buck 加入英伟达，并说服黄仁勋研发 CUDA [8]。

因为支持 C 语言环境下的并行计算，使得 CUDA 一跃成为工程师的首选，也让 GPU 走上了通用处理器（GPGPU）的道路。

在 CUDA 逐渐成熟之后，Buck 再次劝说黄仁勋，让英伟达未来所有的 GPU 都必须支持 CUDA。06 年 CUDA 立项，07 年推出产品，当时英伟达的年营收仅有 30 亿美元，却在 CUDA 上花费 5 亿美金，到了 17 年时，单在 CUDA 上的研发支出就已超过了百亿。

曾经有位私有云公司的 CEO 在接受采访时说过，他们也不是没想过转去买 AMD 的卡，但要把这些卡调试到正常运转至少需要两个月的时间 [3]。而为了缩短这两个月，英伟达投入上百亿走了 20 年。

芯片行业浮沉大半个世纪，从来没有一家企业像英伟达一样，既卖硬件、也卖生态，或者按黄仁勋的话来说：「卖的是准系统」。因此，英伟达对标的也的确不是芯片领域的那些先贤们，而是苹果 —— 另一家卖系统的公司。

从 07 年推出 CUDA，到成为全球最大的印钞厂，英伟达也并不是没有过对手。

08 年当时芯片届王者英特尔中断了与英伟达在集显项目上的合作，推出自己的通用处理器（GPCPU），打算在 PC 领域「划江而治」。可英伟达在随后几年的产品迭代中，硬是把自家处理器推广到太空、金融、生物医疗等需要更强大计算能力的领域，于是 10 年英特尔眼看打压无望，被迫取消了独立显卡计划。

09 年苹果的开发团队推出了 OpenCL，希望能凭借着通用性在 CUDA 身上分一杯羹。但 OpenCL 在深度学习的生态上远不如 CUDA，许多学习框架要么是在 CUDA 发布之后，才会去支持 OpenCL，要么压根不支持 OpenCL。于是在深度学习上的掉队，使得 OpenCL 始终无法触及更高附加值的业务。

15 年 AlphaGo 开始在围棋领域初露锋芒，宣告人工智能的时代已经来临。此时的英特尔为了赶上这最后一班车，把 AMD 的 GPU 装入自己的系统芯片内。这可是两家公司自上世纪 80 年代以来的首次合作。可如今 CPU 老大、老二 + GPU 老二的市值之和仅是 GPU 老大英伟达的 1/4。

从目前看来，英伟达的护城河几乎是牢不可摧。即使有不少大客户笑里藏刀，私下里在研发自己的 GPU，但凭借着庞大的生态和快速的迭代，这些大客户也无法撬动帝国的裂缝，特斯拉就是明证。英伟达的印钞机生意，在可见的未来还会持续。

可能唯一让黄仁勋萦绕乌云的地方，便是那个客户众多、需求旺盛但 H100 卖不进去、但人家又在咬牙攻坚的地方 —— 这个地方全世界只有一个。

全文完，感谢您的阅读。

参考资料：

[1] Crunchbase

[2] ‘Everyone and Their Dog is Buying GPUs,’ Musk Says as AI Startup Details Emerge-tom’s HARDWARE

[3] Nvidia H100 GPUs: Supply and Demand-GPU Utils

[4] Supply chain shortages delay tech sector’s AI bonanza，FT

[5] AI Capacity Constraints – CoWoS and HBM Supply Chain-DYLAN PATEL, MYRON XIE, AND GERALD WONG，Semianalysis

[6] Taiwan Semiconductor: Significantly Undervalued As Chip And Package Supplier To Nvidia-Robert Castellano，Seeking Alpha

[7] 芯片战争，余盛

[8] What is CUDA? Parallel programming for GPUs-Martin Heller，InfoWorld

[9] NVIDIA DGX H100 User Guide

点击「在看」

是对我们最大的鼓励

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章