卡住“英伟达的脖子”,他们卖爆了!
作为“掘金买铲”逻辑的核心受益者,英伟达创纪录的业绩,成了撑起生成式AI行情的信心支柱。
然而,隐匿于出色业绩背后,更关键的问题是,由于产能受限,英伟达无法满足市场对GPU的需求,8月曾有媒体报道,H100订单已经排队到了明年Q1甚至Q2。
根据GPU Utils的推测,保守估计,英伟达GPU潜在订单总额可能超过200亿美元,旗舰GPU H100的供给缺口高达43万张。
英伟达CEO黄仁勋也直言:
“我们目前的出货量远远不能满足需求。”
老黄的苦衷,就在于卡住英伟达脖子的两项关键技术——CoWoS封装和HBM内存。
SK海力士和台积电 卡英伟达脖子的幕后玩家
去年9月推出的H100,是英伟达产品矩阵中最先进的GPU。
相较于前任A100,它的价格翻了1.5-2倍左右,但性能却有了质的飞跃:推理速度提升3.5倍,在训练速度提升2.3倍;如果用伺服器丛集运算的方式,训练速度更是能提高到9倍。在LLM训练中,它能让原本一个星期的工作量,缩短为20个小时。
一块英伟达H100,主要由三个部分构成:中心的H100裸片两侧各有三个HBM堆栈,最外层则是台积电的2.5D CoWoS封装框。
三个部件里,核心的逻辑芯片供应是最简单的,它主要产自台积电台南18号工厂,使用4N工艺节点(实际是5nm+)。由于5nm+下游的PC、智能手机和非AI相关数据中心芯片市场疲软,目前台积电5nm+产能利用率不到70%。因此逻辑芯片供应没有问题。
英伟达最主要的供应缺口,来自逻辑芯片两侧的6块HBM(High Bandwidth Memory,高带宽内存),和把逻辑芯片、HBM连接起来的CoWoS封装(Chip on wafer on Substrate,芯片、晶圆、基板封装)。
HBM是一种基于3D堆叠工艺的DRAM内存芯片。其技术原理,就是将多个DDR芯片,垂直堆叠在一起,通过硅通孔(TSV)和微凸块(μBmps)技术,把芯片相互连接,从而突破了现有的性能限制,大大提高了存储容量,实现更高带宽、更高位宽、更低功耗、更小尺寸的DDR组合阵列。
内存芯片对GPU性能至关重要,尤其是训练AI所用的高性能GPU。推理和训练工作负载是内存密集型任务。随着AI模型中参数数量的指数级增长,仅权重一项就将模型大小推高到了TB级。因此,从内存中存储和检索训练和推理数据的能力决定了GPU性能的上限。AI大模型和应用越多,越有利于HBM制造商。
从整体HBM市场来看,两大韩国存储巨头SK海力士及三星占绝对垄断地位,二者合计市占率在90%左右。
英伟达H100上面使用的HBM3由SK海力士独家供应,这是目前最先进的HBM产品。
HBM3工艺复杂、成本高昂、产能有限,2022年,在整个HBM市场中,HBM3仅占约8%的市场份额。作为全球唯一有能力量产HBM3的公司,SK海力士牢牢卡住了英伟达H100的脖子;而前代GPU A100/A800以及AMD的MI200使用的则是落后一代的HBM2E技术。
不过,当前存储芯片业界正处于HBM2E向HBM3换代的过程中。据Trendforce数据,预计到2024年,HBM3市占率将超过60%,三星、美光等存储芯片厂都在积极布局,都对SK海力士的市场份额虎视眈眈。
而先进封装则是一项与HBM内存相辅相成的技术——要用HBM堆栈,必须用先进封装把内存和GPU连接起来。
H100上使用的台积电CoWoS先进封装,是一项2.5D封装技术。
主流的2D封装方案,是在基板(Substrate)的表面水平安装所有芯片和无源器件的集成方式,类似于平面的拼图。
摩尔定律见顶 先进封装将成为主流
卡英伟达脖子的厂商已经赚翻了
根据我们的代工厂供应链检查,单个CoWoS-S晶圆(及相关工艺)的售价为6,000-12,000美元,具体取决于客户/项目的规模和设计复杂性。根据台积电在Q2财报会议上公开的信息,预计2023年总收入的6-7%将来自先进封装和测试。
我们估计CoWoS今年可能为台积电贡献约10亿美元的收入。由于台积电不断加码CoWoS产能(根据台积电Q2财报电话会上提供的数据,产能将在2024年翻一番),以及当前强劲的AI芯片需求,这一数字可能会进一步增长。因此,我们预计2023-2027年台积电CoWoS收入的CAGR将达到40%。
觉得好看,请点“在看”
微信扫码关注该文公众号作者