AMD的千亿晶体管芯片，叫板英伟达H100

2023-05-09 02:05

来源：内容由半导体行业观察（ID：icbank）编译自nextplatform，谢谢。

AMD在 2023 年国际消费电子展上推出了其下一代 Instinct MI300 加速器，我们有幸获得了一些动手时间，并拍摄了几张这款庞大芯片的特写照片。毫无疑问，Instinct MI300 是一个改变游戏规则的设计——这个数据中心 APU 混合了总共 13 个小芯片，其中许多是 3D 堆叠的，以创建一个具有 24 个 Zen 4 CPU 内核并融合了 CDNA 3 图形的芯片引擎和 8 堆 HBM3。总体而言，该芯片拥有 1460 亿个晶体管，是 AMD 投入生产的最大芯片。

关于这个芯片的更多信息，我们可以参考文章《AMD推出13个Chiplet，1460亿晶体管的Instinct MI300 加速器》

与许多 HPC 和 AI 系统构建者一样，我们迫不及待地想看看 AMD 的“Antares”Instinct MI300A 混合 CPU-GPU 片上系统在性能和价格方面的表现。

随着 ISC 2023 超级计算大会在几周后召开，劳伦斯利弗莫尔国家实验室的首席技术官 Bronis de Supinski将在会上发表了关于未来“El Capitan”百亿亿级系统的演讲，该系统将成为Antares GPU 的 MI300A 变体的旗舰机器，它在我们的脑海中。

因此，为了好玩，我们提取了 trust Excel 电子表格，并试图估计作为 El Capitan 系统核心的 MI300A GPU 的进给和速度可能是多少。是的，这可能是愚蠢的，考虑到 AMD 可能会在 ISC 2023 及以后更多地谈论 MI300 系列 GPU，我们最终将准确地知道这个计算引擎是如何构建的。但是很多人一直在问我们，MI300 系列是否可以与 Nvidia“Hopper”H100 GPU 加速器竞争。也许更重要的是，与将Hopper H100 GPU和72 核“Grace”Arm CPU 紧密捆绑创建的 Grace-Hopper 混合 CPU-GPU 复合体竞争时。AMD的这个产品表现如何？它将与将在 El Capitan 部署的 MI300A 进行正面交锋。

考虑到基于大型语言模型的生成 AI 应用程序的 AI 训练激增，以及 AMD 希望通过其 GPU 在 AI 训练中发挥更多作用，对 GPU 计算的强烈需求，我们认为需求将超过 Nvidia供应，这意味着尽管 Nvidia AI 软件堆栈相对于 AMD 具有巨大优势，但后者的 GPU 将获得一些 AI 供应胜利。前身“Aldebaran”GPU 已经为 AMD 赢得了一些令人印象深刻的 HPC 设计胜利，特别是在橡树岭国家实验室的“Frontier”百亿亿级系统中，其中四个双芯片 GPU 连接到定制的“Trento”Epyc CPU 以创建一个更松散耦合的混合计算引擎。（还有其他的。

人们不会比在 1990 年代末和 2000 年代初添加 Web 基础设施以使他们的应用程序现代化以在 Internet 上为他们部署接口更有耐心地在今天的工作负载中添加生成 AI。这一次的不同之处在于，数据中心并没有将自己转变为通用的 X86 计算基板，而是越来越成为一个竞争和互补架构的生态系统，这些架构交织在一起以提供整体上最好的性价比跨更广泛的工作负载。

我们对 MI300 系列还不是很了解，但在 1 月份，AMD 谈了一些关于该设备的信息。我们有该设备的图像，我们知道它的 AI 性能将是 Frontier 系统中使用的现有 MI250X GPU 加速器的 8 倍和 5 倍的每瓦 AI 性能。我们知道整个 MI300A 综合体在其六个 GPU 和两个 CPU 小芯片上有 1460 亿个晶体管。我们认为，晶体管数量的很大一部分是在四个 6 纳米的tile中实现的，这些瓦片将 CPU 和 GPU 计算元素互连，并且在它们上面实现了 Infinity Cache。很难说这个缓存用了多少晶体管，但我们期待着找出答案。

顺便说一下，我们认为 MI300A 被称为 AMD 旗舰并行计算引擎的 APU 版本——意思是在一个封装上结合了 CPU 和 GPU 内核。这意味着将有非 APU、仅 GPU 的 Antares GPU 版本，可能在这四个互连和缓存芯片之上最多有八个 GPU 小芯片，如下所示：

用今年早些时候 AMD 的语言来说非常精确，8 倍和 5 倍的数字是基于对 MI250X GPU 的测试和对 MI300A 复合体的 GPU 部分的建模性能。非常具体地说，这就是 AMD 所说的：“AMD 性能实验室在 2022 年 6 月 4 日对当前规格进行的测量和/或对估计交付的 FP8 浮点性能的估计，其中结构稀疏性支持 AMD Instinct MI300 与 MI250X FP16（ 306.4 基于峰值理论浮点性能的 80% 估计交付的 TFLOPS）。MI300 的表现基于初步估计和预期。最终表现可能会有所不同。”

因此，这是我们的表格，根据 AMD 到目前为止所说的情况，估计 MI300A 的馈送和速度可能是什么样子，与往常一样，大量猜测以粗体红色斜体显示。

如果 MI250X 的 FP16 性能是 383 teraflops，那么这意味着 8X 倍数，包括降档到 FP8 数据格式和处理，具有稀疏支持的 MI300A（提供 8X 倍数的另外 2 倍）可以推动 3,064 teraflops 峰值。如果 MI250X 的额定功率为 560 瓦，那么 MI300A 的 GPU 部分必须以 900 瓦的功率运行才能产生 AMD 所说的每瓦性能提高 5 倍。

如果以上所有这些都是正确的，那么 MI300A CPU 复合体的性能必须是 MI250X 的 4 倍。如果您假设时钟速度保持在 1.7 GHz，那么这意味着 MI300A 的六个 GPU 小芯片的计算单元和流处理器数量必须是 MI250X 的 4 倍。如果 AMD 能够提高时钟速度（我们认为从 6 纳米到 5 纳米工艺的转变不太可能——不是一个巨大的跳跃），那么 AMD 会用它来尝试在相同的功率范围内提高时钟速度。但我们将在公告日看到。

就像 Nvidia 将 H100 GPU 中的矩阵数学单元的性能提高到比向量单元高出数倍一样，我们认为 AMD 也会对 MI300A 混合计算引擎做同样的事情。如果矩阵单元有 4 倍的改进，那么矢量单元可能只会有 2 倍的改进。这是另一种说法，许多 HPC 工作负载不会像 AI 训练工作负载那样加速，除非并且直到它们被调整为在矩阵数学单元上运行。

现在，让我们谈谈钱。

在我们于 2021 年 12 月的分析中，当 MI250X 首次运往橡树岭以建造 Frontier 机器时，我们估计其中一个 GPU motors的标价可能在 14,500 美元左右，比时售价为 12,000 美元Nvidia “Ampere” A100 SXM4 GPU 加速器更高。在2022 年 3 月发布 H100之后，我们估计高端 H100 SXM5（您不能从 HGX 系统板单独购买）的价格在 19,000 美元到 30,000 美元之间，并且PCI-Express 版本的 H100 GPU 的价值可能在 15,000 美元到 24,000 美元之间。当时，由于需求增加，A100 SXM4 的价格已涨至 15,000 美元左右。而就在几周前，PCI-Express 版本的 H100 在 eBay 上以每件 40,000 多美元的价格拍卖。这太疯狂了。

这个情况比美国这里的二手车市场还要糟糕，是一种需求过多供应过少的通货膨胀。当供应商知道他们无论如何都无法生产足够的单位时，他们会喜欢这种情况。超大规模和云建设者正在限制他们自己的开发人员对 GPU 的访问，我们不会对云中 GPU 容量的价格上涨感到惊讶。

当谈到启用稀疏性的 FP8 性能时，MI300A 将提供大约 3 petaflops 的峰值理论性能，但相对于 128 GB 的 HBM3 内存和大约 5.4 TB/秒的带宽。Nvidia H100 SXM5 单元具有 80 GB 的 HBM3 内存和 3 TB/秒的带宽，额定峰值性能为 4 petaflops，在 FP8 数据分辨率和处理上具有稀疏性。AMD 设备的峰值性能降低了 25%，但内存容量增加了 60%，如果设备上的所有这八个 HBM3 堆栈都可以完全填充，则内存带宽可能增加 80%。（我们当然希望如此。）我们认为许多 AI 商店将完全可以牺牲一点峰值性能来换取更多的内存带宽和容量，这有助于提高实际的 AI 训练性能。

我们可以肯定地说，El Capitan 是 MI300A 计算引擎的第一线，要在普通 64 位双精度浮点上突破 2.1 exaflops 峰值，将需要 22,000 个插槽，在这种情况下，一个插槽是一个节点。目前的“Sierra”系统已有 4320 个节点，每个节点有 4,320 个节点，每个节点有 2 个 IBM 的 Power9 处理器和 4 个Nvidia 的“Volta”V100 GPU 加速器。

Sierra 中总共有 17,280 个 GPU，如果我们对 MI300A 的 FP64 性能的猜测是正确的——我们首先承认这只是一种预感——那么 El Capitan 中的 GPU 插槽只比之前多 27%塞拉利昂。但，每个 El Capitan 插槽中有六个逻辑 GPU，因此更像是 132,000 个 GPU 来提供可能为 2.1 exaflops 的性能。这将使两个系统的原始 FP64 性能提高 16.9 倍，价格提高 4.8 倍，GPU 并发性提高 7.6 倍。El Capitan 必须提供至少比 Sierra 高 10 倍的性能，并且在不到 40 兆瓦的热包络内做到这一点。

如果我们对所有这些都是正确的，那么仅用于计算引擎的 2.1 exaflops El Capitan 的功耗约为 25 兆瓦。El Capitan 必须提供至少比 Sierra 高 10 倍的性能，并且在不到 40 兆瓦的热包络内做到这一点。如果我们对所有这些都是正确的，那么仅用于计算引擎的 2.1 exaflops El Capitan 的功耗约为 25 兆瓦。El Capitan 必须提供至少比 Sierra 高 10 倍的性能，并且在不到 40 兆瓦的热包络内做到这一点。如果我们对所有这些都是正确的，那么仅用于计算引擎的 2.1 exaflops El Capitan 的功耗约为 25 兆瓦。

作为对这整个事情的价格检查，如果 El Capitan 机器 85% 的成本是 CPU-GPU 计算引擎，并且有 22,000 个，那么它们的成本约为 23,200 美元。超大规模和云建设者为他们支付的费用绝不会低于基本上赞助 AMD 进军 HPC 高层的美国国家实验室所支付的费用。（这是很多“如果”，我们很清楚。）

过去，我们实际上是通过倒推 HPC 国家实验室的深度折扣，从超级计算交易中计算出 GPU 的标价。例如，在 Sierra 中使用的 Volta V100 加速器，GPU 的标价约为 7,500 美元，但以每张 4,000 美元左右的价格卖给了 Lawrence Livermore 和 Oak Ridge。因此，如果旧的折扣水平普遍存在，MI300A 的标价可能会超过 40,000 美元。我们认为折扣不那么陡峭，因为 AMD 为 MI300A 引擎增加了更多的计算能力，而且每单位价格也低了很多——标价更像是市场价，因为 AMD 需要积极取代 Nvidia。

请记住，当最初的 El Capitan 交易于 2019 年 8 月宣布将于 2022 年底交付并在 2023 年底前验收时，它被指定为具有 1.5 exaflops 持续性能和大约 30 兆瓦功耗的机器，仅用于运行系统。

这一切给我们留下了两个问题。一：AMD能做多少台MI300A设备？如果进入 El Capitan 的数量远远超过计划，那么它可以设定价格并全部出售。第二：AMD 会以激进的价格出售它们还是推到市场可以承受的价格？

第二个问题不难回答吧？在这个牛市 GPU 市场中，AI 绝对不会受到衰退的影响。如果人工智能在取代人类方面越来越成功，它甚至可能会加速经济衰退。. . . 到目前为止，真正的衰退和人工智能加速的衰退都没有发生。

👇👇 点击文末【阅读原文】，可查看原文链接！

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3396期内容，欢迎关注。