打造比英伟达 Blackwell更强的GPU

2024-03-30 03:03

👆如果您希望可以时常见面，欢迎标星🌟收藏哦~

来源：内容由半导体行业观察（ID：icbank）编译自nextplatform，谢谢。

虽然很多人关注各种计算引擎的浮点和整数处理架构，但我们却花费越来越多的时间研究内存层次结构和互连层次结构。这是因为计算很容易，而数据移动和存储却变得越来越困难。

用一些简单的数字来说明这一点：在过去的二十年中，CPU 和 GPU 的计算能力增加了 90,000 倍，但 DRAM 内存带宽仅增加了 30 倍，互连带宽也仅增加了 30 倍。近年来，我们在某些方面取得了进步，但我们认为计算与内存的平衡仍然很遥远，这意味着我们在用于大量 AI 和 HPC 工作负载的内存不足的计算引擎上花费过多。

正是考虑到这一点，我们考虑了 Eliyan 创建的网络中物理层 (PHY) 的架构创新，这些创新在本周的 MemCon 2024 会议上以不同且非常有用的方式展现。联合创始人兼首席执行官 Ramin Farjadrad 花了一些时间向我们展示 NuLink PHY 及其用例如何随着时间的推移而发展，以及如何使用它们来构建比使用 PHY 更好、更便宜、更强大的计算引擎当前基于硅中介层的封装技术。

PHY 是一种物理网络传输设备，它将交换芯片、网络接口或计算引擎上或内部的任何数量的其他类型的接口链接到物理介质（铜线、光纤、无线电信号），而物理介质又连接它们相互之间或网络上。

硅中介层是一种特殊的电路桥，用于将 HBM 堆叠式 DRAM 内存连接到计算引擎，例如 GPU 和定制 ASIC，这些引擎通常用于 HPC 和 AI 领域的带宽敏感应用。有时 HBM 使用也需要高带宽内存的常规 CPU。

Eliyan 于 2021 年在圣何塞成立，目前拥有 60 名员工。该公司刚刚获得了 6000 万美元的第二轮融资，由内存制造商三星和 Tiger Global Capital 领投 B 轮融资。Eliyan 于 2022 年 11 月在 A 轮融资中筹集了 4000 万美元，由 Tracker Capital Management 领投，Celesta Capital、英特尔、Marvell 和内存制造商美光科技 (Micron Technology) 出资。

Farjadrad 在互联网热潮期间在 Sun Microsystems 和 LSI Logic 担任设计工程师，曾担任 Velio Communications（现为 LSI Logic 的一部分）的交换机 ASIC 首席工程师和联合创始人，并且是联合创始人和首席技术Aquantia 的官员，该公司为汽车市场生产以太网 PHY。2019 年 9 月，Marvell 收购了 Aquantia，并让 Farjadrad 负责网络和汽车 PHY。Marvell 已成为最大的 PHY 制造商之一，在设计这些系统关键组件方面与 Broadcom、Alphawave Semi、Nvidia、Intel、Synopsis、Cadence 以及现在的 Eliyan 等公司竞争。

Eliyan 的其他联合创始人包括 Syrus Ziai，他是工程和运营主管，并曾担任高通公司 Ikanos 的工程副总裁。多年来，PsiQuantum 和 Nuvia 以及业务和企业发展主管 Patrick Soheili 曾负责 eSilicon 的产品管理和人工智能战略主管。该公司因在 Apple iPod 音乐播放器中创建 ASIC 以及开发 2.5D ASIC 封装和 HBM 内存控制器而闻名。当然，eSilicon 于 2019 年底被 Inphi 以 2.13 亿美元收购，扩大了其 PHY 能力，2021 年 4 月，Marvell 在 2020 年 10 月以 100 亿美元收购 Inphi，完成了这一循环。

PHY 以及 I/O SerDes 和重定时器都有资金。SerDes 与交换机 ASIC 中使用的那些用于将从设备发出的并行数据转换为通过电线、光纤或空中传输的串行数据一样，是一种特殊的 PHY，并且从某种思维方式来看，SerDes 也是一种特殊的 PHY。随着带宽的增加以及可以推送干净信号的铜线长度的减少，重定时器将越来越多地被使用。关于重定时器，感兴趣的可以了解《一颗芯片的新战争》一文。

我们会说:Fee PHY Faux Big Sum。说到这里，让我们花一分钟谈谈2.5D封装。

细谈2.5D封装

随着摩尔定律在晶体管密度方面的增长速度放缓，并且晶体管的成本随着每一种后续工艺技术的发展而不是下降，我们都已经意识到现代芯片蚀刻工艺的掩模版限制。使用普通极紫外 (EUV) 水浸光刻技术，可以在硅晶圆上蚀刻晶体管的最大尺寸为 26 毫米 x 33 毫米。

但我们中的许多人可能没有意识到，这也是硅中介层尺寸的限制，硅中介层允许小芯片在有机基板顶部相互链接，有机基板就像每个计算引擎插槽及其附属 HBM 内存下方的主板。该硅中介层的尺寸取决于用于创建中间板的技术。中介层采用与芯片相同的光刻工艺制造，但如今使用一些技术，中介层可以达到 2,500 mm2，而不是像芯片那样具有 858 mm2的掩模版限制，并使用其他接近 1,900 mm 2 ；据 Farjadrad 称，计划将其提高到 3,300 mm2 。有机基板插座没有这样的面积限制。当您谈论小芯片的 2.5D 封装时，这一点很重要。

Farjadrad 向我们介绍了与 Eliyan 的 NuLink PHY 竞争的不同 2.5D 方法的馈送、速度和局限性。

以下是台积电如何通过硅片晶圆芯片 (CoWoS) 工艺实现 2.5D，该工艺用于创建 Nvidia 和 AMD GPU 及其 HBM 堆栈等：

从技术上讲，上图显示了台积电的 CoWoS-R 内插器技术，该技术通常用于将 GPU、CPU 和其他加速器链接到 HBM 内存。CoWoS 的硅中介层仅限于大约两个标线单元，这正是Nvidia 上周刚刚推出的“Blackwell”B100 和 B200 GPU的尺寸。这并非巧合。这已经是英伟达所能做到的最大规模了。

台积电拥有一种不那么引人注目的 CoWoS-L 技术，该技术制造起来更加复杂，就像其他方法中使用的嵌入式桥一样。

一种桥接技术称为带有嵌入式桥接的晶圆级扇出技术，该技术由芯片封装商 Amkor Technology 倡导，并有来自 ASE Holdings 的一种名为 FOCoS-B 的变体。以下是这种封装方法的输入和速度：

使用这种 2.5D 封装，您可以制作尺寸约为三个掩模版限制的封装。高迹线密度意味着您可以以低功耗获得高芯片间带宽，但范围有限，布线能力也有限。哦，它还没有真正被大量推动。

英特尔将硅桥直接放入容纳小芯片的有机基板中（减去中介层）的方法与 Eliyan 对 NuLink 所做的类似：

然而，EMIB 受到生产周期长、产量低、覆盖范围和可布线性有限以及由一家目前在先进半导体领域声誉不佳的公司英特尔组成的有限供应链的困扰。公平地说，英特尔正在重回正轨。但它还没有出现。

Eliyan 提出了 NuLink 的修改后的 2D MCM 流程：

Farjadrad说，NuLink PHY的数据速率大约是传统MCM封装的10倍，NuLink PHY之间的走线长度可以达到2厘米到3厘米，比CoWoS和其他2.5D封装选项支持的0.1毫米走线长度增加了20倍到30倍。走线上的额外距离，以及NuLink PHY在这些走线上具有双向信号的事实，使计算引擎设计发生了巨大的变化。

Farjadrad还提到:“在目前的架构下，当你在内存和ASIC之间运行数据包时，数据包数据并不是同时双向的。“你可以从内存中读取或写入。如果你有一个端口可以同时发送或接收一个，那么你可以从同一个beach获得两倍的带宽，这就是NuLink所做的。因此，您不会浪费您的ASICbeach的一半，这是非常宝贵的。我们需要自己的特殊协议来维护内存一致性，确保读和写之间没有冲突。我们知道当我们制作PHY时，我们需要为特定的应用程序制作一个相关的协议。这是我们最大的区别之一。拥有最好的PHY是一回事，但将其与AI应用的正确专业知识相结合是另一个重要因素，我们知道如何做到这一点。”

当NuLink于2022年11月首次推出时，它还没有这个名字，Eliyan也没有提出用物理学来创建通用存储接口(UMI)的方法。NuLink只是实现某种东西的一种方式，它可以使用UCI-Express芯片互连协议，也可以支持Farjadrad和他的团队几年前创建的原始束线(BoW)芯片互连所支持的任何协议，并将其作为提议的标准捐赠给开放计算项目。以下是Eliyan如何将NuLink与各种内存和芯片互连协议进行对比:

Intel MDFIO是Multi-Die Fabric I/O的缩写，用于将“Sapphire Rapids”Xeon SP处理器中的四个计算芯片相互连接;EMIB用于将这些小芯片链接到具有HBM的Sapphire Rapids的Max系列CPU变体的HBM内存堆栈。OpenHBI基于JEDEC HBM3电气互连，也是一个OCP标准。UCI-Express，我们在这里写过，是一种时髦的带有CXL一致性覆盖的PCI-Express，它被设计成小芯片的模对模互连。英伟达(Nvidia)的NVLink目前用于将Blackwell GPU的小芯片粘合在一起，但它没有出现在这张表中，英特尔的XeLink也没有出现在“Ponte Vecchio”Max系列GPU上，用于将其GPU小芯片粘合在一起。与UCI-Express不同，NuLink PHY是双向的，这意味着您可以拥有与UCI-Express一样多或更多的电线，但在走线上的带宽是UCI-Express的两倍或更多。

正如你所看到的，有一个昂贵的封装选择，使用凸点与40微米到50微米的凸点间距，而die到die的距离只有大约2毫米。物理层的带宽密度可以非常高——每毫米边缘长度上的芯片可以达到Tb/秒——并且功率效率根据方法的不同而变化。整个延迟也在4纳秒以下。

表的右边是可以与标准有机基板封装和使用130微米凸起工作的互连物理，因此是更便宜的选择。其中包括Cadence的Ultralink PHY、AMD的Infinity Fabric PHY、Alphawave Semi的OIF Extra Short Reach (XSR) PHY，以及NuLink的一个版本，即使不使用低间距凸点，仍能实现相当高的信号传输。

查看表格右侧的芯片到芯片的连接距离。使用2厘米相比于2毫米和ASIC与HBM堆栈或相邻芯片之间的0.1毫米间距，你可以做更多的事情。这些更长的连接打开了计算和内存复合体的几何结构，并且它们还消除了ASIC与HBM之间的热串扰效应。堆叠内存对热度非常敏感，随着GPU变得更热，需要冷却HBM以使其正常工作。如果你能将HBM与ASIC保持更远的距离，你可以使ASIC运行得更快——Farjadrad估计大约快20%——并且更热，因为内存不足以被那增加的ASIC热量直接影响。

此外，通过去除像GPU这样的设备中的硅中间层或等价物，通过移动到有机衬底，使用更大的凸起和间隔组件，您可以将具有12个HBM堆栈的双ASIC设备的制造成本从约12,000美元(芯片加封装收率约为50%)降低到87%的设备，成本约为6,800美元。

让我们再看两个对比UCI-Express、BoW和UMI的图表，然后我们可以玩一下系统架构师的游戏。

如您所见，Eliyan持续推动其PHYs的双向能力的极限，现在具备了同时进行双向流量的能力，这一功能被称为UMI-SMD。

这里还展示了这四个选项的带宽和ASIC边缘区域：

因此，现在被称为 UMI 的 NuLink PHY 比 UCI-Express 更小、更快，并且可以同时投球和接球。你能用它做什么？

首先，您可以构建更大的计算引擎：

24 个或更多 HBM 堆栈以及包含 10 到 12 个网格的计算引擎包如何吸引您？这种设备的制造时间仅为标准有机基板的四分之一到五分之一。

IBM 从 1989 年左右的巅峰时期开始走下坡路后，在 20 世纪 90 年代初曾流行过这样一句话：你可以找到更好的，但你不能付出更多。

当然，Nvidia 不是 IBM。或者英特尔。无论如何，还没有。轻松赚钱会对公司及其路线图产生奇怪的影响。

以下是 Eliyan 认为 HBM4 未来可能发挥的作用：

HBM4 内存的 JEDEC PHY 非常大，切换到 UCI-Express 会将这个面积减少一半。使用 NuLink UMI PHY 几乎会再次将其减半，为您选择的 XPU 上的逻辑留下更多空间。或者，如果您想放弃中介层，制造一个更大的设备，并配备 13 mm 2 UMI PHY，您也可以构建一个更便宜的设备，并且仍然可以从每个 HBM4 中驱动 2 TB/秒堆。

现在事情变得有趣了。

早在 2022 年 11 月，当 Eliyan 提出其想法时，它正在将带有连接到 HBM 内存的中介层的 GPU 与移除中介层并将 ASIC 增加一倍（就像 Blackwell 所做的那样）并放置一个野兽的机器进行比较。与 ASIC 小芯片相比，24 个 HBM 排名非常出色。像这样：

左边是Nvidia A100和H100 GPU及其HBM内存的架构。中间是一张英伟达的图表，显示了随着更多HBM内存容量和更多HBM内存带宽提供给AI应用程序，性能是如何提高的。正如我们所知，具有141 GB HBM3E内存和4.8 TB/秒带宽的H200的工作效率是具有相同GH100 GPU的H100的1.6到1.9倍，但只有80 GB HBM3内存3.35 TB/秒带宽。

想象一下上面所示的具有576 GB HBM3E内存和19 TB/秒带宽的野兽!记住:内存并不是耗电量的重要组成部分，GPU才是。迄今为止，我们看到的少量证据表明，英伟达、AMD和英特尔投入该领域的GPU都受到HBM内存容量和带宽的限制，而且由于制造这种堆叠内存的困难，这种限制已经持续了很长时间。这些公司生产GPU，而不是内存，他们通过提供尽可能少的HBM内存来实现收入和利润的最大化，而不是庞大的计算量。它们总是比上一代显示更多，但GPU计算的速度总是快于内存容量和带宽。Eliyan提出的设计可以使计算和内存恢复平衡，并使这些设备更便宜。

也许这对于 GPU 制造商来说有点太强了，因此随着 UMI 的推出，该公司稍微退一步，展示了如何使用中介层和有机基板加上 NuLink PHY 的组合来制造更大、更平衡的 Blackwell GPU 复杂。

左下图展示了如何创建一个 Blackwell-Blackwell 超级芯片，其中一个 NVLink 端口以 1.8 TB/秒的速度运行，将两个双小芯片 Blackwell GPU 连接在一起：

使用NuLink UMI方法，你可以在上面的图表中看到，在两个Blackwell GPU之间有六个端口提供大约12tb /秒的带宽-比Nvidia在B100和B200中使用NVLink端口提供的10tb /秒多一点。Eliyan超级芯片设计的带宽是Nvidia B200超级芯片设计的6倍(如果有的话)。如果英伟达想要坚持其coos制造工艺，Eliyan可以在中间层上放置同样的8组HBM3E内存，但它可以在每个Blackwell设备上再放置8组HBM3E，总共32组HBM3E，这将产生768gb的容量和25tb /秒的带宽。

你仔细想想。

但是等等，这不是你得到的全部。这种UMI方法适用于任何XPU和任何类型的内存，你可以做像这样疯狂的事情，所有这些都在一个巨大的有机衬底上，而不需要中间体: