利用硅光,攻克带宽瓶颈
👆如果您希望可以时常见面,欢迎标星🌟收藏哦~
来源:内容由半导体行业观察(ID:icbank)编译自nextplatform,谢谢。
毫无疑问,人工智能和当今许多 HPC 工作负载的最大瓶颈是带宽。网络级别的带宽;套接字级别(socket level)的带宽;计算和内存级别的带宽。无论单个芯片可以高精度推动多少万亿次浮点运算,一旦您的工作负载超出单个加速器、节点或机架,带宽很快就会成为限制因素。
我们已经看到芯片制造商在多个层面上努力解决这个问题,他们将更多的高带宽内存封装到芯片上,提高互连速度,以及使用小芯片来突破标线限制。英特尔的“Ponte Vecchio”Max系列GPU和AMD最近发布的“Antares”Instinct MI300X GPU是后者的典型例子。在小芯片之间驱动数据本身确实会引入 I/O 瓶颈,但我们无法让芯片变得更大。
除了需要大于光刻机掩模版限制的socket之外,我们还需要更多的容量来满足现代人工智能和高性能计算工作负载的需求。在过去的几年里,我们看到了更密集的盒子、机架和集群的趋势。云提供商、超大规模提供商和 GPU 比特仓现在正在部署具有数万个加速器的集群,以满足人工智能应用程序的需求。目前估值超过 10 亿美元的硅光子初创公司 Lightmatter 相信自己已经占领了这个市场。
Lightmatter 首席执行官 Nick Harris 在接受The Next Platform采访时吹嘘道:“未来几年,世界上所有专为人工智能训练和推理或高性能计算而设计的 GPU 都将基于 Passage 构建。” 。
Lightmatter 的 Passage 是一款硅光子中介层,旨在支持高速芯片到芯片和节点到节点通信。硅计算和内存芯片可以连接到 Passage 的表面,而芯片之间的通信则根据彼此之间的距离以电气或光学方式进行。
需要明确的是,Passage 并不试图用光学互连取代所有芯片间互连,例如英特尔的Ponte Vecchio或 AMD Antares GPU 上的互连。
“假设您的Passage tile上有 HBM,HBM 和处理器之间的链接是电气的。当你扩展那些英寸尺寸的链接时,这些链接就是光学的,”Harris 解释道。就像光学 HGX:
Lightmatter 尚未透露客户名单,但看看英特尔、AMD 和 Nvidia 的现代计算平台,不难看出 Passage 的适合位置。典型的 GPU 节点是围绕载板构建的,载板通常以全面配置互连四个或八个加速器,以便它们可以作为单个计算单元一起工作。
然而,与使用芯片到芯片互连的可能性相比,socket到socket的通信可能慢一个数量级。“芯片到芯片毫米级互连具有一定的带宽,然后当您进入 PCB 级别时,带宽会下降 10 倍,”Harris 说道。
看看 Nvidia 的 HGX 板,该芯片制造商能够在使用 NVLink 的每个加速器之间实现约 900 GB/秒的带宽,即 7.2 Tb/秒。相比之下,Harris 声称 Lightmatter 有一个项目即将推出,芯片的带宽为 60 Tb/秒,即每个芯片的带宽为 7.5 TB/秒。
下面的分解展示了如何使用 Passage 将八个计算芯片网格化在一起,但并不限于此。Lightmatter 表示,如果您愿意,它可以在单个封装中安装多达 48 个掩模版有限的芯片。
硅和 Passage 之间的连接是电气连接,光电转换发生在中介层本身内。这意味着 Passage 可以重新映射以适应新芯片,同时也无需将光子学集成到计算本身中。
“我们所做的是改变 Passage 的平面图,以便我们可以映射其 I/O 引脚和电源引脚的位置,以通过 TSV 供电,”Harris 说。“然后,I/O 引脚将要么到达光学调制器,以在通道内或通道外发送数据,要么它们将穿过并到达板上的主机 CPU。我们让 Passage 看起来像一个纯粹的电气中介层。”
扩展到机架及其他范围
正如我们之前提到的,在合理的时间表上训练大型人工智能模型需要加速器。Nvidia 使用其 NVLink 交换机设备来连接机架上的 GPU,同时其 InfiniBand 或 Spectrum-4 以太网交换机为系统提供数据,从而实现了这一目标。
据 Harris 称,由于每个Passage tile的边缘都集成了光纤连接点,这种切换基本上是不必要的。正如我们在 2022 年 Hot Chips 上了解到的那样,每个连接点都提供高达 16 TB/秒的带宽,可用于将多个块互连在一起。
我们已经看到英特尔的 Habana Gaudi2 加速器采用了类似的方法,该加速器具有两打 100 Gb/秒以太网端口(21 个用于全网状网络,3 个用于节点到节点通信),从而无需额外的 NIC。
这里的区别是 Passage 还支持光路交换功能,可以即时编程。Harris表示,这有几个好处,特别是对于人工智能训练工作负载而言。
“当你编写人工智能训练程序时,你可以确定地知道执行情况。当程序运行时它不会动态改变。这样你就可以提前知道整个接线图需要是什么样子。这意味着你可以对大量计算机的拓扑进行编程,”他说,并声称 Lightmatter 现在有客户使用 Passage“扩展到 300,000 个节点的超级计算机”。
Harris没有透露这些客户是谁,但他确实表示,该公司正在与“大量购买”的主要半导体合作伙伴和云提供商合作。
Harris补充说,这些大型集群不是固定的,可以进行分区以满足不断变化的客户需求。“因此,也许一个 4,096 个节点的集群可以作为 256 个节点出租。它可以让你滑动并切分这笔巨额投资,”他说。
聚光灯下的硅光子学
过去几年,随着人工智能兴趣的增加推动了需求,以及对更快互连技术的投资(更重要的是对于初创公司本身而言),硅光子供应商已成为人们关注的焦点。
“人工智能——高性能计算的盟友,”哈里斯说。“人们只是在花无限的钱。空白支票簿,花你需要的一切来赢得人工智能竞赛,这对于光子学和 Passage 等技术来说是一个很好的环境。”
去年 12 月,Lightmatter 在第二轮 C 轮融资中筹集了 1.55 亿美元,使其总资金达到 4.2 亿美元,并将该公司推向独角兽领域。
话虽如此,Lightmatter 并不是唯一一家搭乘人工智能炒作列车的硅光子初创公司。今年早些时候,我们研究了另一家名为 Celestial AI 的初创公司,该公司已筹集 1 亿美元用于开发自己的硅光子互连技术。与 Lightmatter 的 Passage 非常相似,Celestial 的光子网格涵盖了芯片到芯片、封装到封装以及节点到节点的连接。
当然,还有 Ayar Labs,该公司自 2015 年起就一直在开发硅光子小芯片。该芯片制造商的 TeraPHY 于 2019 年首次出现,旨在为封装内和封装外的数据提供光学 I/O。9 月,我们研究了英特尔根据 DARPA 合同开发的令人尴尬的并行图形处理单元,该单元使用 Ayar Labs 扩展到数百万个线程。迄今为止,该公司已筹集约 2.2 亿美元,其中包括 2022 年初英特尔和 Nvidia 注入的 1.3 亿美元现金。
另外,早在 2022 年,Nvidia 就展示了未来光连接 GPU 系统的样子。
可以说,如今硅光子领域并不缺乏竞争。市场将需要它,因为我们将需要多种方法来突破带宽瓶颈。
原文链接
https://www.nextplatform.com/2024/01/04/how-lightmatter-breaks-bandwidth-bottlenecks-with-silicon-photonics/
END
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3636期内容,欢迎关注。
推荐阅读
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
微信扫码关注该文公众号作者