PCIe 6.0,首次展示
来源:内容由半导体行业观察(ID:icbank)编译自tomshardware,谢谢。
👆如果您希望可以时常见面,欢迎标星🌟收藏哦~
GTC 2024 展厅充满了有趣的技术演示,Nvidia 的合作伙伴希望利用这可能是今年最大规模的 AI GPU 公告的浮华和魅力。Astera Labs 演示了其工作 PCIe 6.0 与其新型 Aries 重定时器的连接性,该演示是最有趣的之一 — 该公司演示了工作 PCIe 6.0 重定时器,该演示将每比特所需的能量减少到上一代的一半以下。
该演示还让我们通过增加PCIe 6.0连接下一代 GPU 和 CPU(例如 Nvidia 的新型 Blackwell B100、B200和GB200)。
AI 工作负载需要 GPU 之间具有高水平的吞吐量才能全速处理数据,这就是为什么 Nvidia 拥有定制的 NVLink 和 NVSwitch 解决方案来提供大量 GPU 到 GPU 通信,在 GB200 上带宽高达 1.8 TB/s系统如 GB200 NVL72。然而,并非所有人都愿意全力支持 Nvidia,许多合作伙伴仍然使用基于 PCIe 的 GPU。
当今许多高性能 GPU 集群都采用快速 PCIe 5.0 x16 连接,在组件之间提供 128 GB/s 的双向带宽,以保持 GPU 尽可能饱和并充分利用它们。业界现在正在转向PCIe 6.0 接口,再次将带宽加倍,在 x16 连接上达到高达 256 GB/s 的带宽。这需要更快的支持组件来扩展接口的范围,但降低性能的误码率正成为新接口面临的更大挑战。
这就是 Astera Labs 的 Aries 智能 DSP 重定时器发挥作用的地方,在上述演示中,小型芯片增强了 PCIe 6.2 信号。我们可以看到 Astera Labs 演示系统,第二张图中的主板在左侧主机和右侧负载生成器之间运行主动 PCIe 6.2 链路。Aries PCIe 6.0 重定时器位于中间的内插器板上,通过其两个 PCIe x16 连接(重定时器芯片的每一侧各一个)吸收并提升流量。
该公司还展示了其芯片的实时功耗测量结果,该芯片被誉为世界上功耗最低的重定时器。在负载情况下,该芯片的功耗为 11W。与 PCIe 5.0 消耗的 13W 相比,这显着降低了 15%,同时提供的带宽是旧接口的两倍。总之,移动每一位所需的功率减少了 2 倍以上。功耗降低的部分原因是重定时器芯片迁移至较新的 TSMC 节点,但 Astera 并未透露其当前使用的节点。
正如您在其他图像中看到的,Astera 还拥有一组连接到其新重定时器芯片的 PCIe 5.0 设备,所有这些设备都安装在一个系统上。该演示展示了重定时器芯片的互操作性,但该公司无法使用可工作的 PCIe 6.0 GPU、SSD、NIC 等演示该系统,因为它们仍处于 NDA 状态。
从 PCIe 4.0 到 5.0 的转变通过增加总线频率使数据传输速率翻倍,然后施加了新的限制,例如大约一半的走线长度。这意味着设备必须放置得更近,以保持信号完整性,同时还需要更厚的主板和更坚固的材料。
重定时器接收传入的 PCIe 信号,然后对其进行清理和放大,从而增加与更长距离设备的连接范围。这是多 GPU 部署所必需的,其中各个 GPU 插槽可能距离提供 PCIe 连接的 CPU 和芯片组相当远。事实上,Astera Labs 的当前一代 PCIe 5.0 重定时器已经成为 Nvidia HGX 系统中的固定装置。
新的 PCIe 6.0 接口再次使吞吐量翻倍,但这种增加是通过从 NRZ 切换到 PAM-4 编码而不是频率增加来实现的,因此到达/距离要求保持大致相同。然而,PAM-4 编码更容易出错,因此尽管添加了前向纠错 (FEC),但错误率仍然增加。因此,虽然带宽增加了一倍,但错误率也增加了,从而减少了有效带宽。
强大的重定时器有助于确保信号完整性,Astera Labs 的客户可以设计具有较长走线长度的系统并接受现有的错误率,也可以使用较短的走线长度并降低错误率,从而提高有效带宽。这为他们的设计点提供了灵活性,该公司的连接系统管理和优化软件(COSMO)允许客户在部署过程中实时监控重定时器,如上图第七张图所示,为 Link、队列和 RAS 管理、优化和诊断/故障排除。
Astera Labs 已经取得了巨大的胜利,该公司的上一代重定时器为 Nvidia 的 HGX GPU 系统提供支持。在这里,我们可以看到现有的 HGX H100 系统,在通用基板(UBB,OCP 规范设计)上放置了 OAM 外形尺寸的八个H100 GPU。
该系统现在为世界上大部分人工智能基础设施提供动力,以至于仍然处于短缺状态,我们可以在第二张图片中的主板左侧看到八个矩形 Astera Labs PCIe 5.0 重定时器。另外八个重定时器也位于主板的右侧,每块板总共有 16 个芯片,增强 GPU 和位于连接的主板上的 CPU 之间的信号(此处未显示)。连接的主板(下面幻灯片中的图表)还包含九个重定时器,因此每个发货的 Nvidia HGX 系统中都有大量的 Astera 芯片。
正如你可以想象的那样,Astera 已经向 Nvidia 运送了大量此类芯片。尽管该公司尚未谈论任何其他设计成果,但我们预计 Nvidia 的下一代 HGX Blackwell 系统也将采用 Astera 的芯片。
原文链接
https://www.tomshardware.com/pc-components/cpus/working-pcie-60-connectivity-demoed-at-gtc-astera-labs-aries-retimers-currently-power-nvidias-hgx-systems-with-eight-h100-gpus-likely-future-blackwell-systems-too
END
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3717期内容,欢迎关注。
推荐阅读
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
微信扫码关注该文公众号作者