一窥Marvell 51.2T、800GbE 交换机内部

2024-07-24 03:07

👆如果您希望可以时常见面，欢迎标星🌟收藏哦~

来源：内容由半导体行业观察（ID：icbank）编译自servethehome，谢谢。

今天，我们将看看一台横跨 64 个 800GbE 端口的大型交换机的内部。Marvell Teralynx 10 是一款 51.2Tbps 交换机，它将是我们在 2025 年 AI 集群中看到的一代。这是一款大型网络交换机，看起来很有趣。

以下是我们是如何走到这一步的简要介绍。

Marvell于 2021 年收购了 Innovium 。这是在我们基于 Innovium Teralynx 7 的 32x 400GbE 交换机内部研究之后发生的，我们拆开了这家初创公司的 12.8Tbps（32 端口 400GbE）一代。

Innovium 是这一代最成功的初创公司，进军超大规模数据中心。例如，2019 年，英特尔宣布将收购 Barefoot Networks，以获得以太网交换机芯片。到英特尔 2022 年第四季度财报时，该公司宣布将剥离这项以太网交换业务。博通在商用交换机芯片业务中占有重要地位，而 Innovium/Marvell 已进军超大规模数据中心，而其他公司则投入了大量资金却失败了。

考虑到 AI 集群的构建规模，51.2Tbps 交换机芯片一代将非常庞大。我们询问 Marvell 是否可以更新 2021 年 Teralynx 7 拆解并查看新的 Marvell Teralynx 10。

看一下交换机的正面，我们看到一个 2U 底盘，主要由 OSFP 笼和气流通道组成。

总共有 64 个 OSFP 端口。每个端口的运行速度为 800Gbps。

每个接口都装有 OSFP 可插拔光学器件。这些器件往往比您习惯的 QSFP+/QSFP28 代器件要大一些。

Marvell 带来了一些光学器件，因为在收购Inphi后，它还销售这些光学模块中的许多组件。我们已经多次讨论过这个问题，例如在Marvell COLORZ 800G 硅光子模块和下一代网络的 Orion DSP部分。这是可以使用这些光学器件的交换机类型。另一个方面是端口可以以 800Gbps 以外的速度运行。

我们看到的很酷的东西之一是一些长距离光学模块。这些模块可以在数百公里甚至更远的距离上实现 800Gbps 的速度。它们很酷，因为它们适合 OSFP 笼子，而且不需要使用业内使用多年的大型长距离光学盒。

OSFP 对交换机还有另一个影响。由于 OSFP 模块可以有自己的集成散热器，因此笼子没有散热器。当我们拆开一些 100GbE 和 400GbE 交换机时，光学笼子需要有散热器，因为模块消耗的电量非常大。

在交换机的右侧，我们有管理和控制台端口。

查看交换机的背面，有风扇和电源（带有自己的风扇）。

鉴于此交换机可以使用类似 1.8kW 的光学器件，并且我们有一个 500W 的交换机芯片，预计我们需要额定功率超过 2kW 的电源。

接下来，让我们进入交换机内部，看看是什么为这些 OSFP 笼供电。

以下是交换机概览。我们将从 OSFP 笼（右）开始，一直到电源和风扇（左）。

当我们打开开关时，首先映入眼帘的是大型散热器。

这是带有过期护照的散热器，用于衡量尺寸。

这是散热器的底部视图。

该芯片本身是500W的5nm部件。

Marvell 让我们清理芯片以拍摄一些没有散热器的照片。

我们可以仔细观察没有散热器的 OSFP 笼。

从这个视图看，只有 32 个 OSFP 笼。这是因为交换机 PCB 位于两个块的中间。

在 OSFP 笼子后面，我们有 Teralynx 10 芯片。

我们将让人们在闲暇时阅读有关 Teralynx 10 的更多信息，但这里是我们之前展示过的早期功能图。

略有不同的是，开关上的许多组件都是倾斜的，不是水平的，也不是与开关芯片的边缘平行的。

这是从上面拍摄的照片。这又是一个 64 端口 800GbE 交换机芯片。如果你来自服务器领域，我们将在 PCIe Gen6 时代获得 800GbE 单端口 NIC，而今天则拥有 400GbE PCIe Gen5 x16 NIC。该芯片有足够的容量来处理当今最快的 128 个 PCIe Gen5 400GbE NIC。

与许多交换机一样，这款 Teralynx 10 交换机有一个专用的管理控制器。有趣的是，这是基于 Marvell Octeon 的管理板。我们被告知其他交换机也可以使用 x86。

M.2 SSD 位于主配电板上。

我们发现一个有趣的东西，那就是用于诊断的内置 PCIe 插槽。

不过，就在那之下，有一个你可能很容易忽略的功能。显然有一个 10Gbase-T 端口在内部作为管理接口暴露。

另一个需要考虑的方面是交换机 PCB 的厚度。如果服务器主板这么厚，许多 1U 服务器设计将面临极大的散热挑战。

在冷却方面，我们有一个相当简单的风扇设置，在机箱后部有四个风扇模块。

接下来，我们看一下在实验室中测试 Marvell Teralynx 10。

在另一栋大楼里，Marvell 有一个实验室在运行这些交换机。公司暂时清理了实验室，以便我们拍摄交换机的运行情况。

这是背面。

Teralynx 10 交换机旁边是 Keysight Ixia AresONE 800GbE 测试盒。

如今，在一个端口上生成 800GbE 流量并非易事，因为它比服务器上的 PCIe Gen5 x16 更快。看到这个设备在实验室里运行真是太酷了。我们当时购买了一个整洁的二手 Spirent 盒子，原本打算用它来进行 10GbE 测试，但 Spirent 拒绝提供媒体/分析师许可证。像这个 800GbE 盒子这样的设备贵得令人咋舌。

该公司在实验室中还有一个更大的机箱，用于 100GbE 测试。作为交换机供应商，Marvell 需要这种设备来验证不同条件下的性能。

这是一个双 400GbE 示例，通过 Teralynx 交换机以大约 99.3% 的线路速率运行。

为何选择51.2Tbps 交换机？因为有两股力量在推动这些 51.2T 交换机进入市场。第一是大家最热衷的话题 AI。第二也是功耗和基数影响。

Marvell 推出的 Teralynx 10 延迟约为 500 纳秒，同时提供巨大的带宽。这种可预测的延迟，加上交换芯片的拥塞控制、可编程性和遥测功能，有助于确保大型集群能够保持最佳性能。让 AI 加速器闲置等待网络是一个非常昂贵的提议。

另一个例子是基数。更大的交换机可以减少交换层数。这反过来又减少了连接集群所需的交换机、光纤、电缆等的数量。

由于 Teralynx 10 可以处理 512 个基数，通过最多 512x 100GbE 链路进行连接，因此某些网络可以从需要三级交换缩减为仅需要两级。在相当大的 AI 训练集群规模下，这不仅可以节省资本设备，还可以节省大量电力。Marvell 向我们发送了这个示例，其中较大的基数可降低 1MW 以上的功耗。

此外，Marvell 发送的幻灯片中还有这个。我们已经介绍了左侧，但在右侧我们可以看到一个插入了模块的交换机，顶部有一个有趣的冷却器从机箱中伸出。我们在内部概览中展示了巨大的散热器，这似乎是桌面原型的外观。

那个原型很有趣，所以我们认为大家可能会喜欢看它。

最后，我们经常在网上和数据中心的照片中看到交换机的正面，甚至背面。但我们很少看到这些交换机的工作原理。在此要感谢 Marvell，它不仅让我们看到交换机的运行，还让我们将交换机拆开，直至硅片。

Innovium（现为 Marvell 旗下子公司）是业内为数不多的与博通正面交锋并取得超大规模胜利的团队之一。我们已经看到其他大型硅片供应商在这一过程中失败。鉴于市场对人工智能集群中高基数、高带宽、低延迟交换的需求，Teralynx 10 很可能成为该公司自 Teralynx 7 以来最大的产品线。这个领域的竞争非常激烈。

当然，对于所有网络而言，还有更多层次。我们甚至可以对光学模块进行全面研究，更不用说软件、性能等了。不过，展示这些交换机内部发生的事情还是很酷的。

参考链接

https://www.servethehome.com/inside-a-marvell-teralynx-10-51-2t-64-port-800gbe-switch/

点这里👆加关注，锁定更多原创内容

END

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。