干货：聊聊交换机和AI有什么关系？

2023-07-30 02:07

网络协议为计算机网络中进行数据交换而建立的规则、标准或约定的集合。法律层面上，OSI 七层协议为国际协议。

由于HPC/AI对于网络高吞吐、低时延的要求，在数据中心中 TCP/IP 逐步过渡到RDMA。RDMA中包含不同的分支，其中，Infiniband 专为 RDMA 设计，从硬件级别保证可靠传输，技术先进，但是成本高昂。而 RoCE 和 iWARP 都是基于以太网的 RDMA技术。

下载链接：

深度专题：聊聊交换机和AI有什么关系？

《存储60年发展技术报告合集》

1、穿越存储60年：AI时代，新周期

2、存储60年：观历史，聊兴衰

本重点从以下几方面出发，聊聊交换机和 AI 有什么关系？

Q：什么是协议？

Q：数据中心架构中，交换机有什么用？

Q：英伟达交换机=IB 交换机？

Q：英伟达 SuperPOD 如何理解？

Q：交换机市场现状？

Q：什么是协议？

网络协议为计算机网络中进行数据交换而建立的规则、标准或约定的集合。法律层面上，OSI 七层协议为国际协议。20 世纪 80 年代，为了规范化计算机之间的通信方式，从而满足开放式网络的需求，OSI（Open System Interconnection）协议被提出，其采用了一种七层网络。

物理层：解决了硬件之间如何通信，主要功能为定义物理设备标准（如接口类型、传输速率等），从而实现比特流（一种以 0、1 表示的数据流）的传输。

数据链路层：主要功能为帧编码和误差纠正控制。具体工作为接受来自物理层的数据，并封装为帧，然后传输到上一层。同样也可以将来自网络层的数据拆为比特流传输给物理层。之所以能实现纠错的功能，是因为每帧除了要传输的数据外，还包括校验信息。
网络层：在节点之间创建逻辑电路，通过 IP 寻找地址（在网络中每个节点都有一个IP）。这一层传输的数据以包为单位。
传输层：负责监督数据传输的质量，若发生丢包，则应该重新发送。
会话层：主要功能为管理网络设备的会话连接。
表示层：主要负责数据格式转换、加密等。
应用层：提供应用接口，可以为用户直接提供各种网络服务，完成各种网络工作。

TCP/IP 是包含各种协议的协议簇，这些协议可以大致分为四层，即应用层、传输层、网络层、数据链路层，实际上，TCP/IP协议可以理解做 OSI 七层协议的优化版。

由于 HPC 对于网络高吞吐、低时延的要求，TCP/IP 逐步过渡到 RDMA。TCP/IP 有几个主要的缺点：

其一，存在数十微秒的时延。由于 TCP/IP 协议栈在传输时，需要多次上下文切换，并依赖 CPU 进行封装，因此时延较长。
其二，CPU 负载严重。TCP/IP 网络需要主机 CPU 多次参与协议栈内存拷贝，CPU负载与网络带宽相关系数过大。

RDMA(远程内存直接访问技术，RemoteDirect Memory Access)：能直接通过网络接口访问内存数据，无需操作系统内核的介入。这允许高吞吐、低延迟的网络通信，尤其适合在大规模并行计算机集群中使用。

RDMA 未规定全部协议栈，但是对具体的传输提出了较高的要求：例如不轻易丢、吞吐量大、延时低等等。RDMA 中包含不同的分支，其中， Infiniband 专为 RDMA 设计，从硬件级别保证可靠传输，技术先进，但是成本高昂。而 RoCE 和 iWARP 都是基于以太网的RDMA 技术。

Q：数据中心架构中，交换机有什么用？

交换机和路由器工作的层次不同。交换机（Switch）工作在数据链路层，基于 MAC（网卡的硬件地址）识别，能完成封装转发数据包功能，允许不同的设备间相互通信。路由器(Router)亦称选径器，工作在网络层，实现相互连接，基于 IP 实现寻址，将不同的子网络相连接。

传统的数据中心往往使用三层架构，即接入层、汇聚层、核心层，而在小型的数据中心中，可以忽略汇聚层的存在。其中，接入层通常直接与服务器相连，常用的接入交换机常为TOR（Top of Rack）交换机。汇聚层是网络接入层和核心层的 “中介（中间层）”。核心交换机为进出数据中心的包提供转发，并为汇聚层提供连接性。

传统的三层网络有较为显著的缺点，并且随着云计算的发展，这些缺点愈发突出：

带宽浪费：每组汇聚交换机管理一个 POD（Point Of Delivery），每个 POD 内都是独立的 VLAN 网络。汇聚交换机和接入交换机之间通常使用 STP（Spanning Tree Protocol，生成树协议）。STP 使得对于一个 VLAN 网络只有一个汇聚层交换机可用，其他的汇聚层是被阻塞的，同时这也导致汇聚层无法水平拓展。
故障域大：由于 STP 的算法，网络拓扑变更时需要重新收敛，容易发生故障。
时延较长：随着数据中心的发展，东西向流量大幅增加，而三层架构间服务器之间的通信需要层层经过交换机，造成了较大的时延，且核心交换机和汇聚交换机的工作压力不断扩大，性能升级也造成成本的上浮。

叶脊架构优势明显，具有扁平化设计、低延迟、具有带宽高等特点。叶脊网络（leaf-spine）使得网络扁平化，其中叶交换机相当于传统的接入层交换机，脊交换机类似核心交换机。

叶和脊交换机之间通过 ECMP（Equal Cost Multi Path）动态选择多条路径。当 Leaf 层的接入端口和上行链路都没有瓶颈时，这个架构就实现了无阻塞（Non blocking）。因为Fabric 中的每个 Leaf 都会连接到每个 Spine，所以，如果一个 Spine 出现问题，数据中心的吞吐性能只会有轻微的下降（SlightlyDegrade）。

Q：英伟达交换机=IB 交换机？

不是。英伟达 Spectrum 和 Quantum 平台，同时布局了以太网和 IB 交换机。

英伟达 Spectrum 和 Quantum 平台，同时布局了以太网和 IB 交换机。IB 交换机主要由厂商 mellanox 运营，英伟达于 2020 年成功将其收购。此外，英伟达 Spectrum 平台的交换机主要基于以太网，旗下产品不断迭代，2022 年发布的 Spectrum-4 是 400G 交换机产品。

Spectrum-X 针对生成式 AI 所设计，优化了传统以太网交换机的限制。NVIDIA Spectrum X 平台的两个关键元素是 NVIDIA Spectrum-4 以太网交换机和 NVIDIA BlueField-3 DPU。

Spectrum-X 的主要优势包括：

将 RoCE 扩展用于 AI 和自适应路由（AR），以实现 NVIDIA 集合通信库（NCCL）的最大性能。NVIDIA Spectrum-X 能够在超大规模系统的负载和规模下实现高达 95% 的有效带宽。

利用性能隔离来确保在多租户和多作业环境中，一个作业不会影响另一个作业。
确保在出现网络组件故障时，网络架构能够继续提供最高性能。
与 BlueField-3 DPU 同步，实现最佳 NCCL 和 AI 性能。
在各种人工智能工作负载下保持一致和稳定的性能，这对实现 SLA 至关重要。

在组网方式中，IB 还是以太网是个重要的问题。目前的市场中，以太网占据了绝大部分的市场份额，但是在一些大规模的运算场景中，IB 又一枝独秀。ISC 2021 超级计算大会上，在 TOP10 的系统中 IB 占据了 70%的份额，在 TOP100 中 IB 占据 65%的份额。随着考虑范围越来越大，IB 的市场份额越来越低。

Spectrum 和 Quantum 平台针对不同的应用场景。在英伟达的设想中，AI 应用场景可大致分为 AI 云和 AI 工厂，在 AI 云中可以使用传统以太网交换机和 Spectrum-X 以太网，而在 AI 工厂中则需要使用 NVLink+InfiniBand 的方案。

Q：英伟达 SuperPOD 如何理解？

SuperPOD 是服务器集群，通过将多个计算节点相连，以提供较大的吞吐性能。

以英伟达 DGX A100 SuperPOD 为例，英伟达官方推荐的配置中使用的交换机为 QM9700，能提供 40 个 200G 端口。由于其采用的架构为胖树（不收敛）架构。在第一层中， DGX A100 服务器共有 8 个接口，分别接入 8 个叶交换机，20 台服务器组成一个 SU，因此共需8*SU 台服务器，第二层架构中，由于网络不收敛，且端口速率一致，因此脊交换机提供的上行端口要大于等于叶交换机的下行端口。因此，1 个 SU 对应 8 台叶交换机和 5 台脊交换机，2 个 SU 对应 16 台叶交换机和 10 台脊交换机，依此类推。此外，当 SU 数量增至 6 个以上时，官方推荐加入一层核心层交换机。

在 DGX A100 SuperPOD 中，计算网络的连接中服务器：交换机~1：1.17（以 7 个 SU 为例）；但是在 DGX A100 SuperPOD 中，这一比例为 1：0.38。若考虑到存储器及网络管理的需求，则 DGX A100 SuperPOD 和 DGX H100 SuperPOD 中服务器：交换机分别为 1：1.34 和 1：0.50。

从端口方面看，在 DGX H100 的推荐配置中，每个 SU 由 31 台服务器组成。一方面，DGX H100 只有 4 个用于计算的接口，另一方面，在 DGX H100 SuperPOD 中交换机为 QM9700，提供 64 个 400G 端口。

从交换机性能看，DGX H100 SuperPOD 推荐配置中的 QM9700 性能大幅提升。Infiniband 交换机引入了 Sharp 技术。通过聚合管理器在物理拓扑中构造流聚合树（SAT，Streaming Aggregation Trees），然后由树中的多台交换机执行并行运算，可以大幅降低延迟，提高网络性能。QM8700/8790+CX6 仅最多支持 2 个 SAT，但QM9700/9790+CX7 最多支持 64 个。叠加端口数量增多，因此交换机用量下降。

从交换机价格看，QM9700 价格约为 QM8700/8790 的两倍。据 SHI 官网数据,Quantum-2 QM9700 单价 3.8 万美金，Quantum QM8700/8790 分别为 2.3 万/1.7 万美金。

交换机市场现状？

交换机市场短期景气较好，随着 AI 发展，市场需求有望进一步扩大，且呈现向高端迭代趋势。

从格局上看，交换机市场尚为蓝海，思科份额较大，Arista 成长迅速。

市场规模方面：2023Q1 全球以太网交换机收入 100.21 亿美元，同比+31.5%。其中，200G/400G 交换机收入同比增加 41.3%，100G 交换机收入同比+18.0%。

端口出货数量方面：2023Q1 出货 2.29 亿个同比+14.8%。其中，200G/400G、100G 端口分别增加 224.2%、17.0%。

竞争格局优于服务器市场，思科一家独大，Arista 成长迅速。据theNextPlatform 测算，2023Q1 思科占据 46%的市场份额，约 46.1 亿美元，同比+33.7%。Arista 凭借在数据中心的出色表现，2023Q1 收入11.5 亿美元，同比+61.6%。

盈利能力方面，思科和 Arista 毛利率均接近 60%。较优的格局铸就了产业链厂商良好的盈利能力，思科和Arista 的毛利率虽然由略微下降的趋势，但总体仍保持 60%左右的毛利率。展望后市，我们认为随着 AI 发展，交换机市场有望持续受益。

转载申明：转载本号文章请注明作者和来源，本号发布文章若存在版权等问题，请留言联系处理，谢谢。

推荐阅读

更多架构相关技术知识总结请参考“架构师技术全店资料打包汇总(全)（39本全）”相关电子书已经更新至39本，持续更新中。

1、下单“架构师技术全店资料打包汇总(全)”，包含服务器基础知识全解(终极版)pdf及ppt版本，价格仅收239元(原总价399元)。

2、随着电子书数量增加及内容更新，价格会随之增加，所以现在下单最划算，购买后续可享全店内容更新“免费”赠阅。

温馨提示：

扫描二维码关注公众号，点击小程序链接获取“架构师技术联盟书店”电子书资料详情。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章