博通、AMD和英特尔等联手，要打破InfiniBand垄断

2024-03-23 02:03

来源：内容由半导体行业观察（ID：icbank）编译自anandtech，谢谢。

👆如果您希望可以时常见面，欢迎标星🌟收藏哦~

超以太网联盟 (UEC)本周宣布，下一代互连联盟的成员已增至 55 个。随着该组织致力于开发超高速以太网标准的初始版本，他们发布了有关即将推出的标准的一些首批技术细节。

UEC 成立于 2023 年夏季，旨在开发一种新的互连标准，以满足 AI 和 HPC 数据中心的需求，作为InfiniBand事实上（如果不是法律上）的替代品，InfiniBand 很大程度上由 NVIDIA 控制。UEC早在11月份就开始接受新会员，仅仅五个月的时间就增加了45名新会员，这凸显了人们对这项新技术的巨大兴趣。该联盟目前拥有 55 名成员和 715 名行业专家，他们在 8 个技术小组中工作。

正如该组织在最新的开发博客文章中所阐述的那样，UEC 手头还有很多工作要做，该联盟致力于构建一个基于以太网的统一通信堆栈，以实现支持人工智能和高性能网络的高性能网络。性能计算集群。该联盟的技术目标包括开发超以太网通信的规范、API 和源代码，更新现有协议，以及引入用于遥测、信令、安全和拥塞管理的新机制。特别是，超以太网引入了 UEC 传输 (UET)，以提高网络利用率和降低尾部延迟，从而加速以太网上的 RDMA（远程直接内存访问）操作。主要功能包括多路径数据包喷射、灵活排序和先进的拥塞控制，确保高效可靠的数据传输。

这些增强功能旨在满足大型 AI 和 HPC 集群的需求 - 每种类型的部署都有单独的配置文件 - 尽管一切都是以外科手术的方式完成以增强技术，但尽可能多地重复使用现有以太网以维持成本效率和互操作性。

该联盟的创始成员包括 AMD、Arista、Broadcom、Cisco、Eviden（Atos 公司）、HPE、Intel、Meta 和 Microsoft。超以太网联盟（UEC）于2023年10月开始接受新成员后，众多行业巨头加入该联盟，包括百度、戴尔、华为、IBM、诺基亚、联想、超微和腾讯等。

该联盟目前计划在 2024 年第三季度的某个时间公开发布 UEC 规范的初始 1.0 版本。

“人们一直认为 UEC 正在满足行业的需求，”UEC 指导委员会主席 J Metz 说道。“人们强烈希望拥有一个开放、可访问、基于以太网的网络，专门为满足人工智能和高性能计算工作负载需求而设计。这种程度的参与令人鼓舞；它帮助我们实现广泛的互操作性和稳定性的目标。”

虽然很明显，超以太网联盟正在获得整个行业的支持，但仍不清楚 AWS 和谷歌等其他行业巨头的立场。虽然相关硬件公司可以在其硬件和系统中设计超以太网支持，但该技术最终的存在是为了服务于大型数据中心和 HPC 系统运营商。因此，一旦整合新兴以太网骨干技术的硬件准备就绪，看看他们对新兴以太网骨干技术的兴趣（以及他们采用的速度有多快）将会很有趣。

UEC 朝着 v1.0 规范迈进

超以太网联盟 (UEC) 继续朝着其 v1.0 规范集迈进。这些规范将为实施者提供部署数据中心网络技术最新创新的方法，以最好地服务于人工智能和高性能计算工作负载。由于 UEC 保留了现有的 AI 框架和 HPC 库 API，因此预计现有工作负载无需任何更改即可迁移到 UEC。

正如UEC 1.0 概述白皮书中所述，UEC 致力于通过以太网上的 RDMA（远程直接内存访问）操作现代化来优化 AI 和 HPC 工作负载。UEC Transport (UET) 通过提供多种创新来实现这一目标，这些创新可实现更高的网络利用率和更低的尾部延迟，这两者对于减少 AI 和 HPC 作业完成时间都至关重要。

随着AI模型和HPC工作负载规模不断增长，需要更大的集群，因此网络性能日益成为限制因素。此外，网络对功耗和总体 TCO 的贡献持续上升。对 UEC 网络技术的适度投资将带来快速的投资回报。

UEC 堆栈概述：UEC 遵循熟悉的分层方法，从广泛部署的 AI 框架和 HPC 库，到 libfabric 和 *CCL 库，再到 UEC 传输 (UET) 到以太网。这种方法对于所有网络工程师来说都很熟悉，并且保留了所有以太网的软件和工具。这些 UEC API 还促进了互操作性，同时为供应商差异化提供了空间。

UEC 堆栈简化了网络软件并提高了其性能。通过选择 libfabric 作为其北向 API，UEC 堆栈旨在集成到通常使用 libfabric 的现有框架中。值得注意的是 UEC 堆栈的两个关键方面：

RDMA 操作经过优化，可以更好地匹配工作负载预期、最大限度地降低硬件复杂性并减少状态。

超以太网传输 (UET) 提供多种传输服务，增强 RDMA 硬件并实现 UEC 1.0 概述白皮书中规定的关键目标。

白皮书中描述的一些关键功能是：

多路包喷
灵活订购
“最先进的”、易于配置的拥塞控制机制
端到端遥测
多种运输配送服务
交换机卸载（即网络内集体）
与交通共同设计的一等公民安全
以太网链路和物理层增强功能（可选）

多路径数据包喷射：UET 通过数据包喷射提供多路径数据包传送和细粒度负载平衡。UET下，每个流可以同时使用到达目的地的所有路径，实现所有网络路径的均衡使用。不是依靠简单的 ECMP 哈希来选择网络链路，而是通过在实时拥塞管理的指导下协调选择端点和交换机之间整个结构中的路径来避免负载不平衡。这种细粒度的负载平衡可以提高网络利用率并减少尾部延迟。

灵活的排序：UEC 堆栈提供了一个 libfabric API，允许应用程序表达消息和数据包排序的工作负载特定要求，并指导 UET 选择适当的传输服务。例如，由许多数据包组成的 AI 集合可以被视为“批量传输”，其中应用程序只关心知道给定消息的最后部分何时到达目的地。然而，用于改善负载平衡的多路径可能会导致数据包接收无序。其他技术使用简单的重新排序缓冲区来补偿这种行为，从而增加了成本、延迟、复杂性和功耗。相比之下，UET 提供了一种创新的解决方案，将多路径、灵活排序和拥塞控制相结合，以实现高效的接收端点实现，而无需重新排序缓冲区。UET 在每个数据包的基础上使用直接数据放置（即零复制）是实现高效实现的机制之一。

拥塞处理：大规模人工智能集群和 HPC 网络创建了独特的流量模式，需要对传统数据中心网络拥塞处理进行重大改进，特别是随着加速器的网络速度和带宽需求的增加。具有微秒级往返时间、并行处理应用程序和收缩协调多流流量的专用 AI/HPC 网络需要基于发送器的创新拥塞控制方法。

AllReduce 和 All-to-All 等基本集合的网络优化对于减少作业完成时间至关重要。为了为这些集体提供最高的网络性能，多条路径上协调的拥塞控制对于指导数据包喷射至关重要。UET 再次提供了高效且可扩展的解决方案：例如，All-to-All 集合可能会导致接收器之前的最终交换机遭受持续流量过载的 incast 事件。为了避免这些情况，UET 定义了一个可选的基于接收器的拥塞控制，它将信用分配给发送器，从而增强了基于发送器的拥塞控制。

认识到符合 UEC 的网络可能需要同时支持不同的 libfabric 请求类型，UET 与众不同的另一个领域是它能够在某些流量被喷射而另一些流量未被喷射时执行出色的拥塞控制。例如，当混合单路径和多路径流量 UET 传输服务时（如下所述），就会发生这种情况。

遥测：拥塞处理由显式拥塞通知 (ECN) 协助，该通知受到数据中心交换机的广泛支持，现在将得到 UET 创新端点拥塞缓解算法的进一步协助。UET 还增加了对基于交换机的高级遥测的可选支持，可缩短控制平面信令时间，从而实现对短拥塞事件的快速感知和反应。这种快速反应时间对于较高的链路速度尤其重要，因为拥塞事件可能发生得更快并且持续时间可能短得多。

这种高级遥测的一个例子是 UET 使用数据包修剪，其中兼容交换机截断或“修剪”拥塞的数据包（而不是丢弃它），并将数据包标头和相关拥塞信息发送到接收器。该策略将有关丢失数据包的准确且及时的信息传递给接收端点，从而更快地缓解基于组播的拥塞。与传统的重量级 Go-Back-N 方法相比，通过将此机制与使用选择性确认对拥塞事件进行更集中的响应结合起来，对拥塞和丢失的响应更快，带宽效率更高。在数据包丢失的情况下，使用较旧的 RDMA 技术所采用的 Go-Back-N 要求发送方重新传输可能已经在发送至接收方甚至已接收的数据包的长序列。

多种传输交付服务：应用程序需求决定了适当的 UET 服务的选择。UET 提供多种不同的运输服务，包括：

可靠有序传送 (ROD)：ROD 按顺序传送与同一消息关联的所有数据包，并保留消息间的顺序。它专为需要消息排序（例如，MPI 的匹配排序或 OpenSHMEM put-with-signal 语义）的应用程序而设计，同时受益于 UET 的拥塞控制和安全增强功能。

可靠无序传送(RUD)：RUD 旨在实现数据包必须仅传送到应用程序一次但可以容忍网络中的数据包重新排序（例如，大型集合）的操作。RUD 的创新 AI 优化方法通过在接收器处处理无序传送来实现多路径数据包喷射，无需重新排序缓冲区，从而实现高网络利用率和最小尾部延迟。

幂等操作的可靠无序交付 (RUDI)：RUDI 专为最大规模的应用程序而设计。这里应用程序的语义指导是，如果多次接收数据包并将其写入应用程序的缓冲区，则应用程序的最终结果不会改变（幂等性意味着多次应用操作不会改变最终结果）。因此，RUDI 允许在接收到整个消息之前将数据包多次传送到接收方。RUDI 传输服务的动机是最小化接收器所需的状态，从而实现更高的规模。它最适合批量有效负载交付等需要以最快的规模交付但需要最少的附加语义的操作。

交换机卸载（或网络内集合）： UEC 定义了将集合操作（例如 AllReduce）卸载到网络所需的机制。这提高了带宽利用率并最大限度地减少了某些集体操作的执行时间。集体操作的完成为许多人工智能或高性能计算工作的下一个计算阶段奠定了基础。虽然可以选择实施，但交换机卸载可以提供应用程序级性能改进，而不仅仅是网络级改进。当 UEC v1.0 可用时，这将是首次通过以太网链路提供此类技术并对其进行标准化！

安全性： UEC 传输层与传输服务共同设计安全性，以解决威胁模型，同时为消息完整性、机密性和重放预防提供高效且经济的解决方案。请注意，考虑到 UEC 网络的预期速度和规模，安全性可能会带来可扩展性挑战。因此，需要特别注意最大限度地减少开销和大规模密钥管理，例如通过提供有效的组密钥机制。随着潜在的数十万个端点和 1.6Tb/秒的链接速度即将到来，可扩展的密钥管理成为一项要求。

概况：虽然人工智能和高性能计算工作负载正在融合，但它们仍然有一些不同的要求。大多数 AI 工作负载会生成较大的消息，并且对带宽敏感，而许多 HPC 工作负载依赖于消息排序，生成非常短的消息，并且对延迟非常敏感。在 MPI 下，HPC 对数据包和消息顺序更加敏感。最近的人工智能推理工作负载可能比人工智能训练对延迟更加敏感。AI 所需的极限带宽需要高度优化的 NIC（网络接口卡），其中芯片尺寸、功耗和状态管理都必须考虑在内。因此，UEC 提供多种配置文件来满足不同的工作负载需求。每个配置文件都是传输服务、libfabric API 以及最适合工作负载的所需功能的聚合。配置文件可实现产品灵活性和优化、促进互操作性并实现供应商差异化。

以太网层合规性：UEC 架构旨在与现有以太网交换机兼容并可互操作。但是，UEC 指定了额外的可选扩展，以改进对 AI 和 HPC 的支持。例如，UET 支持链路级可靠性 (LLR)。在典型的高带宽密集环境中，对于尾部延迟敏感的人工智能部署很常见，如果一条链路性能不佳（例如，由于间歇性较高的误码率（BER）），它可能会减慢整个并行链路的速度。应用。LLR 提供基于硬件的快速反应，缓解链路性能问题。

有损和无损网络：虽然 UET 在有损网络上提供出色的性能，利用多路径和网络遥测辅助的改进拥塞控制，但它也设计为在无损网络上运行。事实上，它使无损以太网易于调整，并避免造成拥塞扩散，而拥塞扩散一直是无损网络所关注的问题。

是什么让 UEC 设备成为 UEC 设备？

与过去二十年的行业趋势一致，UEC 的关键创新在于端点。符合 UEC 的网络必须具有支持 UET 的端点（即，遵守由 UEC 配置文件之一定义和总结的相关 UET 模式和 API）。UEC 配置文件的支持汇集了简化的 RDMA、零复制多路径、更高的网络利用率和减少的尾部延迟，所有这些都实现了最低的 AI 和 HPC 作业完成时间。

如上所述，UET 可以在现有数据中心交换机上运行，但在先进遥测和 UEC 增强型以太网、传输和软件层的支持下，性能会更好。

不断壮大的社区

UEC现在是一个大财团。截至撰写本文时，它拥有 55 家会员公司，其中 750 多名会员积极参与八个工作组。预计其架构和公共发展的下一阶段，UEC 增加了四个新工作组：存储、管理、性能和调试以及合规性。这四个工作组是对现有传输、软件、链路层和 PHY 层工作组的补充。UEC 已成为人工智能和 HPC 网络领域的一支极其强大的力量，推动了以太网生态系统的大量创新。