Redian新闻
>
超以太网联盟UEC | 超以太网或许才是下一代AI网络的理想答案

超以太网联盟UEC | 超以太网或许才是下一代AI网络的理想答案

公众号新闻

2023年7月19日,超以太网联盟(Ultra Ethernet Consortium,简称UEC)正式宣布成立。这个新组织是由Linux基金会及其联合开发基金会所倡议并主办。UEC将利用以太网的普遍性和灵活性来处理各种工作负载,同时确保其具备可扩展性和成本效益。该组织将提供基于以太网的开放、可互操作、高性能、全通信堆栈架构,取代传统的RoCE协议,以满足大规模AI和HPC不断增长的网络需求,提供与HPC一样高性能、低时延,并且像以太网一样普及和经济高效,同时具备云数据中心的扩展能力。







RCoE用于未来

AI/HPC网络的局限性


RDMA(Remote Direct Memory Access) 是当今 AI 训练作业的基本组成部分,允许 CPU、GPU、TPU等加速器将数据直接从发送方内存传输到接收方内存,单个GPU/TPU加速器可以集成多个同构或异构网络 I/O。其中RCoE (RDMA over Converged Ethernet) 通过 Verbs API 表达的方式可追溯到上世纪末,多年前才首次由InfiniBand贸易协会(InfiniBand Trade Association,IBTA)进行标准化,其底层的以太网络已经提供每秒400G甚至800G速率,这比最初设想的场景提高了几个数量级,重新审视AI/HPC网络核心所采用的底层传输协议和网络API成为必然。

实际上,随着人工智能模型规模扩大、通信模式及计算方法的多样化,传统基于RoCE的RDMA方案存在诸多问题:

  • RoCE和DCQCN是拥塞控制算法,用于避免链路超限并提高速率。但DCQCN对其下方网络和负载性质敏感,需手动调整性能。未来的AI网络需要一种适用于任何数据中心的传输协议。
  • 网络运营商在“无损”网络(InfiniBand和RoCE)上运行RDMA以避免此行为,但效率低。优先级流量控制 (PFC) 生成逐跳背压以太网是无损的,但背压(Back Pressure)传播导致拥塞树、队头阻塞、环路死锁等,使网络性能下降。PFC/ECN、DCQCN需根据网络情况调整、操作和监控,成本高。未来的AI网络急需不依赖于无损结构的传输协议。
  • 无论是在带宽还是对等点数量方面。Verbs API设计规模已经捉襟见肘。RC(可靠连接)传输模式如果不减少快速路径状态,就不适合高速率下的高效硬件卸载。此外,固有的流程到流程 (N*P*P)的可扩展性问题也是一大限制。这些问题还没有完美的解决方案,而未来的AI网络需要能支撑Verbs API设计规模的传输协议。
  • AI应用程序传输大量数据,受NIC QP Scale和AI模型数据交互方式限制,传统RoCE需仔细进行大象流负载均衡以防止链路过载。AI工作负载决定了整个计算周期受限于所有流成功交付,而未来更高性能的AI网络需要改进的负载均衡技术。


另一方面,TCP/IP具有RoCE没有的的优点,包括生态系统、性能/规模、工具、成本、标准调整和GPU超大规模部署。但为真正满足AI网络需求,以太网需要进行改进创新,尽快将消息传递到所有参与端点,避免少数端点出现长时间延迟,并尽量减少“尾部延迟”,提供更高性能并适应未来AI/HPC和Cloud网络规模扩大、带宽提高和时延降低的需求。







UET协议简介



尽管TCP/IP具有一些RoCE不具备的优点,但是在无损架构下(Lossless Network)运行并提供丢包重传功能,同时避免触发队头阻塞和拥塞扩散,这一挑战仍然存在。为了应对这一挑战,超以太网联盟(UEC)提出了超以太网传输协议(Ultra Ethernet Transport, UET),该协议可以在保留以太网/IP生态系统优势的同时,为AI和HPC应用程序提供所需的性能。UET传输协议通过提供以下功能超越了现状:

  1. 开放协议规范从一开始就设计为在 IP 和以太网上运行
  2. 多路径、数据包喷射传输,充分利用 AI 网络,不会造成拥塞或队头阻塞,无需集中式负载均衡算法和路由控制器
  3. Incast 管理机制可控制到目标主机的最终链路上的扇入,并以最小的丢包率进行控制
  4. 高效的速率控制算法,允许传输快速提升至线速,同时不会导致竞争流的性能损失
  5. 用于无序(out-of-order)数据包传输的 API,也可选择按顺序 (in-order)完成消息,最大限度地提高网络和应用程序的并发性,并最大限度地减少消息延迟
  6. 可扩展未来网络,支持 1,000,000 个端点
  7. 性能和网络利用率优化无需针对网络和工作负载进行拥塞算法参数调整
  8. 旨在在商用硬件上实现 800G、1.6T 和未来更快以太网的线速性能

UET协议将超越传输层,定义标准语义层、改进的低延迟交付机制以及一致的 AI 和 HPC API,并提供标准的多供应商支持,以便通过 UEC 传输协议实现这些 API。








UEC联盟成员



为了实现全行业在互操作性方面的合作,UEC构建了完整的基于以太网的通信堆栈架构,匹配快速发展的、大规模的AI/HPC工作负载,并提供一流的功能、性能、互操作性、TCO以及开发人员和最终用户友好性。UEC由在高性能解决方案方面拥有悠久历史和经验的公司创立,每个成员都以平等的方式为更广泛的高性能生态系统做出了重大贡献。这些成员包括AMD、Arista、博通、思科、Eviden、HPE、Intel、Meta和微软,他们都有数十年的网络、人工智能、云和高性能计算大规模部署经验,将为UEC的四个工作组——物理层、链路层、传输层和软件层做出贡献。







锐捷网络在行动


锐捷网络作为智算中心网络建设领军者,当前也在践行以太无损网络解决方案的路线,支撑超大规模的算力集群建设。锐捷网络推出了AI-Fabric智算中心网络解决方案,天然支持无损机制和负载均衡,方案优势具体如下:

  • 基于AI fabric的架构设计,NCP层面采用1. 1 : 1的超速比缓解网络中Incast的问题规避拥塞,基于Cell的高效路由可以加速互联链路的故障收敛时间,不需要部署复杂低效的BGP路由。
  • 基于Cell的切片技术,优化链路的负载均衡效果提升网络带宽利用率,缩短业务的流完成时间FCT 。
  • 基于VoQ缓存和Credit的拥塞控制机制实现Fabric网络中的数据无损转发,彻底解决丢包重传的问题确保业务持续高吞吐地转发,进而来提升整个算力集群的GPU利用率。

(详见《锐捷网络高性能网络方案,为AIGC打通 “任督二脉”》)

同时,在传统RoCE协议的基础上,锐捷在多路径流量调度技术上进行了创新,推出RALB(Remote Adaptive Load Balancing)技术。通过感知链路质量,进行逐包的全局动态负载均衡,让网络带宽利用率可达97.6%,有效实现端网联动。(详见《解决数据中心网络拥塞,锐捷RALB负载均衡技术助力高效数据传输》)





在全球互联网流量不断增长和数据应用需求日益多样化的背景下,锐捷网络致力于推动网络技术的进步和发展,全局负载均衡解决方案的推出正是其不断探索和创新的有力证明。通过持续的技术研发和产品创新,锐捷网络将继续为全球的数据中心提供更加高效、可靠、智能的网络解决方案,在AIGC时代,助力互联网企业及各行各业的快速发展。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
聊聊什么是“以太网交换机”?8点1氪:去哪儿网或将实行灵活办公制度;威马汽车回应申请破产重整;库克回应每年iPhone几乎没太大升级长篇小说《如絮》第一百八十三章 北京-2007年 沧海事,暮天钟边境的理想净土!秋冬避寒,真的不一起去东方多瑙河边上的它吗!以太全光网铺就网络“高速路” 铁一中金湾中学携手锐捷打造全光智慧校园厦门186cm肌肉男教练走红,身材太撩,女网友:这就是我的理想男友!!【提示】聚焦网络谣言、网络暴力等网络乱象,上海警方多措并举维护清朗有序网络环境一文带你了解阿里云云网络的十年演进之路新思科技王志宇:加速先进节点上的下一代 SoC 设计|Arm Tech Symposia 演讲预告坚定心有大我、至诚报国的理想信念——论学习习近平总书记关于弘扬教育家精神的重要指示①工业软件从“仿真”到“逼真”,国家超算互联网或成加速器Newton2023全新独栋!时尚高级豪宅,5室6卫双庭院,位置优越,住宅的理想选择!广告,一个国家的理想Graphite:由 AI 助力的基于网络的开源矢量图形编辑器 | Linux 中国以太网已经 50 岁了,斩获 IEEE 里程碑称号 | Linux 中国金色的云上海交大团队发现频率原则,开启理解神经网络的新方向惨遭挖墙脚,星空联盟创始成员将转投天合联盟,航司联盟版图将有重大变化当我们说起神经网络的等变性,我们在谈论什么?将尚未接入网络的人连接起来比水稻还古老的粮食,竟一直被忽略?大人孩子的理想食物,搅搅拌拌就搞定《智慧园区以太全光网络建设技术规程》应用案例征集活动西安站疯马秀脱粉风波背后:当“亲妈粉”的理想回归现实读王朔《汉奸论》,也来篇《汉奸论》北欧航空 SAS 将退出星空联盟,转投天合联盟!读书人追求的理想工作,其实一地鸡毛更趋近分体式AR眼镜的理想形态,雷鸟Air 2上手体验图神经网络的底层数学原理总结同样是学新闻出身,他却倔强地守护着中国网络的绿水青山红色日记 1966年 17岁 6.1-12交通不便且没有网络的古代,仅靠通缉令如何抓捕犯人苹果下一代Vision Pro出厂时可能会配备处方镜片;Meta计划推出更低价的“Quest 3”车联网联盟CCC:CCC数字钥匙进入汽车的未来白皮书喝茶随思AIoT+Web3=DePIN,共建机器间大规模协作网络的网络
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。