揭秘EQDS:AI时代数据中心的新宠
2023年以来,以ChatGPT为代表的生成式 AI(AIGC,Artificial Intelligence Generated Content)技术成为整个科技行业最热门的讨论话题。业内大模型已推出千亿、万亿级参数量,底层GPU算力部署规模也达到万卡级别,对智能算力的需求不断增长。
在AI大模型的训练中,数据中心已经成为了AI运算的“大脑”,网络的性能成为了制约其规模扩展和性能提升的关键因素,一旦网络性能不佳,就会影响分布式训练的质量和速度。而EQDS技术,正是这个“大脑”中不可或缺的一部分。
何为EDQS?
EQDS,全称为Edge-queued datagram service,是一种新型的数据报服务,它的出现为数据中心带来了革命性的变革。该技术将几乎所有的排队操作从数据中心网络移动到了主机端侧,对数据中心网络流量传输进行了优化,包括带宽提升、时延降低、流量负载均衡等。这就像是给数据中心装上了一个“加速器”,让数据传输更加流畅、高效。
EQDS DPDK可以在Host主机的用户空间运行,提供类似DMA内存直接访问能力。更重要的是,EQDS的实现不需要依赖于特定的硬件网卡,应用程序可以直接在用户态执行数据传输,不需要在内核态与用户态之间做上下文切换。这意味着,无论是通用计算、存储还是高性能计算场景,EQDS都能轻松胜任。
EDQS是如何产生的?
既然EQDS如此优秀,那它又是如何产生的呢?其实,EQDS的出现并非偶然。TCP协议虽然广泛适用,但由于其本身的机制,导致通信过时延增加;RDMA技术虽然适用于高速网络,但其只对拥塞信号“事后”作出反应的机制,也导致了长尾时延的增加。此外,TCP流量和RDMA流量共存时,会贪婪地占用带宽,导致RDMA被抑制。正是在这样的背景下,EQDS应运而生。
EQDS基于Credit信令机制,在无需交换机参与下实现了端到端的拥塞控制。主机接收端分发credit,确保主机发送端流量在接收端不会过载,解决了动态时延不确定性问题。
利用交换机逐包ECMP的方式,实现网络侧的负载均衡,同时在无需专用NIC支持的情况下实现接收端的数据包重组。
采用EQIF隧道技术,建立EQDS virtual interface虚拟队列和隧道细粒度的调度策略,实现TCP和RDMA流量的公平共享。
经过实测验证,EQDS技术在存储网络NVMe-OF场景下表现优异。
在不同网卡、不同场景下,NVMe over EQDS的性能表现几乎相同,且明显优于NVMe over TCP,稍逊色于NVMe over RDMA。当然,由于EQDS DPDK运行在用户态,测试主机的CPU较低,无法完全发挥EQDS的性能。不过,只要采用AMD EPYC及以上的CPU,EQDS的性能将会得到充分发挥。
总的来说,EQDS技术为数据中心带来了诸多价值。
它兼容标准网卡、协商阶段确定对EQDS的支持、兼容与传统网卡的TCP/IP通信、业务无感部署、基于EQIF欺骗应用层实现应用层面零修改、兼容RDMA、TCP/IP业务、数据面去RDMA+QP基于EQDS转发、端侧基于标卡实现DMA进行内存拷贝、端到端稳定低延时等。
EQDS可以透明地加速传统的TCP和RDMA协议栈,并支持传输协议的演进,同时受益于未来的交换机增强功能而无需修改更高层的协议栈。更重要的是,基于EQDS的Credit机制实现发端流控、基于Spray方式充分利用所有链路、基于EQIF隧道策略实现多业务的公平调度等特性,使得EQDS成为了AI时代数据中心的新宠。
在智算中心网络方案研发中,锐捷网络推出AIGC智算中心网络方案,囊括高性能以太网络解决方案以及AI-Fabric智算中心网络解决方案,来应对全球互联网流量不断增长和数据应用需求多样化的发展趋势。锐捷网络致力于推动网络技术的进步和发展,持续进行技术研发和产品开放创新,积极探索国内外先进技术,为全球的数据中心提供更加高效、可靠、智能的网络解决方案,助力互联网、运营商等各行各业的快速发展。
微信扫码关注该文公众号作者