Redian新闻
>
揭秘EQDS:AI时代数据中心的新宠

揭秘EQDS:AI时代数据中心的新宠

公众号新闻

2023年以来,以ChatGPT为代表的生成式 AI(AIGC,Artificial Intelligence Generated Content)技术成为整个科技行业最热门的讨论话题。业内大模型已推出千亿、万亿级参数量,底层GPU算力部署规模也达到万卡级别,对智能算力的需求不断增长。

在AI大模型的训练中,数据中心已经成为了AI运算的“大脑”,网络的性能成为了制约其规模扩展和性能提升的关键因素,一旦网络性能不佳,就会影响分布式训练的质量和速度。而EQDS技术,正是这个“大脑”中不可或缺的一部分。


何为EDQS?    


EQDS,全称为Edge-queued datagram service,是一种新型的数据报服务,它的出现为数据中心带来了革命性的变革。该技术将几乎所有的排队操作从数据中心网络移动到了主机端侧,对数据中心网络流量传输进行了优化,包括带宽提升、时延降低、流量负载均衡等。这就像是给数据中心装上了一个“加速器”,让数据传输更加流畅、高效。

EQDS DPDK可以在Host主机的用户空间运行,提供类似DMA内存直接访问能力。更重要的是,EQDS的实现不需要依赖于特定的硬件网卡,应用程序可以直接在用户态执行数据传输,不需要在内核态与用户态之间做上下文切换。这意味着,无论是通用计算、存储还是高性能计算场景,EQDS都能轻松胜任。


EDQS是如何产生的?    


既然EQDS如此优秀,那它又是如何产生的呢?其实,EQDS的出现并非偶然。TCP协议虽然广泛适用,但由于其本身的机制,导致通信过时延增加;RDMA技术虽然适用于高速网络,但其只对拥塞信号“事后”作出反应的机制,也导致了长尾时延的增加。此外,TCP流量和RDMA流量共存时,会贪婪地占用带宽,导致RDMA被抑制。正是在这样的背景下,EQDS应运而生。

EQDS基于Credit信令机制,在无需交换机参与下实现了端到端的拥塞控制。主机接收端分发credit,确保主机发送端流量在接收端不会过载,解决了动态时延不确定性问题。

利用交换机逐包ECMP的方式,实现网络侧的负载均衡,同时在无需专用NIC支持的情况下实现接收端的数据包重组。

采用EQIF隧道技术,建立EQDS virtual interface虚拟队列和隧道细粒度的调度策略,实现TCP和RDMA流量的公平共享。

经过实测验证,EQDS技术在存储网络NVMe-OF场景下表现优异。

在不同网卡、不同场景下,NVMe over EQDS的性能表现几乎相同,且明显优于NVMe over TCP,稍逊色于NVMe over RDMA。当然,由于EQDS DPDK运行在用户态,测试主机的CPU较低,无法完全发挥EQDS的性能。不过,只要采用AMD EPYC及以上的CPU,EQDS的性能将会得到充分发挥。

总的来说,EQDS技术为数据中心带来了诸多价值。

它兼容标准网卡、协商阶段确定对EQDS的支持、兼容与传统网卡的TCP/IP通信、业务无感部署、基于EQIF欺骗应用层实现应用层面零修改、兼容RDMA、TCP/IP业务、数据面去RDMA+QP基于EQDS转发、端侧基于标卡实现DMA进行内存拷贝、端到端稳定低延时等。

EQDS可以透明地加速传统的TCP和RDMA协议栈,并支持传输协议的演进,同时受益于未来的交换机增强功能而无需修改更高层的协议栈。更重要的是,基于EQDS的Credit机制实现发端流控、基于Spray方式充分利用所有链路、基于EQIF隧道策略实现多业务的公平调度等特性,使得EQDS成为了AI时代数据中心的新宠。


在智算中心网络方案研发中,锐捷网络推出AIGC智算中心网络方案,囊括高性能以太网络解决方案以及AI-Fabric智算中心网络解决方案,来应对全球互联网流量不断增长和数据应用需求多样化的发展趋势。锐捷网络致力于推动网络技术的进步和发展,持续进行技术研发和产品开放创新,积极探索国内外先进技术,为全球的数据中心提供更加高效、可靠、智能的网络解决方案,助力互联网、运营商等各行各业的快速发展。


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AI狂飙时代,数据中心的角色与使命芯片巨头,决战数据中心数据中心芯片,英特尔能王者归来吗?赴美实地考察系列:巅峰对话揭秘EB-5项目甄选策略被嘲太土的“中式审美“,成为巴黎的新宠儿,网友直呼:这才是真的文化自信※ ※ 纯真年代 ※ ※ 纪念夏时制结束,终于可以回到日出而作的纯真年代了:DDDD耗资 2.2 亿美元的数据中心项目落户北沃斯堡福特重启与宁德时代建造电动汽车电池工厂计划;全球首个商用海底数据中心数据舱成功下水;卫星互联网技术试验卫星成功发射丨智能制造日报解析BA/DS/MIS:数据分析三巨头的区别39 项 Linux 基准测试:英伟达数据中心 CPU Grace 媲美 Threadripper 7000AOC U27G3XM 显示器开售:4K QD-MiniLED 面板,到手价 3499 元「纯钧」完成亿元级A轮融资,重点布局数据中心「液冷」服务|36氪首发拆解 PCIe 6.0:下一代数据传输技术美国实地考察:揭秘EB-5项目真相KKR和华平在AI与云热潮下进军亚洲数据中心攻陷宅男的新宠,抖音超10亿播放英伟达首次透露:上季度 180 亿美元数据中心收入,AI 推理已高达四成红色日记 大喜事 5.24-31微软或将在Win11推出Copilot文件分析功能;贾斯汀·霍塔德将出任英特尔数据中心与AI事业部负责人丨AIGC日报GPU用得太多了,数据中心碰到大麻烦突发!美国拟限制中国公司使用其云数据中心训练AI模型;TikTok、英雄联盟开发商裁员;哄哄模拟器爆火 | AI周报「纯钧」完成亿元级A轮融资,重点布局数据中心「液冷」服务|早起看早期一路走来(三十二)“木头姐”再刷纪录!旗下基金ARKK单月涨逾30%,这只QDII成市场焦点引入Lake Shore超强产品线,QD中国让国内低温测量进入新时代!Linus Torvalds:Linux 内核中的 Rust、AI 和疲劳的维护者 | Linux 中国希腊阿索斯山(Mount Athos),大山语言外祖父五十二年的一封信这家券商资管获得监管反馈,年内更有三家公募获批,QDII为何受捧?大事件,QD中国与Lake Shore强强联合,低温测量新时代!数据中心:CPU空间巨大,国内厂商份额却极低柿饼界的新宠鲜食柿饼!外软里润,一口爆浆流心,太过瘾了~小红书诗歌文案,品牌的新宠人工智能和加密挖矿业务导致数据中心能耗快速增加英伟达获5亿美元天价大单!印数据中心一口气买下16000块H100/GH200
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。