Redian新闻
>
InfiniBand与RoCE对比分析:AI数据中心网络选择指南

InfiniBand与RoCE对比分析:AI数据中心网络选择指南

公众号新闻

本文来自“InfiniBand与RoCE对比分析:AI数据中心网络选择指南”。在当前人工智能技术飞速发展的背景下,其在包括自然语言处理、计算机视觉、自动驾驶系统、虚拟助手服务、推荐算法以及医疗诊断在内的众多前沿应用中发挥着至关重要的作用。随着AI应用的不断深化与升级,数据中心基础设施必须应对日益严苛的要求,特别是对于低延迟、高吞吐量网络的需求愈发迫切,以确保能够高效处理复杂且数据密集型的工作负载。

相关阅读:

InfiniBand,撼动不了以太网?

英伟达Quantum-2 Infiniband平台技术A&Q

一颗Jericho3-AI芯片,用来替代InfiniBand?

RoCE技术在HPC中的应用分析

GPU集群:NVLink、InfiniBand、ROCE、DDC技术分析

InfiniBand高性能网络设计概述

一文了解InfiniBand和RoCE网络技术

关于InfiniBand和RDMA网络配置实践

InfiniBand网络简介

在AI数据中心中,InfiniBand网络凭借其卓越的性能和可靠性备受瞩目。该网络通过专门设计的InfiniBand适配器或交换机实现高效的数据传输,并由多个核心组件构成:子网管理器(SM)、InfiniBand网卡、InfiniBand交换设备以及专用的InfiniBand线缆与光模块。
全球知名芯片制造商NVIDIA,在推动高性能计算和AI领域发展的同时,也成为了提供一系列InfiniBand网卡解决方案的主要力量。其中包括正在快速演进的200Gbps HDR技术及已大规模商业部署的400Gbps NDR网卡产品。此处展示的图表即为目前广泛应用的InfiniBand网络接口卡类型。.
值得一提的是,InfiniBand交换机不运行传统路由协议,而是采用集中式管理机制,由子网管理器负责整个网络转发表的计算与分发工作,同时承担着配置InfiniBand子网内部特性的重要任务,例如分区策略和服务质量(QoS)。构建InfiniBand网络时,必须使用专为InfiniBand设计的电缆和光模块来确保交换机之间以及交换机与网卡之间的无缝连接。

InfiniBand网络解决方案特性

本征无损传输机制

InfiniBand网络创新性地采用了基于信用的信号控制策略,从底层设计上有效防止了缓冲区溢出和数据包丢失的问题。在数据发送前,发送端会确保接收端拥有充足的信用额度来处理相应数量的数据包。每条链路在InfiniBand架构中均预设了缓冲区,数据传输量严格受限于接收端当前可用的缓冲区容量。一旦接收端完成转发任务,即释放缓冲区,并实时更新并反馈当前剩余的缓冲区大小。这种链路级别的流量控制技术确保了发送端不会向网络中过度填充数据,从而有效地避免了因缓冲区满载而导致的数据包丢失。

网卡扩展及自适应路由能力

InfiniBand网络还采用了先进的自适应路由技术,支持针对每个数据包进行动态路径选择,这使得在网络大规模部署时能充分利用资源,实现最优性能表现。例如,在百度AI云、微软Azure等大型云计算环境中,采用InfiniBand互联的GPU集群得到了广泛应用。

市场主要供应商及其产品优势

目前市场上有多家主流供应商提供具备竞争力的InfiniBand网络解决方案及相关硬件设备,其中NVIDIA凭借超过70%的市场份额成为市场领导者。此外,其他重要的行业参与者包括:
  • 英特尔公司:其供应一系列专为InfiniBand优化设计的网络产品和全套解决方案。

  • 思科系统:作为全球知名的网络设备制造商,思科提供了功能强大的InfiniBand交换机及相关配套产品。

  • 惠普企业(HPE):作为业界权威的IT企业,惠普企业推出了种类丰富的InfiniBand网络解决方案,涵盖了适配器、交换机以及服务器等多种关键组件。
这些顶级供应商的产品与解决方案均根据不同的用户需求进行了精细化定制,并能够满足各种规模和应用场景下对InfiniBand网络的部署要求。

RoCE v2网络技术概述

不同于依赖于集中式管理架构(如子网管理器SM)的InfiniBand网络,RoCE v2网络采用全分布式架构设计,并由具备RoCEv2功能的NIC(网络接口卡)和交换机共同构建,通常以两层架构部署在数据中心环境中。
多家主流制造商已提供支持RoCE技术的网络适配器产品,其中NVIDIA、Intel和Broadcom是主要供应商。作为数据中心服务器网络适配器的主要形态,PCIe卡广泛应用其中。RDMA卡普遍配置有50Gbps起步的端口PHY速率,目前市面上可购买到的商用单端口网络适配器最高速度已达400Gbps级别。
当前大部分数据中心交换机均已集成RDMA流控技术,在与RoCE网络适配器协同工作时,能够实现从发送端到接收端的高效RDMA通信。全球顶尖的数据中心交换机厂商,如Cisco、Hewlett Packard Enterprise(HPE)以及Arista等,均提供了高性能且稳定的数据中心解决方案,以满足大规模数据中心对带宽和性能的需求。这些公司在网络技术创新、性能优化及扩展性方面积累了深厚的专业经验,并在全球范围内赢得了广泛的市场认可和应用实践。
高性能交换机的核心竞争力在于其采用的转发芯片。在当前市场中,Broadcom公司的Tomahawk系列芯片被广泛应用于商业交换机的转发层面。其中,Tomahawk3系列芯片在现役交换机市场上占据主导地位,而随着技术迭代升级,越来越多的新型交换机开始支持更先进的Tomahawk4系列芯片。
RoCE v2基于以太网协议运行,因此可以充分利用传统的以太网光纤和光模块资源进行部署。

ROCE v2网络技术特性解析

相比于InfiniBand,RoCE v2网络解决方案在灵活性和成本效益上展现出更多优势。该技术不仅能够构建高性能的RDMA(远程直接内存访问)网络环境,同时还能无缝融入传统以太网架构中。然而,在实际部署过程中,需要对交换机进行诸如Headroom预留、PFC(优先级流量控制)以及ECN(显式拥塞通知)等参数的精细配置,这可能会增加一定的实施复杂度。尤其是在大规模部署场景下,尤其是当涉及大量网络接口卡时,相较于InfiniBand网络,RoCE v2网络的整体吞吐性能可能略逊一筹。
当前市场上,多家主流交换机供应商均支持RoCE协议,并提供了相应的解决方案。其中,NVIDIA推出的ConnectX系列网络适配器在与RoCE v2兼容性方面表现卓越,已在市场占有率上占据了显著地位。这意味着选择RoCE v2方案的企业能够在保持较高性价比的同时,享受到来自全球领先厂商的技术支持和服务保障。

InfiniBand vs. RoCE v2

从技术层面剖析,InfiniBand通过整合多种创新技术手段,有效提升了网络数据转发效率、缩短了故障恢复时间、增强了网络扩展性,并简化了运维管理的复杂度。
在实际应用中,RoCE v2作为一项高效解决方案,在满足大多数智能计算场景需求的同时,InfiniBand则凭借其在特定领域的卓越性能表现而备受瞩目。
业务性能:InfiniBand因其较低的端到端延迟特性,在应用层面上能提供更优的业务性能体验。尽管如此,RoCE v2同样能够在大部分智能计算场景下达到用户所需的业务处理效能标准。
业务规模:InfiniBand具备强大的扩展能力,能够支持数万个GPU卡构建集群,且在大规模部署下仍可保持性能稳定无损,已在业界拥有大量成功商业应用案例。而RoCE v2网络也不甘示弱,它能够支撑数千张卡构成的集群,并且整体网络性能并无显著下滑。
业务运维:InfiniBand相较于RoCE v2更加成熟,提供了诸如多租户隔离及运维诊断等高级功能,为数据中心的运维管理带来了更高的便捷性和可控性。
成本考量:InfiniBand的成本相对较高,主要原因在于其交换机设备的价格高于以太网交换机。
关于供应商:NVIDIA作为InfiniBand的主要供应商,持续为市场提供优质的产品与服务;而在RoCE v2领域,则有多家供应商共同参与并提供支持,为用户提供了更多元化的选择空间。

总结

近年来,数据中心网络技术发展的一个重要方向是简化网络架构设计、加快部署进程以及优化运维管理。通过采用如无编号BGP等创新技术方案,能够有效减少对复杂IP地址规划的依赖性,从而避免配置错误的发生,提升整体工作效率。与此同时,诸如WJH这类实时故障检测工具为网络运维带来了深度洞察力,极大地助力于快速定位和解决网络问题。
随着数据中心基础设施向分布式和多数据中心互联模式演进,对于更高速率及更高品质网络连接的需求日益增长。为了满足不断提升的整体服务质量要求,市场呼唤更为高效且可靠的网络解决方案。
文章来源:https://community.fs.com/cn/article/infiniband-vs-roce-how-to-choose-a-network-for-ai-data-center.html

下载链接:


转载申明:转载本号文章请注明作者来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。

推荐阅读
更多架构相关技术知识总结请参考“架构师全店铺技术资料打包(全)”相关电子书(41本技术资料打包汇总详情可通过“阅读原文”获取)。

全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”一起发送“服务器基础知识全解(终极版)和“存储系统基础知识全解(终极版)pdf及ppt版本,后续可享全店内容更新“免费”赠阅,价格仅收249元(原总价399元)。


温馨提示:

扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)电子书资料详情


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
【行业日报】 Target宣布下调5000种常见商品价格!谷歌宣布投资10亿欧元扩建芬兰数据中心!AI 数据中心的能源困境英伟达首次透露:上季度 180 亿美元数据中心收入,AI 推理已高达四成数据中心芯片市场,争什么?BMO应用和网银今早中断!数据中心误报火警...《阴阳鱼》连载第17章:时间如刀,空间如砧板,而你我都不过是鱼肉AI 2.0时代,戴尔科技携手英特尔为数据中心“降温”dá àn jiē xiǎo 🥳AI数据中心网络架构需求:400/800G光模块苹果被曝出严重BUG:已出售的二手设备可显示原机主照片;雷军直播开车2千万人围观;特斯拉被曝将在中国建立自动驾驶数据中心丨邦早报外婆要买的三大件AI早知道|抖音内测AI购物小助手;OpenAI与Reddit合作没学IGCSE对Alevel有多大影响?据说学习一年制Alevel很难拿到G5 offer?保险产品全方位对比,票帝手把手教你选择最合适的!【2024.3更新,增加按照旅行目的地的对比】玩个心跳34项罪名成立, 特朗普会入狱吗? 美国首座超级过山车将在新泽西完工; 亚马逊计划在宾州北部兴建大型数据中心谷歌计划在扩建人工智能数据中心后热量再利用摩根士丹利:AI数据中心就是“吞铜兽”,今年铜价或再涨18%八倍速走红看傻全网,这“最良心网红”自己都被排大队整懵了英伟达获5亿美元天价大单!印数据中心一口气买下16000块H100/GH200美股基本面 - 2024_02_04 * 晨报 * 红海局势持续紧张 苏伊士运河1月收入锐减近一半。那些被GLP-1吓到的美股缺电后是缺水?摩根大通:到2030年,数据中心每天将消耗4.5亿加仑的水!这几年的硅谷,传统办公楼转正转变为数据中心……今日arXiv最热NLP大模型论文:清华大学提出IFT对齐算法,打破SFT与RLHF局限性智领全栈 模力全开|锐捷网络携智算中心网络方案亮相2024GIDCHand in hand,Co-creating Infinity|2024锐捷网络EBG全球合作伙伴大会召开39 项 Linux 基准测试:英伟达数据中心 CPU Grace 媲美 Threadripper 7000深度分析:月收入超12亿,三消冠军手游《Royal Match》厉害在哪?数据中心网络架构设计与挑战深度解读RoCE v2网络技术狼子野心暴露 #郭文貴 開辦農場大肆斂財CVPR 2024 | COCO数据集升级!字节提出新一代数据集COCONut数据分析师噩梦?ChatGPT实时互动分析Excel数据,网友挖出背后新模型技术盛宴 | 多维度对比分析AIGC网络网卡双上联技术架构百亿美元只是开胃菜!科技大厂天量撒钱狂升数据中心:英伟达「铲子梦」还能做多久?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。