Redian新闻
>
高性能计算:RoCE v2 vs. InfiniBand网络该怎么选?

高性能计算:RoCE v2 vs. InfiniBand网络该怎么选?

科技互联网



高性能计算网络平台解决方案能够解决物探高性能计算中,基于GPU的程序必须调用 IB栈,而传统TCP/IP 堆栈应用无法支撑高性能计算网络通信的问题。


ROCE v2架构解决方案逐渐被客户接受(参考:详解RoCE网络技术RoCE网络技术和实现方式), 生态和应用不断成熟,同时网络传输效率和可靠性也得到加强,通过ROCE v2 技术的运营降低了主机CPU消耗。



HPC是指利用聚集起来的计算能力来处理标准工作站无法完成的数据密集型计算任务,例如勘探业务中所需要的仿真、建模和渲染等。我们在处理各种计算问题时常常遇到这样的情况:由于需要大量的运算,一台通用的计算机无法在合理的时间内完成工作,或者由于所需的数据量过大而可用的资源有限,导致根本无法执行计算。


HPC方法通过使用专门或高端的硬件,或是将多个单元的计算能力进行整合,能够有效地克服这些限制。将数据和运算相应地分布到多个单元中,这就需要引入并行概念。 


不同类型的建模问题具有不同的可并行程度。以参数化扫描为例,这种问题求解多个具有独立的几何、边界条件或材料属性的相似的模型,几乎可以完全并行计算。具体的实现方法是为将每一个模型设置分配给一个计算单元。这类问题非常适合并行计算,因此通常称为“易并行问题”并行问题对集群中的网络速度和延迟非常敏感。(在其他情况下,由于网络速度不够快,无法有效处理通信,很可能导致速度减慢。)因此,可以将通用硬件连接起来,加快这类问题的计算速度。 


传统网络中 TCP/IP 堆栈随着网络接入带宽的增长,对 CPU 的消耗越来越高,HPC 网络通常采用 RDMA 技术对网络减少TCP/IP 堆栈对计算节点 CPU 的消耗,降低网络传输延时。


RDMA 允许在两台服务器的内存之间直接转移数据(参考:详解RDMA架构和技术原理谈谈高性能RDMA网络优势和实践深入浅出全面解析RDMA),而无需任何一台服务器的 CPU 参与(也称为零拷贝网络),因此可实现更高效的通信。这种处理在支持 RDMA 的网络接口卡(NIC)上进行,并且会避开TCP/IP 堆栈,因而加快数据转移。如此,就可以直接将数据传送到目标服务器上的远程内存中,降低用于其他处理的服务器的 CPUI/O 工作负载。 


传统的IB交换体系架构(参考:Infiniband架构和技术实战InfiniBand高速互连网络设计的研究200G HDR InfiniBand有啥不同?)利用了 RDMA 技术技术,通过业界最小的转发延时,为 HPC 提供高性能低延时的网络平台,但 Infinband交换机有自己的独立架构体系和协议(IB 协议和规范):


  • 1. 必须和支持 IB 协议的设备进行互联。
  • 2.Infinband 体系相对封闭,难以替换。
  • 3. Infinband 体系和传统网络对接需要单独的网关。


对于在整体 HPC 计算平台中,存在这大量对延时并非绝对敏感的应用,而以昂贵的 IB 交换端口来承载数目众多的这些应用无形中增加了企业的计算成本、维护成本、管理成本,制约了 HPC 整体系统的扩展。从业界以太网络基于10G/25G/40G/100G 带宽增长的趋势的发展趋势来看,随着计算规模的不断扩增,原有很多基于 IB 建立的网络无论从带宽介质形态,端口密度等都需要扩容,对于非延时绝对要求的 HPC 应用接入,都倾向于采用以太网替换原有 IB 交换机以降低成本。 


RoCE 规范在以太网上实现了 RDMA 功能,ROCE 需要无损网络,RoCE的主要优势在于它的延迟较低,因此可提高网络利用率;同时它可避开TCP/IP 并采用硬件卸载,因此 CPU 利用率也较低。



新 RoCEv2 标准可实现 RDMA 路由在第三层以太网网络中的传输。RoCEv2 规范将用以太网链路层上的 IP 报头和 UDP 报头替代 InfiniBand 网络层。这样,就可以在基于 IP 的传统路由器之间路由 RoCE。 


  • RoCE v1协议:基于以太网承载 RDMA,只能部署于二层网络,它的报文结构是在原有的 IB架构的报文上增加二层以太网的报文头,通过 Ethertype 0x8915 标识 RoCE 报文。 
  • RoCE v2协议:基于 UDP/IP 协议承载 RDMA,可部署于三层网络,它的报文结构是在原有的 IB 架构的报文上增加UDP头、IP 头和二层以太网报文头,通过 UDP 目的端口号 4791 标 识 RoCE 报文。RoCE v2 支持基于源端口号 hash,采用 ECMP 实现负载分担,提高了网络的利用率。


利用这项创新,业界就能够满足企业内日益增长的高性能和横向扩展架构需求。RoCEv2 可帮助其实现融合路径的持续性并提供高度密集的数据中心,同时为基于 IB 的应用移植,提供了快速迁移的方式,减少了开发工作量,提高了用户部署应用和迁移应用的效率。



国内华为、浪潮、华三等主流网络厂商都支持RoCE网络方案。以浪潮为例,典型方案采用CN12000 接入核心,形成三张网:计算网、管理网、存储网,在计算网实现高密度,高转发,配合主机实现 RDMA 关键技术的运用,实现基于 IB 协议开发的高性能应用平滑迁移到更低成本的以太交换网络中来。


网络高性能产品的支持,极大简化了高性能网络架构,并降低了多级架构层次造成的延时,为关键计算节点接入带宽的平滑升级提供有力支撑。采用 RoCEv2 标准作为核心,通过对计算节点 RoCEv2、DCE/DCB 的支持,消除了程序移植带来的复杂性和额外的工作量,降低了计算节点 TCP/IP 堆栈对主机 CPU 的消耗。 


核心网络通过PFC/RoCE等技术的支撑,使得高性能计算网络具备更高的开放性,在没有降低计算效率的前提下,降低了整个高性能集群平台建设的成本。


各位看官,今天的内容分享完毕,深入技术细节及解决方案,请参考:
高性能计算技术、方案和行业全解(第二版)
InfiniBand架构和技术实战总结(第二版)
RDMA原理分析、对比和技术实现解析

或者获取全店资料打包,后续免费获取全店所有新增和更新。

全店铺技术资料打包(全)




转载申明:转载本号文章请注明作者来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。


推荐阅读

更多架构相关技术总结请参考“架构师全店铺技术资料打包”相关电子书(37本技术资料打包汇总详情可通过“阅读原文”获取)。

内容持续更新,现下单“全店铺技术资料打包(全)”,后续可享全店更新“免费”赠阅,价格仅收198元(原总价350元)。



温馨提示:

扫描二维码关注公众号,点击阅读原文链接获取“IT技术全店资料打包汇总(全)电子书资料详情


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
预告 | 高性能儿童速干运动服&六一绘儿乐绘画创意玩具[电脑] Infinity Mirror——联力积木风扇幻镜120+华硕ROG吹雪全家桶装机阿里开源自研工业级稀疏模型高性能训练框架 PAI-HybridBackendShanghai Emerges From Lockdown to Familiar Sights and Sounds网络电影ToC之战打响,做勇者也做智者|专访《盲战》总策划、吾道南来CEO刘朝晖签证失效在即,回国机票却上万,留学生EA延期、PSW签证怎么选?孩子总在儿童沙发上阅读,那不伤脊柱的儿童沙发怎么选?直播预告:使领馆移民签证or美境内调整身份,怎么选?回家月薪6K vs 一线城市月薪3W,哪种生活更值得法律留学生选?夏季水果圈,娃的C位水果怎么选?Oracle OCI 计算、存储、网络工具旨在降低云复杂性直播回放:使领馆移民签证or美境内调整身份,怎么选?断舍离--没有结束的尾声!我的打鸟日记(68)再做昨日事新的选择方向 | 美国那么多冰淇淋品牌,夏日冰品要怎么选?【6.20今日折扣】Iceland超市3件3p活动上线!Crocs洞洞鞋爱好者福利来袭!Farfetch潮流时尚帽子/A机票知识:都叫“经济舱”,我该怎么选?欧洲廉价航空怎么选?这篇攻略帮你低价出行!上海客户到异地购房,究竟该怎么选突发 ◇ 加拿大三所大学毕业生可直接申请落户上海!枫叶卡和上海户口怎么选?加密货币暴跌殃及NFT,为什么有人说NFT是“智商税”?不同孩子的英文分级读物怎么选?看完这篇,你也能成为惊艳众人的妈圈领袖Trading is a war, you play a mind game.上万元的中和抗体VS新冠疫苗,有何不同?预防新冠该怎么选?没有社交牛逼症,律师vs法务怎么选?与绿绿探讨博的第二首的第七句提问 | 深圳月薪1万,香港2.5万,我该怎么选?宝宝喜欢枕着东西睡,需要用枕头吗?适合的枕头怎么选?多国混申,英国伦敦大学学院和美国波士顿学院的录取,她会怎么选?RocketMQ 5.0: 存储计算分离新思路最近的早午餐和晚餐东数西算:如何理解全国算力“一盘棋”?美白淡斑产品怎么选?只要认准这几个明星成分!围棋课该怎么选?这些都是我们踩过的坑!(附免费体验课+学具)上一个说“丼”不读jǐng的人,已经被我骂哭了
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。