Redian新闻
>
英伟达InfiniBand:面向AIGC的技术优势分析

英伟达InfiniBand:面向AIGC的技术优势分析

公众号新闻

在AIGC的训练场景,基本上不差钱的客户都会首选InfiniBand,作为跨AI服务器节点的网络组网方案,今天我们就来讲一讲InfiniBand到底有那些针对AIGC场景的技术优化:

相关阅读:


   集体计算能力(Collective Computational Power)

集体通信算法有助于在人工智能模型训练期间确保分布式节点之间的高效和协调通信。它们允许有效地训练大规模模型,提高训练速度,减少通信开销,并使分布式训练能够利用多个节点的集体计算能力。这将加速模型收敛并提高性能。

英伟达为深度学习框架开发了集体通信库,以利用多个节点内和跨多个节点的GPU。NVIDIA Collective Communication Library(NCCL)就是这种库的一个例子,它实现了用于全部减少、全部收集、减少、广播、减少分散以及任何基于发送/接收的通信模式的通信算法。它经过优化,可在任何使用PCIe和/或NVLink的平台上实现高带宽,并可使用NVSwitch、InfiniBand或以太网跨多台机器扩展。

   在网计算(In-Network Computing )

在网计算这一特性支持网络中基于硬件的计算引擎大规模卸载复杂操作。网络内计算在NVIDIA Quantum InfiniBand交换机上作为NVIDIA可扩展分层聚合和缩减协议(SHARP)实现。

作为一种网内基于树的聚合机制,SHARP支持多个同时进行的集合操作。启用SHARP后,交换机将被识别为聚合节点,并将执行此类数据缩减。NCCL在跨许多多GPU节点执行通信算法时利用了这一功能。由于执行操作时只发送一次数据,因此有效地将数据缩减的带宽增加了一倍,在使用SHARP的端到端NVIDIAQuantum-2400Gb/sInfiniBand网络上运行的NCCL性能将比没有SHARP的800Gb/s网络更好。

   自适应路由(Adaptive Routing )

nfiniBand作为一个软件定义网络(SDN)运行,并由一个名为子网管理器(SM)的软件管理实用程序管理。该集中式实体配置交换机以基于网络条件选择路由。交换机ASIC(从一组输出端口中)选择负载最小的输出端口,该端口将在整个网络中实现最佳性能。不同传出交换机端口之间的选择基于分级机制,该机制考虑了出口端口队列深度和路径优先级,其中最短路径具有更高的优先级。

InfiniBand的自适应路由通过将流量分布在所有网络链路上并提高链路利用率和平衡,从而优化链路带宽,从而最大限度地提高整体性能。重要的是要知道自适应路由会导致网络数据包无序地到达目的地。但是,作为一种端到端解决方案,InfiniBand本身包含管理无序数据包到达的硬件功能。

   拥塞控制(Congestion Control )

InfiniBand支持全面且可扩展的服务质量(QoS)功能,该功能使用基于信用的流量控制机制来调节发送方和接收方之间的数据流,从而保证确定的带宽和延迟。

InfiniBand实施拥塞控制体系结构(CCA),这是一个管理拥塞事件的三阶段过程。当交换机检测到拥塞时,它会打开一个称为前向显式拥塞通知(FECN)的位(在数据包中)。当数据包到达目的适配器时,它会使用具有不同位集的数据包来响应源适配器,称为反向显式拥塞通知(BECN)。当发送或源适配器收到BECN时,它会通过抑制数据包注入来做出响应。

   直通转发,降低转发时延

以太网采用两种数据处理模式:存储转发交换和直通转发,以太网(包括ROCE无损以太网),默认是采用存储转发模式,交换机需要先将整个数据包完全接收并存储在缓存中,检查数据包的目的地址和完整性后,再进行转发。这种方式会导致一定的延迟,特别是在处理大量数据包时。

而Cut-through(直通转发模式)技术,当交换机接收到数据包时,它只需要读取数据包的头部信息,确定目标端口,然后立即开始转发数据包。这种技术可以显著减少数据包在交换机中的停留时间,从而降低了传输延迟。

AI场景网络转发延时非常关键,直通转发肯定是首选,InfiniBand交换机使用直通转发模式(Cut-Through),让二层报文的转发处理变得非常简单。只需要一个16位的LID(这是由子网管理器直接给的),就能快速找到转发的路径。这样一来,转发的延迟就缩短到了100纳秒以下。

   “浅”缓存交换架构

InfiniBand交换机在设计上是“浅”缓冲交换机。以太网交换机可以大致分为“深”或“浅”缓冲交换机。深度缓冲交换机的缓冲区大小以千兆字节(GB)为单位,而浅缓冲交换机(如Spectrum以太网交换机)的缓冲区大小以兆字节(MB)为单位。深度缓冲交换机最初是为不同的目的而设计的,例如路由和广域网;因此,与传统的浅缓冲以太网交换机相比,它们具有非常不同的体系结构。深度缓冲交换机系统通常采用模块化设计,其特点是装有线路卡的大型机箱交换机。

虽然深度缓冲交换机功能丰富,支持数据中心互联(DCI)和电信网络所需的规模,但它们并未针对人工智能网络进行优化。深缓冲交换机可容纳额外的数据流量,对微突发不太敏感,但更大的数据容量会导致更高的尾部延迟,从而导致平均延迟增加和高抖动。这直接影响了依赖于最坏情况延迟的人工智能工作负载,导致更长的作业完成时间和增加的培训时间。

   网络链路故障恢复能力

InfiniBand交换机配备了独特的自我修复功能。由于这种自我修复的自主性,在发生链路故障的情况下,可以快速纠正通信,从而避免昂贵的重新传输或绝对故障。

与通常在以太网上运行的具有同质流量模式的传统应用程序工作负载不同,人工智能生成的异构流量具有突发性并且对网络故障高度敏感。例如,当从叶子到主干的链路断开时,这会影响多个机架中的多个GPU节点,并显著降低所有对所有的性能。流行的基于以太网的冗余措施(如EVPN多宿主或MLAG)无法解决性能问题。

来源:英伟达InfiniBand:面向AIGC有那些优势技术?

相关阅读:

转载申明:转载本号文章请注明作者来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。

推荐阅读
更多架构相关技术知识总结请参考“架构师全店铺技术资料打包(全)”相关电子书(41本技术资料打包汇总详情可通过“阅读原文”获取)。

全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”一起发送“服务器基础知识全解(终极版)和“存储系统基础知识全解(终极版)pdf及ppt版本,后续可享全店内容更新“免费”赠阅,价格仅收249元(原总价399元)。


温馨提示:

扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)电子书资料详情


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
OpenAI藏了1年多的技术正式公开!15秒素材克隆声音,HeyGen也在用轰20一直没出来,很可能是因为太先进,有2个美国没有的技术!本周日开课|芬兰自然教育导师课:面向父母、教育者、自然爱好者golang gc的内部优化今日arXiv最热NLP大模型论文:面向不确定性感知的Language Agent天下乌鸦一般黑InfiniBand与RoCE对比分析:AI数据中心网络选择指南讲座预约丨四位专家大论道 :大模型时代,机器人的技术革新与场景落地丨GAIR live2024技术趋势分析报告(附下载)打造一个成本优先的技术架构,可以分几步?| ArchSummit【七绝】 东君信 (七虞)平衡训练,晨游,巴林胜利两地开花英伟达首次跻身全球半导体营收第二;Scale AI洽谈新融资,估值将达130亿美元丨AIGC日报看文坛那把大火,烧出几多舍利子InfoQ 中国技术力量之【AIGC 先锋榜单】正式启动征集,洞见 AIGC 产业未来因提供错误信息,ChatGPT在奥地利遭投诉;英伟达黄仁勋称AI不会完全取代人类工作丨AIGC日报英伟达NVLink技术深度分析一文聊聊我理解的技术PM阿里巴巴国际站:2024宠物行业全球贸易趋势分析报告联合国通过首个全球AI决议;曝微软6.5亿美元买下Inflection AI员工;联想首款AI PC下月发布丨AIGC大事日报英伟达Blackwell平台网络配置分析救生新活动:面向亚裔美国人社区开展 CPR 技能教育关于InfiniBand的技术问答为AI“降温”:直接对芯片的无水液冷技术大幅降低能耗和成本,正适配英伟达GPUOpenAI有望在今年夏季推出GPT-5;英伟达推出更强GPU芯片;马斯克宣布正式开源Grok-1|AIGC周观察第三十七期极长序列、极快速度:面向新一代高效大语言模型的LASP序列并行Web3跨链技术的未来探索: Rubic的投资潜力双林奇案录第三部之校园疑案: 第十八节MYP和GCSE,为什么GCSE衔接IBDP更占优势?外企社招丨NVIDIA英伟达社招岗位上新,月薪20-80k,13薪,六险一金,生育友好,内购福利,留学生有优势详解最强AI芯片架构:英伟达Blackwell GPU究竟牛在哪?现场对话技术高管5月开课|芬兰自然教育导师课:面向教育者、父母、自然和户外爱好者贾跃亭谈小米造车:对标、抄袭和浅层次的创新无法带来根本性的技术变革;中国黄金将对北京富力广场店受害者进行垫付丨邦早报动辄数十亿美金的投入,XR赛道背后的技术机遇在哪里?|投资笔记第174期英伟达交付OpenAI全球首块H200;月之暗面否认创始人套现数千万美元;苹果发布设备端开源AI模型|AIGC周观察第四十一期
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。