Redian新闻
>
关于InfiniBand的技术问答

关于InfiniBand的技术问答

公众号新闻

随着大数据和人工智能技术的进步,对高性能计算的需求不断增长。为了满足这一需求,英伟达(NVIDIA)Quantum-2 InfiniBand平台为用户提供了卓越的分布式计算性能,实现高速和低延迟的数据传输和处理能力。
相关链接:
英伟达InfiniBand:面向AIGC的技术优势分析
大模型时代,交换机技术演变、性能分析、衡量指标
英伟达Blackwell平台网络配置分析
CXL:破解AI时代“内存墙”新途径

InfiniBand,撼动不了以太网?

英伟达Quantum-2 Infiniband平台技术A&Q

一颗Jericho3-AI芯片,用来替代InfiniBand?

RoCE技术在HPC中的应用分析



这些是关于IB技术的常见问答。
问:CX7 NDR200 QSFP112端口是否与HDR/EDR线缆兼容?
答:是的,可以兼容。
问:如何将CX7 NDR网卡连接到Quantum-2 QM97XX系列交换机?
答:CX7 NDR网卡使用英伟达(NVIDIA)的400GBASE-SR4或400GBASE-DR4光模块,而QM97XX系列交换机使用800GBASE-SR8(相当于2x400GBASE-SR4)或800GBASE-DR8(相当于2x400GBASE-DR4)光模块。这些模块使用12芯多模通用极性APC端面网线进行连接。
问:CX7网卡双端口400G可以通过绑定实现800G的速率吗?为什么200G可以通过绑定实现400G?
答:整体网络性能由如PCIe带宽瓶颈、网卡处理能力和物理网络端口带宽等因素决定。CX7网卡具有5.0 x16的PCIe规范,理论带宽限制为512Gbps。由于PCIe 5.0 x16的最大带宽限制,CX7网络适配器上没有可用于双端口400G的硬件。
问:如何连接分支线缆?
答:为了实现出色性能,分支线缆(800G到2x400G)需要连接到两台不同的服务器上。这样可以确保分支线缆不完全连接到以太网服务器网卡上,因为GPU服务器通常有多个网卡。
问:在InfiniBand NDR情景中,一分二线缆是如何连接的?
答:在InfiniBand NDR情景中,有两种类型的分支线缆。第一种类型使用带有分线的光模块(将400G分为2x200G),例如MMS4X00-NS400 + MFP7E20-NXXX + MMS4X00-NS400(降级为200G使用)。第二种类型使用分支高速线缆(将800G分为2x400G),例如MCP7Y00-NXXX或MCP7Y10-NXXX。
问:在Superpod网络中,每台服务器上的4个NDR200卡是否可以使用1x4线缆直接连接到同一交换机,还是应该使用2个1x2线缆连接到不同的交换机?
答:在Superpod网络中,不建议使用一分四线缆将每台服务器上的4个NDR200端口直接连接到同一交换机。这种连接方式不符合Superpod网络规则。为了确保NCCL/SHARP的出色性能,叶交换机应使用一对四线缆以特定的模式连接不同服务器的NDR200端口。
问:关于最新的Superpod网络,根据Superpod网络白皮书的说明,在计算网络中需要单独配置2个带有UFM软件的IB交换机。然而,这样的配置会导致集群中少一个GPU节点。如果选择不设置单独的UFM交换机,而是仅在管理节点上部署UFM软件,我能否通过另一组存储网络管理集群而不影响计算网络?
答:建议配置UFM设备,包括软件。在计算网络中的管理节点上部署UFM软件是一种替代方案,但它不应承担GPU计算工作负载。存储网络作为一个独立的网络层面运行,不能用于管理计算集群。
问:企业UFM、SDN、遥测和Cyber-Al之间有什么区别?购买UFM是否有必要?
答:可以使用OFED中包含的opensm和命令脚本工具进行简单的管理和监控,但缺少UFM友好的图形用户界面和许多功能。

问:交换机、OFED和UFM所需的子网管理器数量有差异吗?哪个更适合客户部署?
答:交换机管理适用于最多2K个节点的网络。UFM和OFED的openSM节点管理能力没有限制,但需要与管理节点的CPU和硬件处理能力协调。
问:为什么一个具有64个400Gb端口的交换机只有32个OSFP端口?
答:这个限制在于2U面板的尺寸和功耗限制,它只能容纳32个插槽。这个配置是为了支持两个400G端口的OSFP接口而设计的。在NDR交换机中,插槽和端口的概念是有区别的。
问:是否可以使用线缆连接两个具有不同接口的模块来传输数据?例如,使用一根线缆将服务器上的OSFP端口连接到交换机上的QSFP112端口?
答:模块的互连与封装是独立的。OSFP和QSFP112主要描述模块的物理尺寸。只要以太网介质类型相同(即,链路的两端都是400G-DR4或400G-FR4等),OSFP和QSFP112模块可以相互兼容。
问:UFM可以用来监控RoCE网络吗?
答:不可以,UFM仅支持InfiniBand网络。
问:对于管理型和非管理型交换机,UFM的功能是否相同?
答:是的,功能是相同的。
问:IB线缆支持的最大传输距离是多少,会不会影响传输带宽和延迟?
答:光模块+跳线可以达到大约500m,而无源高速线缆的范围约为3m,有源ACC线缆可达到5m。
问:CX7网卡是否可以连接到其他支持以太网模式下RDMA的400G以太网交换机?
答:可以建立400G以太网连接,并且RoCE可以在这种情况下工作,但性能不能保证。对于400G以太网,建议使用由BF3+Spectrum-4组成的Spectrum-X平台。
问:NDR是否与HDR和EDR兼容,这些线缆和模块只有一种规格吗?
答:是的,通常使用OSFP到2xQSFP56 DAC/AOC线缆以确保与HDR或EDR兼容。
问:OSFP网卡端的模块应该是扁平模块吗?
答:网卡配有散热器,所以可以直接使用厚模块。散热片模块主要用于液冷交换机端。
问:IB网卡是否支持以太网模式下的RDMA?
答:可以启用RoCE,建议使用英伟达(NVIDIA) Spectrum-X解决方案。
问:为什么没有NDR光缆?
答:OSFP模块体积大、较重,使得光纤更容易受到损坏。一个两分支的线缆会有3个大型光模块端口,而一个四分支的线缆会有5个光模块端口。这增加了在安装过程中光纤断裂的风险,尤其是在30m的AOCs中。
问:除了不同的光模块外,400G IB和400G以太网使用的线缆是否相同?
答:线缆是相同的,但需要注意的是它们都是成8°角的APC类型。
问:CX7网卡对延迟性能有特定要求吗?在优化的调试环境下,例如完全使用内存和绑定核心,网络延迟要求是多少?可接受的延迟值是多少,例如小于多少μs?
答:延迟性能取决于测试机器的频率和配置,以及所使用的测试工具,如perftest和MPI。
问:OSFP网卡端的模块应该是OSFP-平模块吗?为什么提到了OSFP-搭载散热器?
答:“搭载散热器”是指集成在插槽中的散热器。
问:UFM在这个集群解决方案中起什么作用?
答:UFM在服务器上独立运行,可以被视为一个节点。它支持使用2个服务器实现高可用性。但是,不建议在处理计算工作负载的节点上运行UFM。
问:推荐为什么规模的网络集群配置UFM?
答:建议为所有InfiniBand网络配置UFM,因为UFM不仅提供openSM,还提供其他强大的管理和接口功能。
问:PCIe 5只支持最高512G吗?PCIe 4呢?
答:PCIe Gen5提供最高32G x 16通道,从而获得最大带宽512G。另一方面,PCIe Gen4提供最高16G x 16通道,提供最大带宽256G。
问:IB网络卡支持单工或双工模式吗?
答:IB网络卡都是双工的。单工或双工只是对当前设备的一个概念,因为发射和接收数据的物理通道已经分开。
问:飞速(FS)能为建设IB网络集群提供技术支持和高质量产品吗?
答:当然可以,飞速(FS)专注于提供高性能计算和数据中心解决方案。在构建IB网络集群方面,飞速(FS)拥有丰富的经验和专业知识,并提供多种连接方案,以满足不同客户的需求。
相关阅读:

转载申明:转载本号文章请注明作者来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。

推荐阅读
更多架构相关技术知识总结请参考“架构师全店铺技术资料打包(全)”相关电子书(41本技术资料打包汇总详情可通过“阅读原文”获取)。

全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”一起发送“服务器基础知识全解(终极版)和“存储系统基础知识全解(终极版)pdf及ppt版本,后续可享全店内容更新“免费”赠阅,价格仅收249元(原总价399元)。


温馨提示:

扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)电子书资料详情


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
上海有张古老名片利物浦用DeepMind的AI制定战术已有三年了【今日天下0419】扒两个牛校牛娃EA/ED的故事;华人mm回国生三胎顺利回归;LV 大秀神仙姐姐滤镜碎一地;美籍回国订酒店经验打造一个成本优先的技术架构,可以分几步?| ArchSummit轰20一直没出来,很可能是因为太先进,有2个美国没有的技术!贾跃亭谈小米造车:对标、抄袭和浅层次的创新无法带来根本性的技术变革;中国黄金将对北京富力广场店受害者进行垫付丨邦早报刘敏教授:高血压达标中心肾脏保护年,CKD的早筛、早诊、早治是关键比特币新浪潮: 理解比特币生态的技术创新与市场潜力InfiniBand网络、HDR和IB在超算中的应用实践读研期间出现学术问题,还能拿到毕业证吗?【七绝】 山水行路遇 (十四盐)NEPCON China 2024:行业专家共议功率半导体的技术革新与产业机遇博通、AMD和英特尔等联手,要打破InfiniBand垄断7057 血壮山河之枣宜会战 宜昌溃战 13美股基本面 - 2024_03_07 * 晨报 * 日元兑美元涨1% 薪资数据强于预期促使市场押注日本央行3月加息。美股中概股娄烨:电影是一门有趣的技术工作莱斯CS学员,凭借扎实的技术能力和积极的求职态度,成功斩获微软全职offer!震惊!专家警告:避免购买Costco这东西:其自有品牌Kirkland的产品北京车展,被流量掩盖的技术风向西安交大发表鲁棒视觉问答综述,揭秘AI视觉问答的“超强大脑”丨IEEE TPAMI动辄数十亿美金的投入,XR赛道背后的技术机遇在哪里?|投资笔记第174期以太网将击败InfiniBand,最终胜出?英伟达InfiniBand:面向AIGC的技术优势分析InfoQ 中国技术力量之【AIGC 先锋榜单】正式启动征集,洞见 AIGC 产业未来母亲节特别策划:关于婚姻、关于选择、关于做父母黄仁勋问答全文:关于中国市场、全球供应链、奥特曼和GroqOpenAI藏了1年多的技术正式公开!15秒素材克隆声音,HeyGen也在用一文聊聊我理解的技术PM讲座预约丨四位专家大论道 :大模型时代,机器人的技术革新与场景落地丨GAIR liveInfiniBand与RoCE对比分析:AI数据中心网络选择指南苹果计划大改 Siri 赶超 ChatGPT 等竞品/OpenAI CEO称iPhone是最伟大的技术产品/星舰将进行第四次飞行Baillie Gifford的2024年研究议程OpenAI CEO 称 iPhone 是最伟大的技术产品/特斯拉将斥资 5 亿美元建设充电网络/前暴雪总裁喊话微软 Xbox抢沙发闹出的大笑话2024年,一个井喷BD的黄金矿山
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。