Redian新闻
>
英伟达Blackwell平台网络配置分析

英伟达Blackwell平台网络配置分析

公众号新闻

本文来自“英伟达Blachwell平台网络配置详解”。GTC大会英伟达展示了全新的 Blackwell 平台系列产品,包括 HGX B100 服务器、NVLINK Switch、GB200Superchip Computer Node、Quantum X800 交换机和 CX8 网卡(InfiniBand 方案)、ETH Spectrum X800 交换机和 BF3 网卡(以太网方案)。
相关链接:


1. Blackwell 平台网络配置分析
从网络配置的角度,英伟达提供了第五代 NVLINK、第六代 PCIE、单端口800Gbit/s 的 IB 和以太网网卡、1.6T 光模块需求。从目前英伟达公布的产品介绍看,这些升级后的网络能力可能不会第一时间全部配置在最新的 DGX B200 服务器上,而是在后续的产品中逐步升级。从英伟达公布的产品说明材料看,DGX B200 服务器配置 8 颗 NVIDIA B200 Tensor Core GPUs,4 个 800G OSPF 光模块,最大功耗为 14.3kW。
2 DGX GB200: NVLink domain 提升至 576 GPUs
采用 DGX GB200 系统的 NVIDIA DGX SuperPOD 专为训练和推理万亿参数生成式AI 模型而构建。每个液冷机架配备 36 个 NVIDIA GB200 Grace Blackwell 超级芯片(36 个 NVIDIA Grace CPU 和 72 个 Blackwell GPU),与 NVIDIA NVLink 连接为一体。多个机架与 NVIDIA Quantum InfiniBand 连接,可扩展到数万个 GB200 超级芯片。
GB200 可以在单机柜内搭建包含 36 个或者 72 个 GPU 的 NVLink domain。一个机柜内包含 18 个计算节点和 9 台 L1 NVLink Switch。基于第五代 NVLink 技术,每个 NVLink 交换机可以提供 144 个 100GB NVLink 端口。通过机柜内的 9 个 L1NVLink Switch 可以合计 提 供 1296 个 100GB NVLink 端口 ,机柜 内的每 个Blackwell GPUs 可以获得 18 个端口,合计 1.8T 的 NVLink 带宽。
GB200 NVL72 使用了一个定制化的 Copper cable cartridge 实现机柜内 9 个L1 NV Switch 和 18 个计算节点的 NVLink 连接。英伟达介绍 NVIDIA GB200 NVL72可以在一个 NVLink domain 内连接 576 个 GPU。英伟达当前公布的 GB200 NVL72 配置了 72 个 CX7 网口(OSFP 400Gb/s InfiniBand),并没有使用最新的 CX8 网卡。
3 全新 IB 交换机,双层胖树支持万卡集群
NVIDIA Quantum-X800 Q3400-RA 是一台 4U 的 IB 交 换机 ,对比 上一 代Quantum-9700 交换机设备尺寸提升了一倍。Quantum-X800 也是英伟达第一款使用200Gb/s-per-lane SerDes 方案的交换机设备,通过 72 个 OSPF 1.6T 光模块提供144 个 800G 端口。英伟达指出,基于 Quantum-X800 的高性能,两层胖树网路拓扑就可以连接 10386 个网络接口卡。
GTC 大会上,英伟达推出的 Spectrum-X800 SN5600 是一台 51.2T 端口容量的以太网交换机,可以配置 64 个 OSPF 800G 光模块。
4 新平台依然需要 800G 和 400G 光模块
从 GTC 大会的介绍看,BLACKWELL 平台会带来第五代 NVLINK、第六代 PCIE、第八代 IB 网络应用。但是在当前早期交付的产品中依然会采用 800G 和 400G 光模块。其中 DGX B200 服务器配置通过 4 个 800G OSPF 光模块提供 8 个 400G 端口,这和DGX H100 服务器的配置相同。
我们认为 B200 GPU 和 800 光模块的配置比例和 H100 GPU 保持一致。而 GB200NVL72 需要配置 72 个 OSPF 400G 光模块,以便通过 IB 网络实现万卡集群的连接。
5 新的IB网络带来1.6T光模块需求
NVIDIA Quantum-X800 Q3400-RA 和 CX8 NIC 则明确需要配置 1.6T 光模块。和上一代 IB 网络相比,主要的变化是 Quantum-X800 的端口能力提升至 115.2T,可以通过两层胖树拓扑实现 10386 个网络接口卡的连接,万卡规模 Blackwell GPU 集群使用 IB 网络组网的成本得到优化。我们认为这会弱化以太网方案的价格优势,提升 IB 网络方案的竞争力。
6 NVLink domain 容量扩展带来新增的铜缆连接需求
通过第五代 NVLINK 从 900GB 提升至 1800GB,单个 NVLINK domain 的 GPU 数量提升至 576 个。最大的变化是 L1 NV Switch 从服务器 PCB 板载芯片的形式调整为机柜内的 9 台交换机,连接能力提升至 72 个 GPU,需要使用铜缆实现机柜内的NVLINK 连接。
而如何实现 576 个 GPU 连接,目前英伟达还没有给出具体的连接方案,但是鉴于目前最新的 IB 交换机能力,我们认为连接 576 个 GPU 需要 L2 NV Switch。最终的方案使用铜缆还是光模块,核心是铜缆的连接距离是否可以满足 8 个机柜的连接需求,低成本的铜缆连接方案会是优先选项。
相关阅读:

转载申明:转载本号文章请注明作者来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。

推荐阅读
更多架构相关技术知识总结请参考“架构师全店铺技术资料打包(全)”相关电子书(41本技术资料打包汇总详情可通过“阅读原文”获取)。

全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”一起发送“服务器基础知识全解(终极版)和“存储系统基础知识全解(终极版)pdf及ppt版本,后续可享全店内容更新“免费”赠阅,价格仅收249元(原总价399元)。


温馨提示:

扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)电子书资料详情


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
第五十一封打造比英伟达 Blackwell更强的GPU英伟达B200成本6000美金?卖40000美金?第五十封浅聊一下最接近英伟达B200的AI芯片老黄一口气解密三代GPU!粉碎摩尔定律打造AI帝国,量产Blackwell解决ChatGPT全球耗电难题GTC2024黄仁勋2万字演讲全文:不止计算革命和Blackwell,新软件、AI代工厂、AI机器人皆在路上!消息称英伟达 Blackwell“B100”GPU 将配 192GB HBM3e 显存,B200 配 288GB 显存万字全文!英伟达投资交流会:机器人的ChatGPT时刻指日可待,Blackwell不只是芯片还是系统【租房】Allston高性价比绿线公寓 $2175+半中介费 9/1起租 出门绿线 15分钟直达BU BC 接本科生我和老伴(四)初级运营分析师 | 全球资管公司排名TOP1的BlackRock招聘全职!英伟达成全球市值第一公司/华为高管称昇腾 AI 算力已超英伟达 A100/马斯克称未来人形机器人普及程度将是汽车10倍英伟达大秀AI肌肉!最强AI芯片Blackwell问世,算力提升1000倍,地球竟被完整复制…第四十八封英伟达新架构以他名字致敬,天才数学家David Blackwell 是谁?NAT虚拟网络配置金融/会计专业优先!BlackRock(US)开放Full-time岗位【求职战报】美国金融巨头BlackRock分析师面试邀约!小说: 兰欣与乌茶 44麻州一流公立学区,富豪名流聚居地,本周豪宅精选--Weston/Newton/Wellesley/Winchester波士顿顶级学区,麻州富豪聚集地,本周学区豪宅精选--Newton/Wellesley/Weston资管一哥|BlackRock 2025 Full-Time Analyst Program已开1个芯片顶英伟达3个?这个偏爱印度的创始人爆肝8年,终于等来抢英伟达泼天富贵的一天!击壤科技:2024年Q1四大平台网剧植入分析报告配置 Nginx 反向代理 WebSocket【租房】Allston超新3b1b/4b1b公寓 $3975+免/半中介费 4/15-9/1起租 带洗烘 出门绿线直达BU BC【Allston|BU也有属于自己的楼王了?|免$2500中介费和一个月房租|下楼就是stop&shop|公交直达BU各站点】【Allston高级公寓|地铁直达BU/BC/市区|周遭中式、韩式餐馆多|步行到大型美超|BU本科生首选】现场直击GTC|最科幻发布会,性能翻30倍的恐怖Blackwell芯片,黄仁勋宣告“新工业革命”来了【Allston也有属于自己的楼王了?|免中介费和一个月房租|下楼就是stop&shop|公交直达BU各站点】详解最强AI芯片架构:英伟达Blackwell GPU究竟牛在哪?现场对话技术高管交换芯片决战:博通、思科、Marvell、英伟达【Allston ,高级公寓平替,无敌性价比的3B接受本科生|公交直达BU各站|室内洗烘】英伟达B200打破摩尔定律!老黄顺便公开GPT-4的秘密
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。