Redian新闻
>
英伟达高管谈NVL72 机架的新设计

英伟达高管谈NVL72 机架的新设计

公众号新闻

来源:内容由半导体行业观察(ID:icbank)编译自hpcwire,谢谢。

👆如果您希望可以时常见面,欢迎标星🌟收藏哦~


GTC 展厅上的 Nvidia 新款旗舰级大型服务器 DGX GB200 的照片因其为人工智能带来的强大计算能力而在社交媒体上获得了好评。


Nvidia 的 DGX GB200(也称为 NVL72 机架服务器)可在 NVLink 域内配置多达 576 个 GPU。除此之外,DGX 系统还可以通过 SuperPOD 配置和 InfiniBand 网络扩展到数以万计的其他 GB200 系统,以实现长距离通信。


HPCwire 采访了 Nvidia DGX 系统部门副总裁兼总经理 Charlie Boyle,了解该系统的设计和底层技术。这是经过编辑的文字记录。


HPCwire:新的 DGX 系统是什么?


Boyle:  2016 年,当我们在 GTC 上推出原始平台时,我们推出了一些世界前所未见的东西。这是我们第一次拥有 NVLink、GPU 和 SXM。我们经历了多代 DGX 系统,从 Pascal 到 Volta 和 Hopper,显然在全球客户和各种形式的企业中都取得了非常成功的成果。


我们宣布了一种新型系统,就像八年前我们宣布了一种新型系统一样。这个新系统是机架级计算机,我们称之为DGX GB200系统。它拥有 72 个 Blackwell 和 36 个 Grace GPU,全部集成到单个 NVLink 域中。


HPCwire:显然,更大强的动力,您能否分享更多关于采用该配置的决定?


Boyle:最初的 DGX 自诞生以来一直是单个机箱中的 NVLink 域。DGX-2 有一段时间有 16 路变体,但即使在那之后,我们又回到了 8 路域。随着人工智能模型变得越来越复杂,特别是在称为专家混合的新型模型中,多个人工智能模型一起工作来回答单个问题或生成单个输出,我们在实践中看到了一个限制因素。


在 MLPerf 示例中,限制因素之一是非常大的模型花费大约 60% 的时间在实际模型内相互通信。我们意识到,如果我们能够构建一个更大的 NVLink 域,就可以缓解通信问题,因为 NVLink 甚至比最快的 InfiniBand 还要快得多。


借助这个新系统,您可以在单个机架中获得 72 个 GPU、36 个 CPU 和 9 个 NVSwitch 单元,所有这些都作为单个 DGX 单元交付给客户。新的机架系统也是液冷的,非常节能,并且可以利用环境水和输入水来节省数据中心的费用。


HPCwire:您可以扩展到超出 GB200 系统多远?


Boyle: 我们将这个单一系统称为 DGX GB200 系统(您也可能会看到它称为 NVL-72),可以与任意数量的机架连接,在 DGX SuperPOD 配置中可连接多达数万个 GPU 。


SuperPOD 产品是 Nvidia 的交钥匙产品。我们构建它,将其运送给客户,并安装一切,包括客户验收测试。


这款 SuperPOD 的一大新特点是,上一代 SuperPOD 是在客户所在地使用您习惯看到的经典 DGX 系统进行现场组装的。


这款新的 SuperPOD 将完全在工厂制造,通过所有老化测试,拆除一半电缆,然后将机架运送给客户。一旦到达那里,电缆将重新插入,最终客户将接受验收,以更快地实现价值。


HPCwire:NVLink 和 InfiniBand 之间有什么区别?


Boyle:  NVLink 是一种芯片间通信技术,其运行方式类似于内存系统。从语义和执行操作的方式来看,它的功能类似于内存总线。


由于其专业性,NVLink 比 InfiniBand 快得多,但由于速度和延迟最大值而存在距离限制。NVLink 具有使其能够同时与所有芯片快速通信的功能。相比之下,InfiniBand 等传统网络技术以经典的数据源-目标方式发送信息。


在 72 GPU 机架配置中,任何 GPU 都可以直接访问任何其他 GPU 的内存,就好像它是本地的一样。NVLink 和 InfiniBand 是互补技术。此前,最大的 NVLink 域位于名为 HGX 板的物理板上,该板有 8 个 GPU 和几个 NVSwitch 单元,所有 NVLink 连接均在 PCB 走线上完成。


在新一代中,我们能够从计算芯片本身(即 Grace-Hopper 超级芯片)扩展 NVLink 领域。


当您看到系统图片并查看其背面时,您会注意到计算托盘。每个计算托盘都有两个 Grace CPU 模块和四个 Hopper 模块。每个托盘的背面都有外部 NVLink 连接器。您将看到一个完全布线的背板。计算架背面的每个 NVLink 端口都直接连接到同一机架中的外部 NVSwitch,所有连接都发生在系统背面。


在系统的正面,您会发现所有正常的网络连接。每个托盘都有四个 InfiniBand 端口,并包含我们用于南北通信的 BlueField-3 技术。BlueField 可以在 InfiniBand 或以太网模式下运行。该托盘还具有所有标准管理和以太网端口。机架本身包括用于机架内管理的网络基础设施。



HPCwire:新系统会改变 CUDA 程序员为 Nvidia 系统编写代码的方式吗?


Boyle: NVL72 是新系统更常见的配置,其中所有内容都设计为无缝协作。非常重要的核心库之一是 NCCL(NVIDIA Collective Communications Library)。多年来,我们改进了 NCCL,并增强了它理解系统中不同元素的能力。


在这个新系统中,作为 CUDA 程序员或更高级的程序员,您可以从任何应用程序访问所有 GPU 内存。与上一代产品相比,Hopper 的训练性能提高了 4 倍,推理能力提高了 30 倍以上。最好的部分是,它运行与 A100 上相同的软件,无需任何特殊的编程语义即可利用新系统的强大功能。


我们在软件方面所做的一件大事就是,如果人们不想要的话,就不会将这种复杂性暴露给他们。当然,如果需要,您仍然可以直接在较低级别进行编程。但是,您也可以运行一个简单的 [PyTorch] 命令……系统将自动将所有工作放置在机架中运行的所有操作系统映像上,确保以最佳位置完成工作。


考虑到通常购买大量 DGX 系统的企业越来越多地进入这一领域,我们已经从软件中消除了很多复杂性。他们有数据科学家和想要运行人工智能的人,但他们不一定有想要直接在低水平上对芯片进行编程的人。显然,我们有一些客户这样做,我们完全为他们启用该技术。


HPCwire:您如何看待未来的 DGX 设计?您从过去的设计中学到了什么?


Boyle:当我们将 GB200 系统视为未来的旗舰产品时,我们在系统中放入的很多内容都是希望客户永远不会看到的东西。我们从构建超大型集群中学到了很多东西,因为 NVIDIA 为研究人员独立完成了这项工作。


我们在系统中添加了大量的预测性维护、工作自动化和遥测功能,以便系统能够自行管理。随着系统变得越来越复杂,用户群越来越多地扩展到企业的其他方面,许多企业没有数据中心来放置这些系统,因此它们将被放置在我们的数据中心提供商之一。我们为此制定了完整的 DGX 计划。


未来,客户将运行极其复杂的作业,整个集群中的任何小问题都可能导致作业中断。然而,客户只想完成工作。


我们在这个平台上所取得的进步之一是硬件和软件的结合……芯片中有特定的新 RAS(可靠性、可用性和可服务性)功能,可以帮助我们预测正在发生的情况。


我们有一个预测性维护人工智能,我们在集群级别运行,以查看哪些节点健康,哪些节点不健康。我们不仅仅是一个二进制文件“这个是健康的,这个不是”,我们正在查看来自所有这些 GPU 的数据轨迹,每秒监控数千个数据点,以了解如何以最佳方式完成工作。


从系统设计的角度来看,我们最初的 DGX 目标是构建当时无法构建的东西。2016 年,8 路 NVLink 系统闻所未闻,但现在它已成为标准,每个 CSP 都在构建它们。然而,我们仍然构建它们,当我们展望未来时,我们会构建越来越大的集群,同时使集群足够智能来执行客户希望它做的工作,处理所有经常发生的小事情在集群中。


如果您正在运行大型系统,总会发生一些事情。我们希望将智能构建到集群本身中,以便它可以执行主要指令(如果您愿意):完成工作。如果作业终止,我们希望最小化重新启动时间。对于一项非常大的工作,过去需要几分钟甚至几个小时,我们正在努力将其缩短到几秒钟。


HPCwire:云提供商拥有与您的系统类似的多路 DGX 配置。是这样的吗?


Boyle: 这就是我们 DGX 的目标。我们将其构建为设计参考并在内部使用,但我们也与所有合作伙伴广泛共享该信息。


许多采用 GB200 GPU 的云提供商都从该参考设计开始,因为它为他们节省了大量的研发时间和金钱。


他们查看参考设计并说:“这很棒,但我需要它更高一点,我需要不同的流形,并且我想使用我自己的系统管理。”这就是其背后的想法。我们已经向所有合作伙伴发布了 GB200 架构,他们都在基于它构建系统。


原文链接

https://www.hpcwire.com/2024/03/27/qa-with-nvidias-chief-of-dgx-systems-on-the-dgx-gb200-rack-scale-system/

点这里👆加关注,锁定更多原创内容

END


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。



今天是《半导体行业观察》为您分享的第3718期内容,欢迎关注。


推荐阅读


EUV光刻机重磅报告,美国发布

碳化硅“狂飙”:追赶、内卷、替代

芯片巨头,都想“干掉”工程师!

苹果,玩转先进封装

GPU的历史性时刻!

大陆集团,开发7nm芯片

张忠谋最新采访:中国会找到反击方法

EUV光刻的新“救星”

『半导体第一垂直媒体』

实时 专业 原创 深度

公众号ID:icbank


喜欢我们的内容就点“在看”分享给小伙伴哦

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Hugo Boss高管谈调低增长预期:我们不愿做出我们无法兑现的承诺!突发:西雅图13岁少年在药店打劫妇女被捕;支持巴勒斯坦的抗议蔓延到西雅图;被控谋杀和绑架的西雅图前警官在追捕行动后自杀身亡腾讯总办高管谈游戏:押宝游戏国际化,聚焦主业不与友商为敌《阴阳鱼》连载第10章:时间如刀,空间如砧板,而你我都不过是鱼肉美股基本面 - 2024_01_28 * 晨报 * 苹果再失一名大将 负责家居设备和开发汽车业务的被爱绑架的女孩有多可怕?36岁,她来月经都被送进精神科骁龙8Gen4将重新设计;小米王化回应刹车故障;修理店假冒苹果官方被罚10万没有发现弹痕,直升机在到达高空后起火!伊朗发布莱希直升机事故调查报告→跟着开源的InternVL,学习如何做自己的GPT-4V美初捷报 | 喜讯不断,恭喜丽格学子获得Rectory School7年级转正录取1枚!89岁计算机架构先驱、超算软件之父戈登·贝尔逝世!ACM奖项以他命名重磅!英伟达官宣全球最强 AI 芯片:性能提升 30 倍,并将重新设计整个底层软件堆栈Canva收购Affinity 挑战Adobe设计软件今日arXiv最热CV大模型论文:国产开源视觉大模型InternVL 1.5发布,赶超GPT-4V水准许家印决策并组织实施财务造假,被罚4700万;英伟达推出有2080亿晶体管的新AI处理器,称运行速度可提高数倍……雅诗兰黛集团高管谈中国市场近况和最新策略(中国创新中心将发布首款本土化产品)南北加州高铁重要枢纽,中央山谷4座车站新设计图曝光(图)英伟达将华为列为最大竞争对手/娃哈哈创始人宗庆后逝世/苹果将重新设计 iOS 18 的 UI哈哈哈哈南京火车站新设计图火上外媒,网友:这真不是卫生巾吗???摩根大通 | 2025投资银行暑期分析师实习(DDL7月1日)重磅!英伟达官宣全球最强AI芯片:性能提升 30 倍,并将重新设计整个底层软件堆栈治疗难治性高血压的新时代:新药和新设备突发!特斯拉,被调查!特斯拉这款车型刚上市几天,就宣布涨价超7200元!前高管出手,套现13亿元......哈哈哈南京火车站新设计图火上外媒,网友:这真不是卫生巾吗??详解最强AI芯片架构:英伟达Blackwell GPU究竟牛在哪?现场对话技术高管没跟导演吵过架的剪辑,不是好剪辑闹乌龙“钱”景比计算机好,被英伟达创始人看好加注的新兴行业——生物医学工程,大揭秘!那些为钱吵架的伴侣,究竟在吵什么?国际宝藏不知所终 下落仍是一个谜小说:兰欣与乌茶 39外企社招丨NVIDIA英伟达社招岗位上新,月薪20-80k,13薪,六险一金,生育友好,内购福利,留学生有优势特斯拉上海储能超级工厂获施工许可;消息称高通骁龙8Gen4芯片重新设计迎战苹果A18,目标频率4.26GHz丨智能制造日报英伟达NVLink技术深度分析红杉资本入局,马斯克的AI公司接近达成60亿美元融资;苹果发布基于开源训练和推理框架的语言模型OpenELM丨AIGC日报
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。