Redian新闻
>
深入解读:英伟达最强异构平台

深入解读:英伟达最强异构平台

公众号新闻

NVIDIA Grace Hopper Superchip 架构是第一个真正的异构加速平台,适用于高性能计算(HPC) 和AI工作负载。它利用 GPU 和 CPU 的优势加速应用程序,同时提供迄今为止最简单、最高效的分布式异构编程模型。科学家和工程师可以专注于解决世界上最重要的问题。

NVIDIA GPU相关内容参考NVIDIA GPU架构白皮书GPU技术专题下载链接深度报告:GPU研究框架​、CPU和GPU研究框架合集

图 1. Grace Hopper 与 x86+Hopper 的最终用户应用程序性能模拟(来源:NVIDIA Grace Hopper 架构白皮书)

在本文中,您将全面了解 Grace Hopper 超级芯片,并重点介绍 NVIDIA Grace Hopper 带来的性能突破。

强大的可扩展 HPC 和大型 AI 工作负载的性能和生产力


NVIDIA Grace Hopper Superchip 架构将NVIDIA Hopper GPU的突破性性能与NVIDIA Grace CPU的多功能性结合在一起,在单个超级芯片中与高带宽和内存一致的 NVIDIA NVLink Chip-2-Chip (C2C)互连相连,并且支持新的NVIDIA NVLink 切换系统。

图 2. NVIDIA Grace Hopper Superchip 逻辑概述

NVIDIA NVLink-C2C 是一种 NVIDIA 内存一致性、高带宽和低延迟的超级芯片互连。它是 Grace Hopper Superchip 的核心,提供高达 900 GB/s 的总带宽。这比加速系统中常用的 x16 PCIe Gen5 通道高 7 倍。

NVLink-C2C 内存一致性提高了开发人员的生产力和性能,并使 GPU 能够访问大量内存。CPU 和 GPU 线程现在可以同时透明地访问 CPU 和 GPU 驻留内存,使您能够专注于算法而不是显式内存管理.

内存一致性使您能够仅传输所需的数据,而不是将整个页面迁移到 GPU 或从 GPU 迁移出来。它还通过启用来自 CPU 和 GPU 的本机原子操作(native atomic operations)来启用跨 GPU 和 CPU 线程的轻量级同步原语(lightweight synchronization primitives)。具有地址转换服务 (ATS:Address Translation Services ) 的 NVLink-C2C 利用 NVIDIA Hopper 直接内存访问 (DMA) 复制引擎来加速跨主机和设备的可分页内存的批量传输。

NVLink-C2C 使应用程序能够超额订阅( oversubscribe) GPU 的内存,并在高带宽下直接使用 NVIDIA Grace CPU 的内存。每个 Grace Hopper Superchip 具有高达 512 GB 的 LPDDR5X CPU 内存,GPU 可以直接高带宽访问比 HBM 可用内存多 4 倍的内存。结合 NVIDIA NVLink 开关系统,在多达 256 个连接 NVLink 的 GPU 上运行的所有 GPU 线程现在可以在高带宽下访问高达 150 TB 的内存。第四代 NVLink 支持使用直接加载、存储和原子操作访问对等内存,使加速应用程序能够比以往更轻松地解决更大的问题。

与 NVIDIA 网络技术一起,Grace Hopper 超级芯片为下一代 HPC 超级计算机和人工智能工厂提供了配方。客户可以承担更大的数据集、更复杂的模型和新的工作负载,从而比以前更快地解决它们。

NVIDIA Grace Hopper 超级芯片的主要创新如下:
  • 英伟达 Grace CPU:
  • 多达 72 个 Arm Neoverse V2 内核,每个内核具有 Armv9.0-A ISA 和 4 个 128 位 SIMD 单元。
  • 高达 117 MB 的 L3 缓存。
  • 高达 512 GB 的 LPDDR5X 内存,提供高达 546 GB/s 的内存带宽。
  • 多达 64 个 PCIe Gen5 通道。
  • NVIDIA 可扩展一致性结构 (SCF) 网格和分布式缓存,内存带宽高达 3.2 TB/s。
  • 单个 CPU NUMA 节点可提高开发人员的工作效率。

NVIDIA Hopper GPU:
  • 与 NVIDIA A100 GPU 相比,多达 144 个带有第四代张量核心、Transformer Engine、DPX 和 3 倍高 FP32 和 FP64 的 SM。
  • 高达 96 GB 的 HBM3 内存提供高达 3000 GB/s 的速度。
  • 60 MB 二级缓存。
  • NVLink 4 和 PCIe 5。

英伟达 NVLink-C2C:
  • Grace CPU 和 Hopper GPU 之间的硬件一致性互连。
  • 高达 900 GB/s 的总带宽,450 GB/s/dir。
  • 扩展 GPU 内存功能使 Hopper GPU 能够将所有 CPU 内存寻址为 GPU 内存。每个 Hopper GPU 可以在超级芯片内寻址多达 608 GB 的内存。

NVIDIA NVLink 切换系统:
  • 使用 NVLink 4 连接多达 256 个 NVIDIA Grace Hopper 超级芯片。
  • 每个连接 NVLink 的 Hopper GPU 都可以寻址网络中所有超级芯片的所有 HBM3 和 LPDDR5X 内存,最高可达 150 TB 的 GPU 可寻址内存。

性能、可移植性和生产力的编程模型


具有 PCIe 连接加速器的传统异构平台要求用户遵循复杂的编程模型,该模型涉及手动管理设备内存分配和与主机之间的数据传输。

NVIDIA Grace Hopper Superchip 平台是异构的且易于编程,NVIDIA 致力于让所有开发人员和应用程序都可以访问它,而不受所选编程语言的影响。

Grace Hopper Superchip 和平台的构建都是为了让您能够为手头的任务选择正确的语言,而NVIDIA CUDA LLVM 编译器API 使您能够将您喜欢的编程语言带到具有相同代码级别的 CUDA 平台 -生成质量和优化作为 NVIDIA 编译器和工具。

NVIDIA 为 CUDA 平台(图 3)提供的语言包括加速标准语言,如 ISO C++、ISO Fortran 和 Python。该平台还支持基于指令的编程模型,如 OpenACC、OpenMP、CUDA C++ 和 CUDA Fortran。NVIDIA HPC SDK支持所有这些方法,以及一组丰富的用于分析和调试的加速库和工具。

图 3. NVIDIA Grace Hopper Superchip 编程模型

NVIDIA 是 ISO C++ 和 ISO Fortran 编程语言社区的成员,这使得符合 ISO C++ 和 ISO Fortran 标准的应用程序能够在 NVIDIA CPU 和 NVIDIA GPU 上运行,无需任何语言扩展。有关在 GPU 上运行符合 ISO 标准的应用程序的更多信息,请参阅使用标准并行 C++ 进行多 GPU 编程和使用 Fortran 标准并行编程实现 GPU 加速。

该技术在很大程度上依赖于 NVIDIA NVLink-C2C 和 NVIDIA 统一虚拟内存提供的硬件加速内存一致性。如图 4 所示,在没有 ATS 的传统 PCIe 连接 x86+Hopper 系统中,CPU 和 GPU 具有独立的每进程页表,系统分配的内存不能直接从 GPU 访问。当程序使用系统分配器分配内存但页面条目在 GPU 的页表中不可用时,从 GPU 线程访问内存将失败。

图 4. 具有不相交页表的 NVIDIA Hopper 系统

在基于 NVIDIA Grace Hopper Superchip 的系统中,ATS 使 CPU 和 GPU 能够共享单个每个进程的页表,从而使所有 CPU 和 GPU 线程能够访问所有系统分配的内存,这些内存可以驻留在物理 CPU 或 GPU 内存上。CPU 堆、CPU 线程堆栈、全局变量、内存映射文件和进程间内存可供所有 CPU 和 GPU 线程访问。

图 5. NVIDIA Grace Hopper 超级芯片系统中的地址转换服务

NVIDIA NVLink-C2C 硬件一致性使 Grace CPU 能够以缓存行粒度缓存 GPU 内存,并使 GPU 和 CPU 无需页面迁移即可访问彼此的内存。

NVLink-C2C 还可以加速 CPU 和 GPU 在系统分配内存上支持的所有原子操作。范围内的原子操作得到完全支持,并且可以跨系统中的所有线程实现细粒度和可扩展的同步。

运行时在第一次接触时使用物理内存支持系统分配的内存,无论是在 LPDDR5X 还是 HBM3 上,取决于 CPU 或 GPU 线程是先访问它。从操作系统的角度来看,Grace CPU 和 Hopper GPU 只是两个独立的 NUMA 节点。系统分配的内存是可迁移的,因此运行时可以更改其物理内存支持以提高应用程序性能或应对内存压力。

在 NVIDIA Grace Hopper 上,这些应用程序明显受益于 NVLink-C2C 提供的更高带宽、更低延迟、更高原子吞吐量和内存一致性硬件加速,无需任何软件更改。

Superchip 架构特点


以下是 NVIDIA Grace Hopper 架构的主要创新:

  • NVIDIA Grace CPU
  • NVIDIA Hopper GPU
  • NVLink-C2C
  • NVLink Switch System
  • Extended GPU memory
  • NVIDIA Grace CPU

随着 GPU 的并行计算能力每一代都增加三倍,快速高效的 CPU 对于防止现代工作负载的串行和仅 CPU 部分主导性能至关重要。

NVIDIA Grace CPU 是第一款 NVIDIA 数据中心CPU,它是从头开始构建的,用于创建 HPC 和 AI超级芯片。Grace 提供多达 72 个带有Armv9.0-A ISA的 Arm Neoverse V2 CPU 内核,以及每个内核 4×128 位宽的 SIMD 单元,并支持 Arm 的Scalable Vector Extensions 2 (SVE2) SIMD 指令集。

NVIDIA Grace 提供领先的每线程性能,同时提供比传统 CPU 更高的能效。72 个 CPU 内核在SPECrate 2017_int_base上提供高达 370(估计)的分数,确保高性能以满足 HPC 和 AI 异构工作负载的需求。

图 6. Grace Hopper 超级芯片中的 NVIDIA Grace CPU 与 AMD Milan 7763 的最终用户应用程序性能和节能模拟显示,Grace CPU 的速度提高了 2.5 倍,而能耗降低了 4 倍

机器学习和数据科学中的现代 GPU 工作负载需要访问大量内存。通常,这些工作负载必须使用多个 GPU 将数据集存储在 HBM 内存中。

NVIDIA Grace CPU 提供高达 512 GB 的 LPDDR5X 内存,可在内存容量、能效和性能之间实现最佳平衡。它提供高达 546 GB/s 的 LPDDR5X 内存带宽,NVLink-C2C 以 900 GB/s 的总带宽可供 GPU 访问。

单个 NVIDIA Grace Hopper 超级芯片为 Hopper GPU 提供总计 608 GB 的快速可访问内存,几乎是 DGX-A100-80 中可用的慢速内存总量;上一代的八 GPU 系统。

图 7 所示的 NVIDIA SCF 使这成为可能,这是一种网状结构和分布式缓存,可提供高达 3.2 TB/s 的总二分带宽,以实现 CPU 内核、内存、系统 I/O 和 NVLink 的全部性能- C2C。CPU 内核和 SCF 缓存分区 (SCC) 分布在整个网格中,而缓存交换节点 (CSN) 通过结构路由数据并充当 CPU 内核、缓存内存和系统其余部分之间的接口。

图 7. SCF 逻辑概述

NVIDIA Hopper GPU


NVIDIA Hopper GPU是第九代 NVIDIA 数据中心 GPU。与前几代 NVIDIA Ampere GPU 相比,它旨在为大规模 AI 和 HPC 应用程序提供数量级的改进。Hopper GPU 还具有多项创新:
  • 新的第四代张量核心在更广泛的 AI 和 HPC 任务中执行比以往更快的矩阵计算。
  • 与上一代 NVIDIA A100 GPU 相比,新的 Transformer 引擎使 H100 在大型语言模型上的 AI 训练速度提高了 9 倍,AI 推理速度提高了 30 倍。
  • 空间和时间数据局部性和异步执行的改进功能使应用程序能够始终保持所有单元忙碌并最大限度地提高能效。
  • 安全多实例 GPU (MIG )将 GPU 划分为隔离的、大小合适的实例,以最大限度地提高较小工作负载的服务质量 (QoS)。

图 8. NVIDIA Hopper GPU 实现下一代 AI 和 HPC 突破

NVIDIA Hopper 是第一个真正的异步 GPU。其张量内存加速器 (TMA) 和异步事务屏障使线程能够重叠和流水线独立的数据移动和数据处理,使应用程序能够充分利用所有单元。

线程块集群、分布式共享内存和线程块重新配置等新的空间和时间局部性功能为应用程序提供了对更大量共享内存和工具的快速访问。这使应用程序能够更好地重用片上数据,从而进一步提高应用程序性能。

图 9. NVIDIA Hopper GPU 异步执行使独立数据移动与计算重叠(左)。新的空间和时间局部性功能提高了应用程序性能(右)

NVLink-C2C:用于超级芯片的高带宽、芯片到芯片互连


NVIDIA Grace Hopper 通过 NVIDIA NVLink-C2C 将 NVIDIA Grace CPU 和 NVIDIA Hopper GPU 融合到单个超级芯片中,这是一个 900 GB/s 的芯片到芯片相干互连,可以使用统一的编程模型对 Grace Hopper 超级芯片进行编程。

NVLink Chip-2-Chip (C2C) 互连在 Grace CPU 和 Hopper GPU 之间提供高带宽直接连接,以创建 Grace Hopper Superchip,该超级芯片专为 AI 和 HPC 应用程序的嵌入式加速而设计。

凭借 900 GB/s 的双向带宽,NVLink-C2C 以更低的延迟提供 7 倍于 x16 PCIe Gen 链路的带宽。NVLink-C2C 每传输比特仅使用 1.3 皮焦耳,比 PCIe Gen 5 节能 5 倍以上。

此外,NVLink-C2C 是一种连贯的内存互连,具有对系统范围的原子操作的本机硬件支持。这提高了对非本地内存的内存访问性能,例如 CPU 和 GPU 线程访问驻留在其他设备中的内存。硬件一致性还提高了同步原语的性能,减少了 GPU 或 CPU 相互等待的时间,并提高了总系统利用率。

最后,硬件一致性还简化了使用流行编程语言和框架的异构计算应用程序的开发。

NVLink 开关系统


NVIDIA NVLink 开关系统结合了第四代 NVIDIA NVLink 技术和全新的第三代 NVIDIA NVSwitch。NVSwitch 的单级最多可连接八个 Grace Hopper 超级芯片,胖树拓扑结构中的第二级最多可将 256 个 Grace Hopper 超级芯片与 NVLink 联网。Grace Hopper Superchip 对以高达 900 GB/s 的速度交换数据。

该网络拥有多达 256 个 Grace Hopper 超级芯片,可提供高达 115.2 TB/s 的全对全带宽。这是NVIDIA InfiniBand NDR400 整体带宽的 9 倍。

图 10. NVIDIA NVLink 4 NVSwitch 的逻辑概述

第四代 NVIDIA NVLink 技术使 GPU 线程能够使用正常的内存操作、原子操作和批量传输来处理 NVLink 网络中所有超级芯片提供的高达 150 TB 的内存。MPI、NCCL或NVSHMEM等通信库在可用时透明地利用 NVLink 开关系统。

扩展 GPU 显存


NVIDIA Grace Hopper Superchip 旨在加速具有超大内存占用空间的应用程序,其容量大于单个超级芯片的 HBM3 和 LPDDR5X 内存容量。有

高带宽 NVLink-C2C 上的扩展 GPU 内存 (EGM) 功能使 GPU 能够高效地访问所有系统内存。EGM 在多节点 NVSwitch 连接系统中提供高达 150 TB 的系统内存。使用 EGM,可以分配物理内存以供多节点系统中的任何 GPU 线程访问。所有 GPU 都可以以 GPU-GPU NVLink 或 NVLink-C2C 的最低速度访问 EGM。

Grace Hopper Superchip 配置中的内存访问通过本地高带宽 NVLink-C2C 以 900 GB/s 的速度进行。远程内存访问是通过 GPU NVLink 执行的,并且根据正在访问的内存,还可以使用 NVLink-C2C(图 11)。借助 EGM,GPU 线程现在可以以 450 GB/s 的速度访问 NVSwitch 结构上的所有可用内存资源,包括 LPDDR5X 和 HBM3。

图 11. 跨 NVLink 连接的 Grace Hopper 超级芯片的内存访问
来源:半导体行业观察
原文链接:
https://developer.nvidia.com/blog/nvidia-grace-hopper-superchip-architecture-in-depth/


转载申明:转载本号文章请注明作者来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。

推荐阅读

更多架构相关技术知识总结请参考“架构师全店铺技术资料打包”相关电子书(37本技术资料打包汇总详情可通过“阅读原文”获取)。
全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”,后续可享全店内容更新“免费”赠阅,价格仅收198元(原总价350元)。


温馨提示:
扫描二维码关注公众号,点击小程序链接获取架构师技术联盟书店电子书资料详情

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
DeepFake从未如此真实!英伟达最新提出的「隐式扭曲」到底有多强?“哈耶普斯麻”在读生高达394人!加拿大私校体系创始人,深入解读:加拿大择校/学签/陪读!英伟达最新GPU架构,深度解读!最航运 | 独家深入解析马士基第三季度报告深度解读:《36Kr全球华人精英Power100》《山居续忆》:第九章:老李 (六)张忆东最新解读:四季度美债收益率可能见顶,A股和港股还在磨底阶段,深秋是反弹窗口期,这些领域可能是最值得期待的机会……用高中生物学解读:2022年诺贝尔生理学或医学奖车用芯片竞技场:英伟达、高通、Sony在CES 2023揭示未来当房企不想再叫“房企”,专家解读:企业适应发展的一种战略调整一键抹去瑕疵、褶皱:深入解读达摩院高清人像美肤模型ABPN黄圃镇的黄埔军人大作玩着,显卡就着了火:英伟达因RTX 4090缺陷被用户起诉2022年Q3财报深度解读:重新审视美团英语单词趣味解读:what is tomorrow?极光Q3财报解读:营收稳健控费见效 估值修复空间巨大英伟达最强异构平台,深入解读!一针清除癌细胞?“癌症疫苗”或在8年内问世!专家解读:不能预防,但能防复发英伟达最强CPU,芯片架构深入解读英语单词趣味解读:irony牡蛎煎蛋中央财办有关负责同志就中央经济工作会议精神和当前经济热点问题作深入解读跑步看世界 – 波士顿大学解读:项目经理需要哪些必备技能?技术雷达最新动向:超级应用程序趋势不再、平台也需产品化3天3刷《流浪地球2》后,深入解读一下10个隐藏剧情问题“独角兽捕手”余国良深度解读:生物医药投融资整体放缓,企业如何破局突围?清华CodeGeeX项目原作解读:大规模多语言代码生成模型从菜园到餐桌 (7) 做菜合集AMD ZEN 4架构深入解读CES 2023:英伟达发布桌面显卡RTX 4070 Ti,国行起售价6499元权威解读:如何正确看待当前的疫情防控形势?2022年诺奖得主论文解读:新冠重症风险遗传自尼安德特人,印度和欧美人风险更高施炜博士近3万字解读:任正非管理思想为什么牛?英语单词趣味解读:Oh, ok.
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。