黄仁勋深夜带来“亿点点”震撼，英伟达发布“世界上最快的内存”GH200超级芯片 |【经纬低调分享】

2023-08-09 03:08

昨夜（北京时间8月8日晚），黄仁勋又一次身着标志性的黑皮衣，再度站在了SIGGRAPH的舞台并发表演讲。

活动现场，英伟达发布新一代GH200 Grace Hopper平台，该平台依托于搭载全球首款HBM3e处理器的新型Grace Hopper超级芯片（下称GH200），专为加速计算和生成式AI时代而打造。

英伟达CEO黄仁勋生动地将GH200称为“世界上最快的内存”。这是因为数据中心想要满足生成式 AI 不断增长的需求，需要有针对特殊需求的加速计算平台。而新的GH200 Grace Hopper 超级芯片平台提供了卓越的内存技术和带宽，以此提高吞吐量，提升无损耗连接GPU聚合性能的能力，并且拥有可以在整个数据中心轻松部署的服务器设计。

此外，英伟达表示，这款名为GH200的超级芯片将于2024年第二季度投产。

毫无疑问，GH200超级芯片的发布有望进一步提升英伟达在AI芯片领域的霸主地位。自从2022年底ChatGPT上市以来，全球AI大模型开发热情暴涨，进而让英伟达的芯片变得供不应求。

有数据证实，全球95%以上的大模型都使用英伟达的GPU芯片。另据业界推算，各大公司对GPU需求约43万张H100，比上一代模型飙涨近 10 倍。因此，黄仁勋也将英伟达自比为全球AI发动机，并称“正在努力为所有客户提供服务”。

同时，黄仁勋还提到，在AI时代，英伟达的技术可以替代传统数据中心，投资800 万美元的新技术可以取代用旧设备建造的1亿美元设施，而且用电量可以减少20倍。“这就是数据中心在向加速计算转变的原因。你买得越多，越省钱。”

此外，在昨晚的活动上，英伟达还发布了新的统一工具包AI Workbench，以及对英伟达Omniverse软件服务的重大升级。譬如，英伟达发布的新工作站产品，最多可以塞进去四张NVIDIA RTX 6000显卡，对应的参数为5,828 TFLOPS AI算力和192GB显存。在这里，黄仁勋直言像这样的工作站，用来开发大模型，几个月就能把本金赚回来了。

总而言之，英伟达拿出一系列令人惊叹的技术和产品，让全世界在一起见识到AI芯片霸主如何引领世界AI和图形计算的新浪潮。以下，Enjoy：

来源/ 财联社、华尔街见闻、TechRepublic、新智元、芯东西

1

超级芯片重磅发布

大幅降低大模型推理成本

首先，黄仁勋甩出最强生成式AI处理器，正式推出面向加速计算和生成式AI的新一代NVIDIA GH200 Grace Hopper超级芯片（以下简称“GH200”）。

GH200由72核Grace CPU和4PFLOPS Hopper GPU组成，在全球最快内存HBM3e的“助攻”下，内存容量高达141GB，提供每秒5TB的带宽。其每个GPU的容量达到NVIDIA H100 GPU的1.7倍，带宽达到H100的1.55倍。该超级芯片可以用于任何大型语言模型，降低推理成本。

与当前一代产品相比，新的双GH200系统共有144个Grace CPU核心、8PFLOPS计算性能的GPU、282GB HBM3e内存，内存容量达3.5倍，带宽达3倍。如果将连接到CPU的LPDDR内存包括在内，那么总共集成了1.2TB超快内存。GH200将在新的服务器设计中提供，黄仁勋还放出了一段动画视频，展示组装面向生成式AI时代的Grace Hopper AI超级计算机的完整过程。

首先是一块Grace Hopper，用高速互连的CPU-GPU Link将CPU和GPU“粘”在一起，通信速率比PCIe Gen5快7倍。一个Grace Hopper机架装上NVIDIA BlueField-3和ConnectX-7网卡、8通道4.6TB高速内存，用NVLink Switch实现GPU之间的高速通信，再加上NVLink Cable Cartridge，组成了NVIDA DGX GH200。

NVIDA DGX GH200由16个Grace Hopper机架，通过NVLink Switch系统连成集群，能让256块GPU组成的系统像一块巨型GPU一样工作。由256块GH200组成的NVIDIA DGX GH200 SuperPod，拥有高达1EFLOPS的算力和144TB高速内存。NVIDIA Quantum-2 InfiniBand Switch可用高速、低延时的网络连接多个DGXSuperPod，进而搭建出面向生成式AI时代的Grace Hopper AI超级计算机。

这带来的主要优势是，实现同等算力的情况下，用更少卡、省更多电、花更少钱。

过去，1亿美元能买8800块x86 CPU组成的数据中心，功耗是5MW。如今，1亿美元能买2500块GH200组成的Iso-Budget数据中心，功耗是3MW，AI推理性能达到上述CPU系统的12倍，能效达20倍。如果达到跟x86 CPU数据中心相同的AI推理性能，Iso-Troughput数据中心只需用到210块GH200，功耗是0.26MW，成本只有CPU数据中心的1/12，仅800万美元。

此外，黄仁勋还表示：“新的GH200 Grace Hopper超级芯片平台提供了卓越的内存技术和带宽，以提高吞吐量，能够连接GPU以毫无妥协地聚合性能，以及可以轻松部署在整个数据中心的服务器设计。”据悉，GH200将于明年第二季度投产。

2

RTX工作站，4款显卡齐上新

其次，桌面AI工作站GPU系列一口气推出了4款新品：RTX 6000、RTX 5000、RTX 4500和RTX 4000。

如果H100以及配套的产品线展示的是英伟达GPU性能的天际线的话，针对桌面和数据中心推出的这几款产品，则是老黄对成本敏感客户秀出的绝佳「刀法」。

作为旗舰级专业卡，RTX 6000的性能参数毫无疑问是4款新品中最强的。凭借着48GB的显存，18176个CUDA核心，568个Tensor核心，142个RT核心，和高达960GB/s的带宽，它可谓是一骑绝尘。

RTX 5000配备了32GB显存，12800个CUDA核心，400个Tensor核心，100个RT核心。

RTX 4500配备了24GB显存，7680个CUDA核心，240个Tensor核心，60个RT核心。

RTX 4000配备了20GB显存，6144个CUDA核心，192个Tensor核心，48个RT核心。

基于新发布的4张新的GPU，针对企业客户，英伟达还准备一套一站式解决方案—— RTX Workstation。

支持最多4张RTX 6000 GPU，可以在15小时内完成8.6亿token的GPT3-40B的微调。还能让Stable Diffusion XL每分钟生成40张图片，比4090快5倍。

3

OVX服务器搭载L40S

基于Ada Lovelace架构的L40S，配备有48GB的GDDR6显存和846GB/s的带宽。在第四代Tensor核心和FP8 Transformer引擎的加持下，可以提供超过1.45 petaflops的张量处理能力。

对于算力要求较高的任务，L40S的18,176个CUDA核心可以提供近5倍于A100的单精度浮点（FP32）性能，从而加速复杂计算和数据密集型分析。此外，为了支持如实时渲染、产品设计和3D内容创建等专业视觉处理工作，英伟达还为L40S 还配备了142个第三代RT核心，可以提供212 teraflops的光线追踪性能。

对于具有数十亿参数和多种模态的生成式AI工作负载，L40S相较于老前辈A100可实现高达1.2倍的推理性能提升，以及高达1.7倍的训练性能提升。

针对数据中心市场，英伟达推出了最多可搭载8张L40S的OVX服务器。

对于拥有8.6亿token的GPT3-40B模型，OVX服务器只需7个小时就能完成微调。对于Stable Diffusion XL模型，则可实现每分钟80张的图像生成。

4

软件服务助力

生成式AI模型高效开发和部署

除了上述硬件产品外，黄仁勋分享了3个关于优化生成式AI流程的新发布，这些将有助于加速行业采用基于大型语言模型的生成式AI：

一是NVIDIA和全球最大AI开源社区Hugging Face建立合作。

二是推出NVIDIA AI Enterprise 4.0，把DGX Cloud中的所有功能放到NVIDIA AI Enterprise软件中。

三是推出NVIDIA AI Workbench，将需要用于生成式AI工作的一切打包在一起，只用点击一下就能将这个项目移动到任何终端设备或云端。

1、与Hugging Face合作：将数百万开发人员连接到生成式AI超级计算

黄仁勋宣布，NVIDIA和Hugging Face建立合作伙伴关系，将为构建大型语言模型和其他高级AI应用程序的开发人员提供生成式AI超级计算。

开发人员可以访问Hugging Face平台内的NVIDIA DGX Cloud AI超级计算，来训练和调优先进的AI模型。他们将有一个非常简单的界面来推进工作，无需担心训练的复杂性，因为这些都会由DGX Cloud处理。

DGX Cloud的每个实例有8个NVIDIA H100或A100 80GB Tensor Core GPU，每个节点的GPU内存总计640GB。DGX Cloud包含来自NVIDIA专家的支持，可以帮助客户优化其模型并快速解决开发挑战。

作为合作的一部分，Hugging Face将推出一项名为“训练集群即服务（Training Cluster as a Service）”，以简化为企业创建新的和自定义生成式AI模型。该服务由NVIDIA DGX Cloud提供支持，将在未来几个月内推出。

2、NVIDIA AI Workbench：在笔记本电脑上也能轻松启动生成式AI项目

另一款新品NVIDIA AI Workbench，是一个统一、易用的工作空间，能让开发人员随处构建或运行自己的生成式AI模型。

开发者可以很方便地将所有必要的企业级模型、框架、SDK和库从开源代码库和NVIDIA AI平台打包到这个统一的开发者工作空间中，然后只需点击几下鼠标，就能将自己的AI项目从一个位置移动到另一个位置。

这样就能在个人电脑、笔记本电脑或工作站上快速创建、测试和定制预训练的生成式AI模型，并在需要时将其扩展到数据中心、公有云或NVIDIA DGX Cloud。

举个例子，你可以在NVIDIA AI Workbench页面上导入项目，比如导入SDXL-dev文生图模型，输入“玩偶黄仁勋在太空”，结果因为模型似乎不认识玩偶老黄，生成的图像跟老黄的形象完全不沾边。

总的来说，AI Workbench为跨组织团队创建基于AI的应用程序提供了简化的途径，通过在本地系统上运行的简化的界面访问，让开发人员能使用自定义数据从主流的代码库（如Hugging Face、GitHub和NVIDIA NGC）中定制模型，并能轻松跨多平台共享。

戴尔、惠普、Lambda、联想、超微等AI基础设施供应商正采用AI Workbench以增强其最新一代多GPU桌面工作站、高端移动工作站和虚拟工作站的能力。

3、NVIDIA AI enterprise 4.0：提供一系列生成式AI工具

最新版的企业软件平台NVIDIA AI enterprise 4.0，可提供生产就绪型生成式AI工具，并提供了可靠的生产部署所需的安全性和API稳定性。

NVIDIA AI Enterprise 4.0新支持的软件和工具有助于简化生成式AI部署，其中一大亮点是引入用于构建、定制和部署大型语言模型的云原生框架NVIDIA NeMo。

其他工具还包括NVIDIA Triton管理服务（通过模型编排实现可扩展AI高效运行）、NVIDIA Base Command Manager Essentials集群管理软件（帮助企业在数据中心、多云和混合云环境中最大限度提高AI服务器性能和利用率）等。

NVIDIA AI Enterprise软件支持用户跨云、数据中心和边缘构建和运行支持NVIDIA AI的解决方案，经认证可在主流NVIDIA认证系统、NVIDIA DGX系统、所有主要云平台和新发布的NVIDIA RTX上运行工作站。

最新版本的企业软件平台将集成到谷歌云、微软Azure、Oracle云基础设施等NVIDIA合作伙伴市场。

5

Omniverse平台升级

通过OpenUSD软件利用生成式AI

Omniverse是Nvidia创建的实时3D图形协作平台，主要的功能就是创建“数字孪生”，在虚拟世界中模拟现实。

在演讲中，黄仁勋也拿世界最大广告公司WPP和比亚迪（腾势汽车），作为Omniverse云和生成式AI的使用案例。WPP通过Omniverse为腾势N7打造了一个实时、囊括各种外观配置的汽车“数字孪生”，并能够通过Adobe等提供的AIGC功能修改宣传材料的图像背景。

而升级版Omniverse平台是一个高性能3D场景描述技术OpenUSD的原生软件平台，用于跨3D工具和应用的连接、描述和模拟，能加快创建虚拟世界和工业数字化高级工作流程。Cesium、Convai、Move AI、SideFX Houdini 和 Wonder Dynamics现已通过 OpenUSD 连接到 Omniverse。

新平台的亮点包括更新开发原生OpenUSD应用及扩展的引擎——Omniverse Kit，以及英伟达Omniverse Audio2Face基础应用和空间计算功能的更新。