黄仁勋深夜带来“亿点点”震撼,英伟达发布“世界上最快的内存”GH200超级芯片
昨夜(北京时间8月8日晚),黄仁勋又一次身着标志性的黑皮衣,再度站在了SIGGRAPH的舞台并发表演讲。
活动现场,英伟达发布新一代GH200 Grace Hopper平台,该平台依托于搭载全球首款HBM3e处理器的新型Grace Hopper超级芯片(下称GH200),专为加速计算和生成式AI时代而打造。
英伟达CEO黄仁勋生动地将GH200称为“世界上最快的内存”。这是因为数据中心想要满足生成式 AI 不断增长的需求,需要有针对特殊需求的加速计算平台。而新的GH200 Grace Hopper 超级芯片平台提供了卓越的内存技术和带宽,以此提高吞吐量,提升无损耗连接GPU聚合性能的能力,并且拥有可以在整个数据中心轻松部署的服务器设计。
此外,英伟达表示,这款名为GH200的超级芯片将于2024年第二季度投产。
毫无疑问,GH200超级芯片的发布有望进一步提升英伟达在AI芯片领域的霸主地位。自从2022年底ChatGPT上市以来,全球AI大模型开发热情暴涨,进而让英伟达的芯片变得供不应求。
有数据证实,全球95%以上的大模型都使用英伟达的GPU芯片。另据业界推算,各大公司对GPU需求约43万张H100,比上一代模型飙涨近 10 倍。因此,黄仁勋也将英伟达自比为全球AI发动机,并称“正在努力为所有客户提供服务”。
同时,黄仁勋还提到,在AI时代,英伟达的技术可以替代传统数据中心,投资800 万美元的新技术可以取代用旧设备建造的1亿美元设施,而且用电量可以减少20倍。“这就是数据中心在向加速计算转变的原因。你买得越多,越省钱。”
此外,在昨晚的活动上,英伟达还发布了新的统一工具包AI Workbench,以及对英伟达Omniverse软件服务的重大升级。譬如,英伟达发布的新工作站产品,最多可以塞进去四张NVIDIA RTX 6000显卡,对应的参数为5,828 TFLOPS AI算力和192GB显存。在这里,黄仁勋直言像这样的工作站,用来开发大模型,几个月就能把本金赚回来了。
总而言之,英伟达拿出一系列令人惊叹的技术和产品,让全世界在一起见识到AI芯片霸主如何引领世界AI和图形计算的新浪潮。以下,Enjoy:
首先,黄仁勋甩出最强生成式AI处理器,正式推出面向加速计算和生成式AI的新一代NVIDIA GH200 Grace Hopper超级芯片(以下简称“GH200”)。
GH200由72核Grace CPU和4PFLOPS Hopper GPU组成,在全球最快内存HBM3e的“助攻”下,内存容量高达141GB,提供每秒5TB的带宽。其每个GPU的容量达到NVIDIA H100 GPU的1.7倍,带宽达到H100的1.55倍。该超级芯片可以用于任何大型语言模型,降低推理成本。
与当前一代产品相比,新的双GH200系统共有144个Grace CPU核心、8PFLOPS计算性能的GPU、282GB HBM3e内存,内存容量达3.5倍,带宽达3倍。如果将连接到CPU的LPDDR内存包括在内,那么总共集成了1.2TB超快内存。GH200将在新的服务器设计中提供,黄仁勋还放出了一段动画视频,展示组装面向生成式AI时代的Grace Hopper AI超级计算机的完整过程。
首先是一块Grace Hopper,用高速互连的CPU-GPU Link将CPU和GPU“粘”在一起,通信速率比PCIe Gen5快7倍。一个Grace Hopper机架装上NVIDIA BlueField-3和ConnectX-7网卡、8通道4.6TB高速内存,用NVLink Switch实现GPU之间的高速通信,再加上NVLink Cable Cartridge,组成了NVIDA DGX GH200。
NVIDA DGX GH200由16个Grace Hopper机架,通过NVLink Switch系统连成集群,能让256块GPU组成的系统像一块巨型GPU一样工作。由256块GH200组成的NVIDIA DGX GH200 SuperPod,拥有高达1EFLOPS的算力和144TB高速内存。NVIDIA Quantum-2 InfiniBand Switch可用高速、低延时的网络连接多个DGXSuperPod,进而搭建出面向生成式AI时代的Grace Hopper AI超级计算机。
这带来的主要优势是,实现同等算力的情况下,用更少卡、省更多电、花更少钱。
过去,1亿美元能买8800块x86 CPU组成的数据中心,功耗是5MW。如今,1亿美元能买2500块GH200组成的Iso-Budget数据中心,功耗是3MW,AI推理性能达到上述CPU系统的12倍,能效达20倍。如果达到跟x86 CPU数据中心相同的AI推理性能,Iso-Troughput数据中心只需用到210块GH200,功耗是0.26MW,成本只有CPU数据中心的1/12,仅800万美元。
此外,黄仁勋还表示:“新的GH200 Grace Hopper超级芯片平台提供了卓越的内存技术和带宽,以提高吞吐量,能够连接GPU以毫无妥协地聚合性能,以及可以轻松部署在整个数据中心的服务器设计。”据悉,GH200将于明年第二季度投产。
其次,桌面AI工作站GPU系列一口气推出了4款新品:RTX 6000、RTX 5000、RTX 4500和RTX 4000。
如果H100以及配套的产品线展示的是英伟达GPU性能的天际线的话,针对桌面和数据中心推出的这几款产品,则是老黄对成本敏感客户秀出的绝佳「刀法」。
作为旗舰级专业卡,RTX 6000的性能参数毫无疑问是4款新品中最强的。凭借着48GB的显存,18176个CUDA核心,568个Tensor核心,142个RT核心,和高达960GB/s的带宽,它可谓是一骑绝尘。
RTX 5000配备了32GB显存,12800个CUDA核心,400个Tensor核心,100个RT核心。
RTX 4500配备了24GB显存,7680个CUDA核心,240个Tensor核心,60个RT核心。
RTX 4000配备了20GB显存,6144个CUDA核心,192个Tensor核心,48个RT核心。
基于新发布的4张新的GPU,针对企业客户,英伟达还准备一套一站式解决方案—— RTX Workstation。
支持最多4张RTX 6000 GPU,可以在15小时内完成8.6亿token的GPT3-40B的微调。还能让Stable Diffusion XL每分钟生成40张图片,比4090快5倍。
基于Ada Lovelace架构的L40S,配备有48GB的GDDR6显存和846GB/s的带宽。在第四代Tensor核心和FP8 Transformer引擎的加持下,可以提供超过1.45 petaflops的张量处理能力。
对于算力要求较高的任务,L40S的18,176个CUDA核心可以提供近5倍于A100的单精度浮点(FP32)性能,从而加速复杂计算和数据密集型分析。此外,为了支持如实时渲染、产品设计和3D内容创建等专业视觉处理工作,英伟达还为L40S 还配备了142个第三代RT核心,可以提供212 teraflops的光线追踪性能。
对于具有数十亿参数和多种模态的生成式AI工作负载,L40S相较于老前辈A100可实现高达1.2倍的推理性能提升,以及高达1.7倍的训练性能提升。
针对数据中心市场,英伟达推出了最多可搭载8张L40S的OVX服务器。
对于拥有8.6亿token的GPT3-40B模型,OVX服务器只需7个小时就能完成微调。对于Stable Diffusion XL模型,则可实现每分钟80张的图像生成。
除了上述硬件产品外,黄仁勋分享了3个关于优化生成式AI流程的新发布,这些将有助于加速行业采用基于大型语言模型的生成式AI:
一是NVIDIA和全球最大AI开源社区Hugging Face建立合作。
二是推出NVIDIA AI Enterprise 4.0,把DGX Cloud中的所有功能放到NVIDIA AI Enterprise软件中。
三是推出NVIDIA AI Workbench,将需要用于生成式AI工作的一切打包在一起,只用点击一下就能将这个项目移动到任何终端设备或云端。
1、与Hugging Face合作:将数百万开发人员连接到生成式AI超级计算
黄仁勋宣布,NVIDIA和Hugging Face建立合作伙伴关系,将为构建大型语言模型和其他高级AI应用程序的开发人员提供生成式AI超级计算。
开发人员可以访问Hugging Face平台内的NVIDIA DGX Cloud AI超级计算,来训练和调优先进的AI模型。他们将有一个非常简单的界面来推进工作,无需担心训练的复杂性,因为这些都会由DGX Cloud处理。
DGX Cloud的每个实例有8个NVIDIA H100或A100 80GB Tensor Core GPU,每个节点的GPU内存总计640GB。DGX Cloud包含来自NVIDIA专家的支持,可以帮助客户优化其模型并快速解决开发挑战。
作为合作的一部分,Hugging Face将推出一项名为“训练集群即服务(Training Cluster as a Service)”,以简化为企业创建新的和自定义生成式AI模型。该服务由NVIDIA DGX Cloud提供支持,将在未来几个月内推出。
2、NVIDIA AI Workbench:在笔记本电脑上也能轻松启动生成式AI项目
另一款新品NVIDIA AI Workbench,是一个统一、易用的工作空间,能让开发人员随处构建或运行自己的生成式AI模型。
开发者可以很方便地将所有必要的企业级模型、框架、SDK和库从开源代码库和NVIDIA AI平台打包到这个统一的开发者工作空间中,然后只需点击几下鼠标,就能将自己的AI项目从一个位置移动到另一个位置。
这样就能在个人电脑、笔记本电脑或工作站上快速创建、测试和定制预训练的生成式AI模型,并在需要时将其扩展到数据中心、公有云或NVIDIA DGX Cloud。
举个例子,你可以在NVIDIA AI Workbench页面上导入项目,比如导入SDXL-dev文生图模型,输入“玩偶黄仁勋在太空”,结果因为模型似乎不认识玩偶老黄,生成的图像跟老黄的形象完全不沾边。
总的来说,AI Workbench为跨组织团队创建基于AI的应用程序提供了简化的途径,通过在本地系统上运行的简化的界面访问,让开发人员能使用自定义数据从主流的代码库(如Hugging Face、GitHub和NVIDIA NGC)中定制模型,并能轻松跨多平台共享。
戴尔、惠普、Lambda、联想、超微等AI基础设施供应商正采用AI Workbench以增强其最新一代多GPU桌面工作站、高端移动工作站和虚拟工作站的能力。
3、NVIDIA AI enterprise 4.0:提供一系列生成式AI工具
最新版的企业软件平台NVIDIA AI enterprise 4.0,可提供生产就绪型生成式AI工具,并提供了可靠的生产部署所需的安全性和API稳定性。
NVIDIA AI Enterprise 4.0新支持的软件和工具有助于简化生成式AI部署,其中一大亮点是引入用于构建、定制和部署大型语言模型的云原生框架NVIDIA NeMo。
其他工具还包括NVIDIA Triton管理服务(通过模型编排实现可扩展AI高效运行)、NVIDIA Base Command Manager Essentials集群管理软件(帮助企业在数据中心、多云和混合云环境中最大限度提高AI服务器性能和利用率)等。
NVIDIA AI Enterprise软件支持用户跨云、数据中心和边缘构建和运行支持NVIDIA AI的解决方案,经认证可在主流NVIDIA认证系统、NVIDIA DGX系统、所有主要云平台和新发布的NVIDIA RTX上运行工作站。
最新版本的企业软件平台将集成到谷歌云、微软Azure、Oracle云基础设施等NVIDIA合作伙伴市场。
Omniverse是Nvidia创建的实时3D图形协作平台,主要的功能就是创建“数字孪生”,在虚拟世界中模拟现实。
在演讲中,黄仁勋也拿世界最大广告公司WPP和比亚迪(腾势汽车),作为Omniverse云和生成式AI的使用案例。WPP通过Omniverse为腾势N7打造了一个实时、囊括各种外观配置的汽车“数字孪生”,并能够通过Adobe等提供的AIGC功能修改宣传材料的图像背景。
而升级版Omniverse平台是一个高性能3D场景描述技术OpenUSD的原生软件平台,用于跨3D工具和应用的连接、描述和模拟,能加快创建虚拟世界和工业数字化高级工作流程。Cesium、Convai、Move AI、SideFX Houdini 和 Wonder Dynamics现已通过 OpenUSD 连接到 Omniverse。
新平台的亮点包括更新开发原生OpenUSD应用及扩展的引擎——Omniverse Kit,以及英伟达Omniverse Audio2Face基础应用和空间计算功能的更新。
Omniverse 和模拟技术副总裁 Rev Lebaredian表示,更新后的Omniverse 让开发人员可以通过OpenUSD利用生成式AI强化他们的工具,并且让工业企业能构建更大、更复杂的世界级模拟,作为其工业应用的数字测试场。
References:
1.生成式AI添利器!英伟达推出超级芯片GH200 Grace,内存增3.5倍、带宽增三倍,华尔街见闻
2.黄仁勋SIGGRAPH演讲:GH200、L40S显卡、ChatUSD轮番登场,财联社
3.SIGGRAPH 2023: NVIDIA Keynote Highlights:
https://www.techrepublic.com/article/siggraph-2023-nvidia-keynote/
4.昨夜,黄仁勋甩出最强生成式AI处理器,全球首发HBM3e,比H100还快,芯东西
5.老黄深夜炸场,AIGC进入iPhone时刻!Hugging Face接入最强超算,神秘显卡胜过A100,新智元
>>>
充满激情的新时代,
充满挑战的新疆域,
与踔厉奋发的引领者,
卓尔不群的企业家,
一起开拓,
一起体验,
一起感悟,
共同打造更真品质,
共同实现更高价值,
共同见证商业航天更大的跨越!
——《卫星与网络》,观察,记录,传播,引领。
>>>
·《卫星与网络》特别顾问:王兆耀
·《卫星与网络》编辑委员会
高级顾问:王国玉、刘程、童旭东、相振华、王志义、杨烈
· 《卫星与网络》创始人:刘雨菲
· 《卫星与网络》副社长:袁鸿翼,王俊峰,周磊
微信扫码关注该文公众号作者