黄仁勋深夜带来“亿点点”震撼,英伟达发布“世界上最快的内存”GH200超级芯片 |【经纬低调分享】公众号新闻2023-08-09 03:08昨夜(北京时间8月8日晚),黄仁勋又一次身着标志性的黑皮衣,再度站在了SIGGRAPH的舞台并发表演讲。活动现场,英伟达发布新一代GH200 Grace Hopper平台,该平台依托于搭载全球首款HBM3e处理器的新型Grace Hopper超级芯片(下称GH200),专为加速计算和生成式AI时代而打造。英伟达CEO黄仁勋生动地将GH200称为“世界上最快的内存”。这是因为数据中心想要满足生成式 AI 不断增长的需求,需要有针对特殊需求的加速计算平台。而新的GH200 Grace Hopper 超级芯片平台提供了卓越的内存技术和带宽,以此提高吞吐量,提升无损耗连接GPU聚合性能的能力,并且拥有可以在整个数据中心轻松部署的服务器设计。此外,英伟达表示,这款名为GH200的超级芯片将于2024年第二季度投产。毫无疑问,GH200超级芯片的发布有望进一步提升英伟达在AI芯片领域的霸主地位。自从2022年底ChatGPT上市以来,全球AI大模型开发热情暴涨,进而让英伟达的芯片变得供不应求。有数据证实,全球95%以上的大模型都使用英伟达的GPU芯片。另据业界推算,各大公司对GPU需求约43万张H100,比上一代模型飙涨近 10 倍。因此,黄仁勋也将英伟达自比为全球AI发动机,并称“正在努力为所有客户提供服务”。同时,黄仁勋还提到,在AI时代,英伟达的技术可以替代传统数据中心,投资800 万美元的新技术可以取代用旧设备建造的1亿美元设施,而且用电量可以减少20倍。“这就是数据中心在向加速计算转变的原因。你买得越多,越省钱。”此外,在昨晚的活动上,英伟达还发布了新的统一工具包AI Workbench,以及对英伟达Omniverse软件服务的重大升级。譬如,英伟达发布的新工作站产品,最多可以塞进去四张NVIDIA RTX 6000显卡,对应的参数为5,828 TFLOPS AI算力和192GB显存。在这里,黄仁勋直言像这样的工作站,用来开发大模型,几个月就能把本金赚回来了。总而言之,英伟达拿出一系列令人惊叹的技术和产品,让全世界在一起见识到AI芯片霸主如何引领世界AI和图形计算的新浪潮。以下,Enjoy: 来源/ 财联社、华尔街见闻、TechRepublic、新智元、芯东西1超级芯片重磅发布大幅降低大模型推理成本首先,黄仁勋甩出最强生成式AI处理器,正式推出面向加速计算和生成式AI的新一代NVIDIA GH200 Grace Hopper超级芯片(以下简称“GH200”)。GH200由72核Grace CPU和4PFLOPS Hopper GPU组成,在全球最快内存HBM3e的“助攻”下,内存容量高达141GB,提供每秒5TB的带宽。其每个GPU的容量达到NVIDIA H100 GPU的1.7倍,带宽达到H100的1.55倍。该超级芯片可以用于任何大型语言模型,降低推理成本。与当前一代产品相比,新的双GH200系统共有144个Grace CPU核心、8PFLOPS计算性能的GPU、282GB HBM3e内存,内存容量达3.5倍,带宽达3倍。如果将连接到CPU的LPDDR内存包括在内,那么总共集成了1.2TB超快内存。GH200将在新的服务器设计中提供,黄仁勋还放出了一段动画视频,展示组装面向生成式AI时代的Grace Hopper AI超级计算机的完整过程。首先是一块Grace Hopper,用高速互连的CPU-GPU Link将CPU和GPU“粘”在一起,通信速率比PCIe Gen5快7倍。一个Grace Hopper机架装上NVIDIA BlueField-3和ConnectX-7网卡、8通道4.6TB高速内存,用NVLink Switch实现GPU之间的高速通信,再加上NVLink Cable Cartridge,组成了NVIDA DGX GH200。NVIDA DGX GH200由16个Grace Hopper机架,通过NVLink Switch系统连成集群,能让256块GPU组成的系统像一块巨型GPU一样工作。由256块GH200组成的NVIDIA DGX GH200 SuperPod,拥有高达1EFLOPS的算力和144TB高速内存。NVIDIA Quantum-2 InfiniBand Switch可用高速、低延时的网络连接多个DGXSuperPod,进而搭建出面向生成式AI时代的Grace Hopper AI超级计算机。这带来的主要优势是,实现同等算力的情况下,用更少卡、省更多电、花更少钱。过去,1亿美元能买8800块x86 CPU组成的数据中心,功耗是5MW。如今,1亿美元能买2500块GH200组成的Iso-Budget数据中心,功耗是3MW,AI推理性能达到上述CPU系统的12倍,能效达20倍。如果达到跟x86 CPU数据中心相同的AI推理性能,Iso-Troughput数据中心只需用到210块GH200,功耗是0.26MW,成本只有CPU数据中心的1/12,仅800万美元。此外,黄仁勋还表示:“新的GH200 Grace Hopper超级芯片平台提供了卓越的内存技术和带宽,以提高吞吐量,能够连接GPU以毫无妥协地聚合性能,以及可以轻松部署在整个数据中心的服务器设计。”据悉,GH200将于明年第二季度投产。2RTX工作站,4款显卡齐上新其次,桌面AI工作站GPU系列一口气推出了4款新品:RTX 6000、RTX 5000、RTX 4500和RTX 4000。如果H100以及配套的产品线展示的是英伟达GPU性能的天际线的话,针对桌面和数据中心推出的这几款产品,则是老黄对成本敏感客户秀出的绝佳「刀法」。作为旗舰级专业卡,RTX 6000的性能参数毫无疑问是4款新品中最强的。凭借着48GB的显存,18176个CUDA核心,568个Tensor核心,142个RT核心,和高达960GB/s的带宽,它可谓是一骑绝尘。RTX 5000配备了32GB显存,12800个CUDA核心,400个Tensor核心,100个RT核心。RTX 4500配备了24GB显存,7680个CUDA核心,240个Tensor核心,60个RT核心。RTX 4000配备了20GB显存,6144个CUDA核心,192个Tensor核心,48个RT核心。基于新发布的4张新的GPU,针对企业客户,英伟达还准备一套一站式解决方案—— RTX Workstation。支持最多4张RTX 6000 GPU,可以在15小时内完成8.6亿token的GPT3-40B的微调。还能让Stable Diffusion XL每分钟生成40张图片,比4090快5倍。3OVX服务器搭载L40S基于Ada Lovelace架构的L40S,配备有48GB的GDDR6显存和846GB/s的带宽。在第四代Tensor核心和FP8 Transformer引擎的加持下,可以提供超过1.45 petaflops的张量处理能力。对于算力要求较高的任务,L40S的18,176个CUDA核心可以提供近5倍于A100的单精度浮点(FP32)性能,从而加速复杂计算和数据密集型分析。此外,为了支持如实时渲染、产品设计和3D内容创建等专业视觉处理工作,英伟达还为L40S 还配备了142个第三代RT核心,可以提供212 teraflops的光线追踪性能。对于具有数十亿参数和多种模态的生成式AI工作负载,L40S相较于老前辈A100可实现高达1.2倍的推理性能提升,以及高达1.7倍的训练性能提升。针对数据中心市场,英伟达推出了最多可搭载8张L40S的OVX服务器。对于拥有8.6亿token的GPT3-40B模型,OVX服务器只需7个小时就能完成微调。对于Stable Diffusion XL模型,则可实现每分钟80张的图像生成。4软件服务助力生成式AI模型高效开发和部署除了上述硬件产品外,黄仁勋分享了3个关于优化生成式AI流程的新发布,这些将有助于加速行业采用基于大型语言模型的生成式AI:一是NVIDIA和全球最大AI开源社区Hugging Face建立合作。二是推出NVIDIA AI Enterprise 4.0,把DGX Cloud中的所有功能放到NVIDIA AI Enterprise软件中。三是推出NVIDIA AI Workbench,将需要用于生成式AI工作的一切打包在一起,只用点击一下就能将这个项目移动到任何终端设备或云端。1、与Hugging Face合作:将数百万开发人员连接到生成式AI超级计算黄仁勋宣布,NVIDIA和Hugging Face建立合作伙伴关系,将为构建大型语言模型和其他高级AI应用程序的开发人员提供生成式AI超级计算。开发人员可以访问Hugging Face平台内的NVIDIA DGX Cloud AI超级计算,来训练和调优先进的AI模型。他们将有一个非常简单的界面来推进工作,无需担心训练的复杂性,因为这些都会由DGX Cloud处理。DGX Cloud的每个实例有8个NVIDIA H100或A100 80GB Tensor Core GPU,每个节点的GPU内存总计640GB。DGX Cloud包含来自NVIDIA专家的支持,可以帮助客户优化其模型并快速解决开发挑战。作为合作的一部分,Hugging Face将推出一项名为“训练集群即服务(Training Cluster as a Service)”,以简化为企业创建新的和自定义生成式AI模型。该服务由NVIDIA DGX Cloud提供支持,将在未来几个月内推出。2、NVIDIA AI Workbench:在笔记本电脑上也能轻松启动生成式AI项目另一款新品NVIDIA AI Workbench,是一个统一、易用的工作空间,能让开发人员随处构建或运行自己的生成式AI模型。开发者可以很方便地将所有必要的企业级模型、框架、SDK和库从开源代码库和NVIDIA AI平台打包到这个统一的开发者工作空间中,然后只需点击几下鼠标,就能将自己的AI项目从一个位置移动到另一个位置。这样就能在个人电脑、笔记本电脑或工作站上快速创建、测试和定制预训练的生成式AI模型,并在需要时将其扩展到数据中心、公有云或NVIDIA DGX Cloud。举个例子,你可以在NVIDIA AI Workbench页面上导入项目,比如导入SDXL-dev文生图模型,输入“玩偶黄仁勋在太空”,结果因为模型似乎不认识玩偶老黄,生成的图像跟老黄的形象完全不沾边。总的来说,AI Workbench为跨组织团队创建基于AI的应用程序提供了简化的途径,通过在本地系统上运行的简化的界面访问,让开发人员能使用自定义数据从主流的代码库(如Hugging Face、GitHub和NVIDIA NGC)中定制模型,并能轻松跨多平台共享。戴尔、惠普、Lambda、联想、超微等AI基础设施供应商正采用AI Workbench以增强其最新一代多GPU桌面工作站、高端移动工作站和虚拟工作站的能力。3、NVIDIA AI enterprise 4.0:提供一系列生成式AI工具最新版的企业软件平台NVIDIA AI enterprise 4.0,可提供生产就绪型生成式AI工具,并提供了可靠的生产部署所需的安全性和API稳定性。NVIDIA AI Enterprise 4.0新支持的软件和工具有助于简化生成式AI部署,其中一大亮点是引入用于构建、定制和部署大型语言模型的云原生框架NVIDIA NeMo。其他工具还包括NVIDIA Triton管理服务(通过模型编排实现可扩展AI高效运行)、NVIDIA Base Command Manager Essentials集群管理软件(帮助企业在数据中心、多云和混合云环境中最大限度提高AI服务器性能和利用率)等。NVIDIA AI Enterprise软件支持用户跨云、数据中心和边缘构建和运行支持NVIDIA AI的解决方案,经认证可在主流NVIDIA认证系统、NVIDIA DGX系统、所有主要云平台和新发布的NVIDIA RTX上运行工作站。最新版本的企业软件平台将集成到谷歌云、微软Azure、Oracle云基础设施等NVIDIA合作伙伴市场。5Omniverse平台升级通过OpenUSD软件利用生成式AIOmniverse是Nvidia创建的实时3D图形协作平台,主要的功能就是创建“数字孪生”,在虚拟世界中模拟现实。在演讲中,黄仁勋也拿世界最大广告公司WPP和比亚迪(腾势汽车),作为Omniverse云和生成式AI的使用案例。WPP通过Omniverse为腾势N7打造了一个实时、囊括各种外观配置的汽车“数字孪生”,并能够通过Adobe等提供的AIGC功能修改宣传材料的图像背景。而升级版Omniverse平台是一个高性能3D场景描述技术OpenUSD的原生软件平台,用于跨3D工具和应用的连接、描述和模拟,能加快创建虚拟世界和工业数字化高级工作流程。Cesium、Convai、Move AI、SideFX Houdini 和 Wonder Dynamics现已通过 OpenUSD 连接到 Omniverse。新平台的亮点包括更新开发原生OpenUSD应用及扩展的引擎——Omniverse Kit,以及英伟达Omniverse Audio2Face基础应用和空间计算功能的更新。Omniverse 和模拟技术副总裁 Rev Lebaredian表示,更新后的Omniverse 让开发人员可以通过OpenUSD利用生成式AI强化他们的工具,并且让工业企业能构建更大、更复杂的世界级模拟,作为其工业应用的数字测试场。References:1.生成式AI添利器!英伟达推出超级芯片GH200 Grace,内存增3.5倍、带宽增三倍,华尔街见闻2.黄仁勋SIGGRAPH演讲:GH200、L40S显卡、ChatUSD轮番登场,财联社3.SIGGRAPH 2023: NVIDIA Keynote Highlights:https://www.techrepublic.com/article/siggraph-2023-nvidia-keynote/4.昨夜,黄仁勋甩出最强生成式AI处理器,全球首发HBM3e,比H100还快,芯东西5.老黄深夜炸场,AIGC进入iPhone时刻!Hugging Face接入最强超算,神秘显卡胜过A100,新智元也许你还想看:经纬2022年终盘点:乐观者前行,follow the white rabbit经纬张颖:2023,不只克服困难而是习惯困难 经纬徐传陞:做VC这么多年,人们总在问我同一个问题 ChatGPT之父Sam Altman:大型AI企业,将诞生于哪些领域?微信扫码关注该文公众号作者戳这里提交新闻线索和高质量文章给我们。来源: qq点击查看作者最近其他文章