Redian新闻
>
黄仁勋深夜带来“亿点点”震撼,英伟达发布“世界上最快的内存”GH200超级芯片 |【经纬低调分享】

黄仁勋深夜带来“亿点点”震撼,英伟达发布“世界上最快的内存”GH200超级芯片 |【经纬低调分享】

公众号新闻
昨夜(北京时间8月8日晚),黄仁勋又一次身着标志性的黑皮衣,再度站在了SIGGRAPH的舞台并发表演讲。

活动现场,英伟达发布新一代GH200 Grace Hopper平台,该平台依托于搭载全球首款HBM3e处理器的新型Grace Hopper超级芯片(下称GH200),专为加速计算和生成式AI时代而打造。

英伟达CEO黄仁勋生动地将GH200称为“世界上最快的内存”。这是因为数据中心想要满足生成式 AI 不断增长的需求,需要有针对特殊需求的加速计算平台。而新的GH200 Grace Hopper 超级芯片平台提供了卓越的内存技术和带宽,以此提高吞吐量,提升无损耗连接GPU聚合性能的能力,并且拥有可以在整个数据中心轻松部署的服务器设计。

此外,英伟达表示,这款名为GH200的超级芯片将于2024年第二季度投产。

毫无疑问,GH200超级芯片的发布有望进一步提升英伟达在AI芯片领域的霸主地位。自从2022年底ChatGPT上市以来,全球AI大模型开发热情暴涨,进而让英伟达的芯片变得供不应求。

有数据证实,全球95%以上的大模型都使用英伟达的GPU芯片。另据业界推算,各大公司对GPU需求约43万张H100,比上一代模型飙涨近 10 倍。因此,黄仁勋也将英伟达自比为全球AI发动机,并称“正在努力为所有客户提供服务”。

同时,黄仁勋还提到,在AI时代,英伟达的技术可以替代传统数据中心,投资800 万美元的新技术可以取代用旧设备建造的1亿美元设施,而且用电量可以减少20倍。“这就是数据中心在向加速计算转变的原因。你买得越多,越省钱。”

此外,在昨晚的活动上,英伟达还发布了新的统一工具包AI Workbench,以及对英伟达Omniverse软件服务的重大升级。譬如,英伟达发布的新工作站产品,最多可以塞进去四张NVIDIA RTX 6000显卡,对应的参数为5,828 TFLOPS AI算力和192GB显存。在这里,黄仁勋直言像这样的工作站,用来开发大模型,几个月就能把本金赚回来了。

总而言之,英伟达拿出一系列令人惊叹的技术和产品,让全世界在一起见识到AI芯片霸主如何引领世界AI和图形计算的新浪潮。以下,Enjoy:
 
来源/ 财联社、华尔街见闻、TechRepublic、新智元、芯东西


1

超级芯片重磅发布
大幅降低大模型推理成本

首先,黄仁勋甩出最强生成式AI处理器,正式推出面向加速计算和生成式AI的新一代NVIDIA GH200 Grace Hopper超级芯片(以下简称“GH200”)。

GH200由72核Grace CPU和4PFLOPS Hopper GPU组成,在全球最快内存HBM3e的“助攻”下,内存容量高达141GB,提供每秒5TB的带宽。其每个GPU的容量达到NVIDIA H100 GPU的1.7倍,带宽达到H100的1.55倍。该超级芯片可以用于任何大型语言模型,降低推理成本。

与当前一代产品相比,新的双GH200系统共有144个Grace CPU核心、8PFLOPS计算性能的GPU、282GB HBM3e内存,内存容量达3.5倍,带宽达3倍。如果将连接到CPU的LPDDR内存包括在内,那么总共集成了1.2TB超快内存。GH200将在新的服务器设计中提供,黄仁勋还放出了一段动画视频,展示组装面向生成式AI时代的Grace Hopper AI超级计算机的完整过程。

首先是一块Grace Hopper,用高速互连的CPU-GPU Link将CPU和GPU“粘”在一起,通信速率比PCIe Gen5快7倍。一个Grace Hopper机架装上NVIDIA BlueField-3和ConnectX-7网卡、8通道4.6TB高速内存,用NVLink Switch实现GPU之间的高速通信,再加上NVLink Cable Cartridge,组成了NVIDA DGX GH200。

NVIDA DGX GH200由16个Grace Hopper机架,通过NVLink Switch系统连成集群,能让256块GPU组成的系统像一块巨型GPU一样工作。由256块GH200组成的NVIDIA DGX GH200 SuperPod,拥有高达1EFLOPS的算力和144TB高速内存。NVIDIA Quantum-2 InfiniBand Switch可用高速、低延时的网络连接多个DGXSuperPod,进而搭建出面向生成式AI时代的Grace Hopper AI超级计算机。

这带来的主要优势是,实现同等算力的情况下,用更少卡、省更多电、花更少钱。

过去,1亿美元能买8800块x86 CPU组成的数据中心,功耗是5MW。如今,1亿美元能买2500块GH200组成的Iso-Budget数据中心,功耗是3MW,AI推理性能达到上述CPU系统的12倍,能效达20倍。如果达到跟x86 CPU数据中心相同的AI推理性能,Iso-Troughput数据中心只需用到210块GH200,功耗是0.26MW,成本只有CPU数据中心的1/12,仅800万美元。

此外,黄仁勋还表示:“新的GH200 Grace Hopper超级芯片平台提供了卓越的内存技术和带宽,以提高吞吐量,能够连接GPU以毫无妥协地聚合性能,以及可以轻松部署在整个数据中心的服务器设计。”据悉,GH200将于明年第二季度投产。

2

RTX工作站,4款显卡齐上新

其次,桌面AI工作站GPU系列一口气推出了4款新品:RTX 6000、RTX 5000、RTX 4500和RTX 4000。

如果H100以及配套的产品线展示的是英伟达GPU性能的天际线的话,针对桌面和数据中心推出的这几款产品,则是老黄对成本敏感客户秀出的绝佳「刀法」。

作为旗舰级专业卡,RTX 6000的性能参数毫无疑问是4款新品中最强的。凭借着48GB的显存,18176个CUDA核心,568个Tensor核心,142个RT核心,和高达960GB/s的带宽,它可谓是一骑绝尘。

RTX 5000配备了32GB显存,12800个CUDA核心,400个Tensor核心,100个RT核心。

RTX 4500配备了24GB显存,7680个CUDA核心,240个Tensor核心,60个RT核心。

RTX 4000配备了20GB显存,6144个CUDA核心,192个Tensor核心,48个RT核心。

基于新发布的4张新的GPU,针对企业客户,英伟达还准备一套一站式解决方案—— RTX Workstation。

支持最多4张RTX 6000 GPU,可以在15小时内完成8.6亿token的GPT3-40B的微调。还能让Stable Diffusion XL每分钟生成40张图片,比4090快5倍。

3

OVX服务器搭载L40S

基于Ada Lovelace架构的L40S,配备有48GB的GDDR6显存和846GB/s的带宽。在第四代Tensor核心和FP8 Transformer引擎的加持下,可以提供超过1.45 petaflops的张量处理能力。

对于算力要求较高的任务,L40S的18,176个CUDA核心可以提供近5倍于A100的单精度浮点(FP32)性能,从而加速复杂计算和数据密集型分析。此外,为了支持如实时渲染、产品设计和3D内容创建等专业视觉处理工作,英伟达还为L40S 还配备了142个第三代RT核心,可以提供212 teraflops的光线追踪性能。

对于具有数十亿参数和多种模态的生成式AI工作负载,L40S相较于老前辈A100可实现高达1.2倍的推理性能提升,以及高达1.7倍的训练性能提升。

针对数据中心市场,英伟达推出了最多可搭载8张L40S的OVX服务器。

对于拥有8.6亿token的GPT3-40B模型,OVX服务器只需7个小时就能完成微调。对于Stable Diffusion XL模型,则可实现每分钟80张的图像生成。

4

软件服务助力
生成式AI模型高效开发和部署

除了上述硬件产品外,黄仁勋分享了3个关于优化生成式AI流程的新发布,这些将有助于加速行业采用基于大型语言模型的生成式AI:

一是NVIDIA和全球最大AI开源社区Hugging Face建立合作。

二是推出NVIDIA AI Enterprise 4.0,把DGX Cloud中的所有功能放到NVIDIA AI Enterprise软件中。

三是推出NVIDIA AI Workbench,将需要用于生成式AI工作的一切打包在一起,只用点击一下就能将这个项目移动到任何终端设备或云端。

1、与Hugging Face合作:将数百万开发人员连接到生成式AI超级计算

黄仁勋宣布,NVIDIA和Hugging Face建立合作伙伴关系,将为构建大型语言模型和其他高级AI应用程序的开发人员提供生成式AI超级计算。

开发人员可以访问Hugging Face平台内的NVIDIA DGX Cloud AI超级计算,来训练和调优先进的AI模型。他们将有一个非常简单的界面来推进工作,无需担心训练的复杂性,因为这些都会由DGX Cloud处理。

DGX Cloud的每个实例有8个NVIDIA H100或A100 80GB Tensor Core GPU,每个节点的GPU内存总计640GB。DGX Cloud包含来自NVIDIA专家的支持,可以帮助客户优化其模型并快速解决开发挑战。

作为合作的一部分,Hugging Face将推出一项名为“训练集群即服务(Training Cluster as a Service)”,以简化为企业创建新的和自定义生成式AI模型。该服务由NVIDIA DGX Cloud提供支持,将在未来几个月内推出。

2、NVIDIA AI Workbench:在笔记本电脑上也能轻松启动生成式AI项目

另一款新品NVIDIA AI Workbench,是一个统一、易用的工作空间,能让开发人员随处构建或运行自己的生成式AI模型。

开发者可以很方便地将所有必要的企业级模型、框架、SDK和库从开源代码库和NVIDIA AI平台打包到这个统一的开发者工作空间中,然后只需点击几下鼠标,就能将自己的AI项目从一个位置移动到另一个位置。

这样就能在个人电脑、笔记本电脑或工作站上快速创建、测试和定制预训练的生成式AI模型,并在需要时将其扩展到数据中心、公有云或NVIDIA DGX Cloud。

举个例子,你可以在NVIDIA AI Workbench页面上导入项目,比如导入SDXL-dev文生图模型,输入“玩偶黄仁勋在太空”,结果因为模型似乎不认识玩偶老黄,生成的图像跟老黄的形象完全不沾边。

总的来说,AI Workbench为跨组织团队创建基于AI的应用程序提供了简化的途径,通过在本地系统上运行的简化的界面访问,让开发人员能使用自定义数据从主流的代码库(如Hugging Face、GitHub和NVIDIA NGC)中定制模型,并能轻松跨多平台共享。

戴尔、惠普、Lambda、联想、超微等AI基础设施供应商正采用AI Workbench以增强其最新一代多GPU桌面工作站、高端移动工作站和虚拟工作站的能力。

3、NVIDIA AI enterprise 4.0:提供一系列生成式AI工具

最新版的企业软件平台NVIDIA AI enterprise 4.0,可提供生产就绪型生成式AI工具,并提供了可靠的生产部署所需的安全性和API稳定性。

NVIDIA AI Enterprise 4.0新支持的软件和工具有助于简化生成式AI部署,其中一大亮点是引入用于构建、定制和部署大型语言模型的云原生框架NVIDIA NeMo。

其他工具还包括NVIDIA Triton管理服务(通过模型编排实现可扩展AI高效运行)、NVIDIA Base Command Manager Essentials集群管理软件(帮助企业在数据中心、多云和混合云环境中最大限度提高AI服务器性能和利用率)等。

NVIDIA AI Enterprise软件支持用户跨云、数据中心和边缘构建和运行支持NVIDIA AI的解决方案,经认证可在主流NVIDIA认证系统、NVIDIA DGX系统、所有主要云平台和新发布的NVIDIA RTX上运行工作站。

最新版本的企业软件平台将集成到谷歌云、微软Azure、Oracle云基础设施等NVIDIA合作伙伴市场。

5

Omniverse平台升级
通过OpenUSD软件利用生成式AI

Omniverse是Nvidia创建的实时3D图形协作平台,主要的功能就是创建“数字孪生”,在虚拟世界中模拟现实。

在演讲中,黄仁勋也拿世界最大广告公司WPP和比亚迪(腾势汽车),作为Omniverse云和生成式AI的使用案例。WPP通过Omniverse为腾势N7打造了一个实时、囊括各种外观配置的汽车“数字孪生”,并能够通过Adobe等提供的AIGC功能修改宣传材料的图像背景。

而升级版Omniverse平台是一个高性能3D场景描述技术OpenUSD的原生软件平台,用于跨3D工具和应用的连接、描述和模拟,能加快创建虚拟世界和工业数字化高级工作流程。Cesium、Convai、Move AI、SideFX Houdini 和 Wonder Dynamics现已通过 OpenUSD 连接到 Omniverse。

新平台的亮点包括更新开发原生OpenUSD应用及扩展的引擎——Omniverse Kit,以及英伟达Omniverse Audio2Face基础应用和空间计算功能的更新。

Omniverse 和模拟技术副总裁 Rev Lebaredian表示,更新后的Omniverse 让开发人员可以通过OpenUSD利用生成式AI强化他们的工具,并且让工业企业能构建更大、更复杂的世界级模拟,作为其工业应用的数字测试场。

References:
1.生成式AI添利器!英伟达推出超级芯片GH200 Grace,内存增3.5倍、带宽增三倍,华尔街见闻
2.黄仁勋SIGGRAPH演讲:GH200、L40S显卡、ChatUSD轮番登场,财联社
3.SIGGRAPH 2023: NVIDIA Keynote Highlights:
https://www.techrepublic.com/article/siggraph-2023-nvidia-keynote/
4.昨夜,黄仁勋甩出最强生成式AI处理器,全球首发HBM3e,比H100还快,芯东西
5.老黄深夜炸场,AIGC进入iPhone时刻!Hugging Face接入最强超算,神秘显卡胜过A100,新智元

也许你还想看:

经纬2022年终盘点:乐观者前行,follow the white rabbit

经纬张颖:2023,不只克服困难而是习惯困难 

经纬徐传陞:做VC这么多年,人们总在问我同一个问题 
ChatGPT之父Sam Altman:大型AI企业,将诞生于哪些领域?

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
外派故事 (35)萍水相逢在南洋更强的Llama 2开源,可直接商用:一夜之间,大模型格局变了 |【经纬低调分享】一家咖啡店的监控,引爆目标监测的元伦理探讨 |【经纬低调分享】GitHub Copilot:6人小团队如何开发出风靡全球的程序员神器? |【经纬低调分享】硅谷钢铁侠「马斯克」,如何在商业游戏中逆风翻盘?|【经纬低调分享】2023年的当头一棒:我在日本做手术(完)英伟达生成式AI超级芯片GH200,两倍H100算力,黄仁勋:它会疯狂推理微软公布路线图,称 10 年内将制造出量子超级计算机 |【经纬低调分享】经纬张颖:AI的远与近 |【经纬低调分享】英伟达发布新一代超级芯片平台/苹果能在芯片上省数十亿美元/华为系统云翻新功能上线最强沟通法则:将聆听刻入DNA,用反馈激发团队潜力 |【经纬低调分享】从科研走向商业:科学家如何平衡创新与生存?|【经纬低调分享】伟大的创新想法,究竟是如何产生的? |【经纬低调分享】距离地球150万公里的望远镜到底拍到了什么? |【经纬低调分享】黄仁勋深度访谈:战略是行动,英伟达不做这几件事扎克伯格给了马斯克一记重拳:推特杀手终于来了 |【经纬低调分享】OpenAI 和谷歌最怕的,是一张"开源笑脸" |【经纬低调分享】征程漫忆从「无情」到「有情」,大模型的感知系统越来越靠近人类丨【经纬低调分享】《今日简史》赫拉利:稳定已是奢侈品,50岁算年轻丨【经纬低调分享】《奥本海默》观影指南:原子弹之父真正的恐惧是什么? |【经纬低调分享】收购推特往事:马斯克永远处于闯关状态 |【经纬低调分享】碾压H100!英伟达GH200超级芯片首秀MLPerf v3.1,性能跃升17%教练型领导力,如何让员工绩效翻倍?丨【经纬低调分享】苹果首次:iPhone15或将带着8年专利强势出击!|【经纬低调分享】黄仁勋是如何管理万亿英伟达的 |【经纬低调分享】克利奥帕特拉:野心勃勃又媚惑非凡的埃及艳后“皮衣刀客”黄仁勋:从夜市少年到“硅谷战神” |【经纬低调分享】黄仁勋深夜带来“亿点点”震撼,英伟达发布“世界上最快的内存”GH200超级芯片次韵科技狂人入局“长寿”领域:五年投一亿美元,只为逆转衰老 |【经纬低调分享】「电子果蝇」惊动马斯克!背后是13万神经元全脑图谱,可在电脑上运行 |【经纬低调分享】打造“铁腕管理”:对人性的洞悉程度有多深,企业治理水平就有多高 |【经纬低调分享】NASA抢着寄合同,这家公司如何正确将火箭“抡进”太空? |【经纬低调分享】Isaacson新书《马斯克传》:马斯克不是超人,而是扮成了超人 |【经纬低调分享】
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。