Redian新闻
>
黄仁勋深夜带来“亿点点”震撼,英伟达发布“世界上最快的内存”GH200超级芯片

黄仁勋深夜带来“亿点点”震撼,英伟达发布“世界上最快的内存”GH200超级芯片

公众号新闻


昨夜(北京时间8月8日晚),黄仁勋又一次身着标志性的黑皮衣,再度站在了SIGGRAPH的舞台并发表演讲。

活动现场,英伟达发布新一代GH200 Grace Hopper平台,该平台依托于搭载全球首款HBM3e处理器的新型Grace Hopper超级芯片(下称GH200),专为加速计算和生成式AI时代而打造。

英伟达CEO黄仁勋生动地将GH200称为“世界上最快的内存”。这是因为数据中心想要满足生成式 AI 不断增长的需求,需要有针对特殊需求的加速计算平台。而新的GH200 Grace Hopper 超级芯片平台提供了卓越的内存技术和带宽,以此提高吞吐量,提升无损耗连接GPU聚合性能的能力,并且拥有可以在整个数据中心轻松部署的服务器设计。

此外,英伟达表示,这款名为GH200的超级芯片将于2024年第二季度投产。

毫无疑问,GH200超级芯片的发布有望进一步提升英伟达在AI芯片领域的霸主地位。自从2022年底ChatGPT上市以来,全球AI大模型开发热情暴涨,进而让英伟达的芯片变得供不应求。

有数据证实,全球95%以上的大模型都使用英伟达的GPU芯片。另据业界推算,各大公司对GPU需求约43万张H100,比上一代模型飙涨近 10 倍。因此,黄仁勋也将英伟达自比为全球AI发动机,并称“正在努力为所有客户提供服务”。

同时,黄仁勋还提到,在AI时代,英伟达的技术可以替代传统数据中心,投资800 万美元的新技术可以取代用旧设备建造的1亿美元设施,而且用电量可以减少20倍。“这就是数据中心在向加速计算转变的原因。你买得越多,越省钱。”

此外,在昨晚的活动上,英伟达还发布了新的统一工具包AI Workbench,以及对英伟达Omniverse软件服务的重大升级。譬如,英伟达发布的新工作站产品,最多可以塞进去四张NVIDIA RTX 6000显卡,对应的参数为5,828 TFLOPS AI算力和192GB显存。在这里,黄仁勋直言像这样的工作站,用来开发大模型,几个月就能把本金赚回来了。

总而言之,英伟达拿出一系列令人惊叹的技术和产品,让全世界在一起见识到AI芯片霸主如何引领世界AI和图形计算的新浪潮。以下,Enjoy:


PART.1

超级芯片重磅发布,大幅降低大模型推理成本



首先,黄仁勋甩出最强生成式AI处理器,正式推出面向加速计算和生成式AI的新一代NVIDIA GH200 Grace Hopper超级芯片(以下简称“GH200”)。

GH200由72核Grace CPU和4PFLOPS Hopper GPU组成,在全球最快内存HBM3e的“助攻”下,内存容量高达141GB,提供每秒5TB的带宽。其每个GPU的容量达到NVIDIA H100 GPU的1.7倍,带宽达到H100的1.55倍。该超级芯片可以用于任何大型语言模型,降低推理成本。

与当前一代产品相比,新的双GH200系统共有144个Grace CPU核心、8PFLOPS计算性能的GPU、282GB HBM3e内存,内存容量达3.5倍,带宽达3倍。如果将连接到CPU的LPDDR内存包括在内,那么总共集成了1.2TB超快内存。GH200将在新的服务器设计中提供,黄仁勋还放出了一段动画视频,展示组装面向生成式AI时代的Grace Hopper AI超级计算机的完整过程。

首先是一块Grace Hopper,用高速互连的CPU-GPU Link将CPU和GPU“粘”在一起,通信速率比PCIe Gen5快7倍。一个Grace Hopper机架装上NVIDIA BlueField-3和ConnectX-7网卡、8通道4.6TB高速内存,用NVLink Switch实现GPU之间的高速通信,再加上NVLink Cable Cartridge,组成了NVIDA DGX GH200。

NVIDA DGX GH200由16个Grace Hopper机架,通过NVLink Switch系统连成集群,能让256块GPU组成的系统像一块巨型GPU一样工作。由256块GH200组成的NVIDIA DGX GH200 SuperPod,拥有高达1EFLOPS的算力和144TB高速内存。NVIDIA Quantum-2 InfiniBand Switch可用高速、低延时的网络连接多个DGXSuperPod,进而搭建出面向生成式AI时代的Grace Hopper AI超级计算机。

这带来的主要优势是,实现同等算力的情况下,用更少卡、省更多电、花更少钱。

过去,1亿美元能买8800块x86 CPU组成的数据中心,功耗是5MW。如今,1亿美元能买2500块GH200组成的Iso-Budget数据中心,功耗是3MW,AI推理性能达到上述CPU系统的12倍,能效达20倍。如果达到跟x86 CPU数据中心相同的AI推理性能,Iso-Troughput数据中心只需用到210块GH200,功耗是0.26MW,成本只有CPU数据中心的1/12,仅800万美元。

此外,黄仁勋还表示:“新的GH200 Grace Hopper超级芯片平台提供了卓越的内存技术和带宽,以提高吞吐量,能够连接GPU以毫无妥协地聚合性能,以及可以轻松部署在整个数据中心的服务器设计。”据悉,GH200将于明年第二季度投产。


PART.2

RTX工作站,4款显卡齐上新



其次,桌面AI工作站GPU系列一口气推出了4款新品:RTX 6000、RTX 5000、RTX 4500和RTX 4000。

如果H100以及配套的产品线展示的是英伟达GPU性能的天际线的话,针对桌面和数据中心推出的这几款产品,则是老黄对成本敏感客户秀出的绝佳「刀法」。

作为旗舰级专业卡,RTX 6000的性能参数毫无疑问是4款新品中最强的。凭借着48GB的显存,18176个CUDA核心,568个Tensor核心,142个RT核心,和高达960GB/s的带宽,它可谓是一骑绝尘。

RTX 5000配备了32GB显存,12800个CUDA核心,400个Tensor核心,100个RT核心。

RTX 4500配备了24GB显存,7680个CUDA核心,240个Tensor核心,60个RT核心。

RTX 4000配备了20GB显存,6144个CUDA核心,192个Tensor核心,48个RT核心。

基于新发布的4张新的GPU,针对企业客户,英伟达还准备一套一站式解决方案—— RTX Workstation。

支持最多4张RTX 6000 GPU,可以在15小时内完成8.6亿token的GPT3-40B的微调。还能让Stable Diffusion XL每分钟生成40张图片,比4090快5倍。


PART.3

OVX服务器搭载L40S



基于Ada Lovelace架构的L40S,配备有48GB的GDDR6显存和846GB/s的带宽。在第四代Tensor核心和FP8 Transformer引擎的加持下,可以提供超过1.45 petaflops的张量处理能力。

对于算力要求较高的任务,L40S的18,176个CUDA核心可以提供近5倍于A100的单精度浮点(FP32)性能,从而加速复杂计算和数据密集型分析。此外,为了支持如实时渲染、产品设计和3D内容创建等专业视觉处理工作,英伟达还为L40S 还配备了142个第三代RT核心,可以提供212 teraflops的光线追踪性能。

对于具有数十亿参数和多种模态的生成式AI工作负载,L40S相较于老前辈A100可实现高达1.2倍的推理性能提升,以及高达1.7倍的训练性能提升。

针对数据中心市场,英伟达推出了最多可搭载8张L40S的OVX服务器。

对于拥有8.6亿token的GPT3-40B模型,OVX服务器只需7个小时就能完成微调。对于Stable Diffusion XL模型,则可实现每分钟80张的图像生成。


PART.4

软件服务助力,生成式AI模型高效开发和部署



除了上述硬件产品外,黄仁勋分享了3个关于优化生成式AI流程的新发布,这些将有助于加速行业采用基于大型语言模型的生成式AI:

一是NVIDIA和全球最大AI开源社区Hugging Face建立合作。

二是推出NVIDIA AI Enterprise 4.0,把DGX Cloud中的所有功能放到NVIDIA AI Enterprise软件中。

三是推出NVIDIA AI Workbench,将需要用于生成式AI工作的一切打包在一起,只用点击一下就能将这个项目移动到任何终端设备或云端。

1、与Hugging Face合作:将数百万开发人员连接到生成式AI超级计算

黄仁勋宣布,NVIDIA和Hugging Face建立合作伙伴关系,将为构建大型语言模型和其他高级AI应用程序的开发人员提供生成式AI超级计算。

开发人员可以访问Hugging Face平台内的NVIDIA DGX Cloud AI超级计算,来训练和调优先进的AI模型。他们将有一个非常简单的界面来推进工作,无需担心训练的复杂性,因为这些都会由DGX Cloud处理。

DGX Cloud的每个实例有8个NVIDIA H100或A100 80GB Tensor Core GPU,每个节点的GPU内存总计640GB。DGX Cloud包含来自NVIDIA专家的支持,可以帮助客户优化其模型并快速解决开发挑战。

作为合作的一部分,Hugging Face将推出一项名为“训练集群即服务(Training Cluster as a Service)”,以简化为企业创建新的和自定义生成式AI模型。该服务由NVIDIA DGX Cloud提供支持,将在未来几个月内推出。

2、NVIDIA AI Workbench:在笔记本电脑上也能轻松启动生成式AI项目

另一款新品NVIDIA AI Workbench,是一个统一、易用的工作空间,能让开发人员随处构建或运行自己的生成式AI模型。

开发者可以很方便地将所有必要的企业级模型、框架、SDK和库从开源代码库和NVIDIA AI平台打包到这个统一的开发者工作空间中,然后只需点击几下鼠标,就能将自己的AI项目从一个位置移动到另一个位置。

这样就能在个人电脑、笔记本电脑或工作站上快速创建、测试和定制预训练的生成式AI模型,并在需要时将其扩展到数据中心、公有云或NVIDIA DGX Cloud。

举个例子,你可以在NVIDIA AI Workbench页面上导入项目,比如导入SDXL-dev文生图模型,输入“玩偶黄仁勋在太空”,结果因为模型似乎不认识玩偶老黄,生成的图像跟老黄的形象完全不沾边。

总的来说,AI Workbench为跨组织团队创建基于AI的应用程序提供了简化的途径,通过在本地系统上运行的简化的界面访问,让开发人员能使用自定义数据从主流的代码库(如Hugging Face、GitHub和NVIDIA NGC)中定制模型,并能轻松跨多平台共享。

戴尔、惠普、Lambda、联想、超微等AI基础设施供应商正采用AI Workbench以增强其最新一代多GPU桌面工作站、高端移动工作站和虚拟工作站的能力。

3、NVIDIA AI enterprise 4.0:提供一系列生成式AI工具

最新版的企业软件平台NVIDIA AI enterprise 4.0,可提供生产就绪型生成式AI工具,并提供了可靠的生产部署所需的安全性和API稳定性。

NVIDIA AI Enterprise 4.0新支持的软件和工具有助于简化生成式AI部署,其中一大亮点是引入用于构建、定制和部署大型语言模型的云原生框架NVIDIA NeMo。

其他工具还包括NVIDIA Triton管理服务(通过模型编排实现可扩展AI高效运行)、NVIDIA Base Command Manager Essentials集群管理软件(帮助企业在数据中心、多云和混合云环境中最大限度提高AI服务器性能和利用率)等。

NVIDIA AI Enterprise软件支持用户跨云、数据中心和边缘构建和运行支持NVIDIA AI的解决方案,经认证可在主流NVIDIA认证系统、NVIDIA DGX系统、所有主要云平台和新发布的NVIDIA RTX上运行工作站。

最新版本的企业软件平台将集成到谷歌云、微软Azure、Oracle云基础设施等NVIDIA合作伙伴市场。


PART.5

Omniverse平台升级,通过OpenUSD软件利用生成式AI



Omniverse是Nvidia创建的实时3D图形协作平台,主要的功能就是创建“数字孪生”,在虚拟世界中模拟现实。

在演讲中,黄仁勋也拿世界最大广告公司WPP和比亚迪(腾势汽车),作为Omniverse云和生成式AI的使用案例。WPP通过Omniverse为腾势N7打造了一个实时、囊括各种外观配置的汽车“数字孪生”,并能够通过Adobe等提供的AIGC功能修改宣传材料的图像背景。

而升级版Omniverse平台是一个高性能3D场景描述技术OpenUSD的原生软件平台,用于跨3D工具和应用的连接、描述和模拟,能加快创建虚拟世界和工业数字化高级工作流程。Cesium、Convai、Move AI、SideFX Houdini 和 Wonder Dynamics现已通过 OpenUSD 连接到 Omniverse。

新平台的亮点包括更新开发原生OpenUSD应用及扩展的引擎——Omniverse Kit,以及英伟达Omniverse Audio2Face基础应用和空间计算功能的更新。

Omniverse 和模拟技术副总裁 Rev Lebaredian表示,更新后的Omniverse 让开发人员可以通过OpenUSD利用生成式AI强化他们的工具,并且让工业企业能构建更大、更复杂的世界级模拟,作为其工业应用的数字测试场。


+
+

References:

1.生成式AI添利器!英伟达推出超级芯片GH200 Grace,内存增3.5倍、带宽增三倍,华尔街见闻

2.黄仁勋SIGGRAPH演讲:GH200、L40S显卡、ChatUSD轮番登场,财联社

3.SIGGRAPH 2023: NVIDIA Keynote Highlights:

https://www.techrepublic.com/article/siggraph-2023-nvidia-keynote/

4.昨夜,黄仁勋甩出最强生成式AI处理器,全球首发HBM3e,比H100还快,芯东西

5.老黄深夜炸场,AIGC进入iPhone时刻!Hugging Face接入最强超算,神秘显卡胜过A100,新智元

>End
>>>                        
本文转载自“经纬创投”,原标题《黄仁勋深夜带来“亿点点”震撼,英伟达发布“世界上最快的内存”GH200超级芯片 |【经纬低调分享】》,(来源/ 财联社、华尔街见闻、TechRepublic、新智元、芯东西)。
为分享前沿资讯及有价值的观点,太空与网络微信公众号转载此文,并经过编辑。
支持保护知识产权,转载请注明原出处及作者。
部分图片难以找到原始出处,故文中未加以标注,如若侵犯了您的权益,请第一时间联系我们。

HISTORY/往期推荐




迪斯尼传播快乐,美丽星球点亮梦想



商业运载火箭为什么那么难?



混合所有制模式:新型举国体制在商业航天发展中的逻辑演进和实践路径(之一)



混合所有制模式:商业航天领域推进新型举国体制的重要途径



>>>                  

充满激情的新时代,

充满挑战的新疆域,

与踔厉奋发的引领者,

卓尔不群的企业家,

一起开拓,

一起体验,

一起感悟,

共同打造更真品质,

共同实现更高价值,

共同见证商业航天更大的跨越!

——《卫星与网络》,观察,记录,传播,引领。

>>>                                           

·《卫星与网络》特别顾问:王兆耀

·《卫星与网络》编辑委员会

高级顾问:王国玉、刘程、童旭东、相振华、王志义、杨烈

· 《卫星与网络》创始人:刘雨菲

· 《卫星与网络》副社长:袁鸿翼,王俊峰,周磊

·  微信公众号(ID:satnetdy)团队
编辑:艳玲、哈玫,周
主笔记者:李刚、魏兴、张雪松、霍剑、乐瑜刀子、赵栋
策划部:杨艳
视觉总监:董泞
专业摄影:冯小京、宋伟
设计部:顾锰、潘希峎、杨小明
行政部:姜河、林紫
业务部:王锦熙、瑾怡
原创文章转载授权、转载文章侵权、投稿等事宜,请加微信:18600881613
商务合作;展览展厅设计、企业VI/CI及室内设计、企业文化建设及品牌推广;企业口碑传播及整体营销传播等,请加微信:13811260603
杂志订阅,请加微信:wangxiaoyu9960
· 卫星与网络各分部:
成都分部负责人:沈淮
长沙分部负责人:宾鸿浦
西安分部负责人:郭朝晖
青岛分部负责人:江伟
· 卫星与网络总部负责人:农燕
· 会议活动部负责人乔颢益
· 投融资及战略层面合作:刘雨菲
· 本平台签约设计公司:一画开天(北京)文化创意设计有限公司
· 航天加(深圳)股权投资基金管理负责人:杨艳

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
英伟达发布财报前夕,亚洲供应商股价下滑,AI备受关注黄仁勋再讲AI:英伟达算力直通Hugging Face,Omniverse加入OpenUSD英伟达CEO黄仁勋:我们害怕社交媒体,但我们不害怕人工智能黄仁勋:英伟达的 AI 算力,已经「1 折」出售英伟达生成式AI超级芯片GH200,两倍H100算力,黄仁勋:它会疯狂推理日本警方首次利用AI技术监测网上犯罪相关帖子;英伟达10月15日召开AI峰会,黄仁勋将发表演讲丨AIGC日报英伟达跌落神坛?黄仁勋:押注印度,对冲中国风险黄仁勋是如何管理万亿英伟达的 |【经纬低调分享】1.5T内存挑战英伟达!8枚芯片撑起3个GPT-4,华人AI芯片独角兽估值365亿希腊沃洛斯 (Volos),晚霞滨城黄仁勋李彦宏入选《时代》百大AI人物;英伟达连投两家AI创企;ChatGPT访问量连续下降丨AIGC大事日报老黄又来“抢钱”:英伟达再推超强芯片平台,守住万亿芯片老大擂台苹果将在iPhone芯片上省数十亿美元/英伟达推出AI超级芯片/万达回应副总裁被带走调查英伟达市值一夜暴涨5000亿,黄仁勋坐稳AI铁王座黄仁勋深夜带来“亿点点”震撼,英伟达发布“世界上最快的内存”GH200超级芯片 |【经纬低调分享】黄仁勋的“3000亿新市场”,英伟达的云野心英伟达遭CEO黄仁勋减持:套现超3亿 空头称已形成资产泡沫黄仁勋是如何管理万亿英伟达的浪淘沙:鲜虾添味不须多苏姿丰黄仁勋不谋而合,AMD推出超级芯片MI300?!英伟达、云厂商们也没有H100余粮了!未来全球顶级芯片缺口达40多万张黄仁勋管理万亿英伟达的疯狂方法:没有计划、没有汇报、没有层级给老外亿点点震撼,正如80年代父辈第一次去巴黎英伟达发布AI芯片,明年二季度供货!黄仁勋称“它会疯狂推理”黄仁勋是如何管理万亿英伟达的|中企荐读观芍药开花有感英伟达起飞,黄仁勋暴富21岁“亚洲白月光”离奇失踪:“精灵美貌”震撼全网,毫无瑕疵!却因太美被孤立,背后牵扯的内幕,让人震惊小院春夏碾压H100!英伟达GH200超级芯片首秀MLPerf v3.1,性能跃升17%黄仁勋深度访谈:战略是行动,英伟达不做这几件事英伟达发二季度财报,净利润暴涨 8 倍;索尼发布「PlayStation 掌机」;美太空部队发 72 颗作战卫星 | 极客早知道万达高级副总裁涉贪腐被带走调查;英伟达推出新一代超级芯片平台;碧桂园否认存在逾期未交付情况丨邦早报英伟达发布新一代超级芯片平台/苹果能在芯片上省数十亿美元/华为系统云翻新功能上线Seeing is Not Believing
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。