Redian新闻
>
老黄发布最强AIGC芯片!内存容量暴增近50%,可运行任意大模型,“生成式AI的iPhone时刻已来”

老黄发布最强AIGC芯片!内存容量暴增近50%,可运行任意大模型,“生成式AI的iPhone时刻已来”

公众号新闻
克雷西 萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

他来了他来了,老黄带着「最强生成式AI处理器」和一系列重磅更新来了!

计算机图形学顶会SIGGRAPH上,老黄宣布了英伟达最新的超级芯片NVIDIA DGX GH200 Grace Hopper。

这块芯片搭载了全球最快的内存,不仅带宽每秒5TB,内存容量更是暴增接近50%来到141GB,「任何大语言模型都能运行」。

同时,英伟达还宣布了和Hugging Face的合作——

以后在Hugging Face平台上,不需要再下载ML模型自己运行,只需要几步简单操作,就能在笔记本上运行大模型,有Colab内味了(就是不知道有没有免费版)

至于软件更新,字里行间也全是AI

不仅在Omniverse平台中集成了一系列时下热门的AI工具,新的软件有不少也是基于大模型打造,像ChatUSD就能帮开发者们写代码。

这也是时隔五年,老黄再次登上SIGGRAPH的舞台。在会上,他自信满满地宣布:

生成式人工智能的「iPhone时刻」,已经来临。

有网友看完发布会后感慨:

英伟达在AI硬件这方面,已经无人能及了。

新芯片组成的「最强超算」来袭

这场发布会中最先抛出,也是最引人瞩目的,非「最强超算」莫属。

这台超级计算机由256块DGX GH200 Grace Hopper(简称DGX GH200)连接而成。

用老黄的话,这个「庞然大物」就是为AIGC时代量身打造的

它的算力和内存容量分别达到了1E(10^15)FLOPS和144TB

下面这张图展示了它的真实大小(中间的黑影是老黄)

不仅是性能优异,对比发现,性价比简直完爆CPU

同样花1亿美元,拿来买CPU和GPU分别能得到什么?

CPU的话,可以买8800个x86架构的产品。

这近九千块CPU加起来,只能带动一个LLaMA 2、SDXL这样规模的AI程序。

功率嘛……是5兆瓦,也就是每小时5000度电。

如果换成GPU的话,则是2500块DGX GH200。

能带动的近似规模的AI程序一下增加到了12个,功率却降低到了3兆瓦。

平均到单个程序上,需要210块DGX GH200,价格是800万美元,功率则为0.26兆瓦。

而组成这个「最强超算」的DGX GH200,同样是王者级别,被称为「最强生成式AI处理器」。

DGX GH200由Grace CPU和Hopper GPU组成。

其中Grace CPU包含72核心,而后者拥有4P(10^12)FLOPS的算力和500GB的LPDDR5X。

此外,DGX GH200中还加入了海力士的「最快内存」HBM3e。

它的容量为141GB,带宽则高达每秒5TB,分别是H100的1.7倍和1.55倍

(好家伙,H100都只配当baseline了)

在DGX GH200中,CPU和GPU之间的连接速度是第五代PCIe的7倍

而从单块DGX GH200到整个超级计算机的过程,主打的就是一个「叠」。

这要得益于它的多GPU高速连接能力。

双联体的DGX GH200,性能几乎没有损失,直接就是单体的两倍。

将双联体的DGX GH200与BlueField-3 DPU和ConnectX-7网卡,就组成了一个「计算盒」。

通过NVLink,8个这样的「计算盒」高速连接,就得到了DGX构建块,总内存达到了4.6TB。

这样的构建块可以合二为一形成新的计算盒,并最终扩展成256 GPU的工作集群Superpod。

NVLink的高速连接能力,让这256块GPU「就像是一块一样」工作。

至此,显卡超算的规模已经达到了本节开头老黄所展示的水平。

但这还没有结束——Superpod之间还能继续连接。

在高速低延时的Quantum-2 Infiniband平台帮助下,超算的规模可以接着扩展……

讲到这里,老黄还打趣

如果哪天你从(某电商平台)上买显卡的时候发现了它,千万不要觉得惊讶!

总之,根据不同需要,利用DGX GH200将能构建出不同规模的、适应AIGC时代的超级计算机。

据预计,DGX GH200将于明(2024)年第二季度投产。

还发了3个RTX新专业显卡

除了「最强生成式AI处理器」以外,英伟达这次也推出了3款船新的工作站显卡:

RTX 5000、RTX 4500和RTX 4000。

这几款显卡均基于Ada Lovelace架构设计,目前参数已经同步英伟达官网:

当然,专业显卡售价也更贵。

其中RTX 5000售价达到4000美元(约合人民币2.87万元),RTX 4500售价2250美元(约1.6万元),RTX 4000售价1250美元(约8987元)

老黄也在发布RTX显卡时,再次说出那句经典名言:

买得越多,省得越多(the more you buy, the more you save)

至于去年9月发布的RTX 6000 Ada显卡,在这次大会上也推出了一个新的工作站设计:4块叠起来,搞个顶级「叠叠乐」。

这样设计的单个RTX工作站,单个可以提供5828 TFLOPS的AI性能,以及192GB的GPU内存。

除此之外,老黄还在这次大会上宣布了一个搭载L40S Ada GPU的新款OVX服务器,数据中心专用。

每台服务器搭载8块L40S Ada GPU,每块L40S包含高达18176个CUDA核心,可以提供提供近5倍于A100的单精度浮点(FP32)性能。

相比A100,L40S微调(fine-tune)大模型的性能提升了大约1.7倍。

(没错,A100已经被老黄用来给新硬件当对比了)

具体来说,在这个OVX服务器上微调一个860M参数的大模型,现在只需要7小时就可以完成;

400亿参数的GPT-3大模型,更是只需要15个小时就能微调完成。

在渲染上,L40S性能也不错,配备了142个第三代RT核心,可以提供212 teraflops的光线追踪性能。

预计L40S将于今年秋季上市。

AIGC版Colab来了,笔记本跑大模型

不仅是硬件上接连抛出一系列「重磅炸弹」,软件方面英伟达也发布了多款新产品。

首先是和HuggingFace合作,把NVIDIA DGX Cloud AI整合到其中。

在HF的页面中,一键就能让模型在云上调整运行

英伟达科学家范麟熙(Jim Fan)激动地宣布了这一消息,还透露其中使用的每个节点都是8个H100或A100。

除了与HF合作,英伟达还推出了自己的Workbench平台。

通过连接云端服务,用笔记本电脑就能跑大模型

现场还播放了通过Workbench跑SDXL的演示视频。

在Jupyter中,演示者让SDXL画一个「玩具老黄」。

此时的SDXL还不知道「玩具老黄」是个啥玩意儿。

于是演示者现场用8张图对模型进行了微调。

微调后重新绘制的作品,是不是有那味了?

除了上述两款大模型运行工具,英伟达还推出了最新版的企业软件平台NVIDIA AI enterprise 4.0。

软件包的数量达到了4500个,还有数以万计的相关依赖,而且安全可靠。

谷歌、微软、亚马逊、甲骨文等英伟达合作方都会在自己的云平台中集成这项服务。

「人类将成为一门新的编程语言」

除此之外,英伟达的计算机图形与仿真模拟平台Omniverse,也宣布了一系列新进展。

一方面,更多AI工具可以直接在Omniverse里面调用了。

包括对话式AI角色创建工具Convai、高保真AI动捕工具Move AI、AI低成本制作CG工具CGWonder Dynamics在内,一系列流行AI工具,现在都已经通过OpenUSD集成到Omniverse中。

就连Adobe,也计划将Adobe Firefly作为API,提供在Omniverse中(就是估计会收费)

另一方面,英伟达还将生成式AI技术和OpenUSD结合,推出了一些好用的AI工具。

例如ChatUSD,就是一个基于NVIDIA Nemo框架大模型Copilot,不仅可以回答开发者有关USD的问题,还能帮忙生成Python-USD代码。

又例如DeepSearch,也是一个基于大模型的新工具,基于文本或图像输入,可以快速对数据库进行3D语义搜索。

在这次大会上,老黄先是回顾了自己过去所做的「正确决定」——用AI重塑CG,为AI重新发明GPU。

随后,他对未来AI行业的发展做了大胆的展望:

未来,几乎所有事物的前方都会有一个大语言模型。

「人」,将成为一种新的编程语言。

以工厂为例,老黄认为,未来的工厂将会由软件和机器人来「主宰」。

像汽车这样的产品,本身就是机器人,所以生产汽车的工厂,将会呈现出机器人制造机器人的场面。

看来,乘大模型东风迅速崛起的英伟达,这次是真的要ALL IN生成式AI了。

参考链接:
[1]https://www.anandtech.com/show/20001/nvidia-unveils-gh200-grace-hopper-gpu-with-hbm3e-memory
[2]https://twitter.com/DrJimFan/status/1688954935248027648
[3]https://tehcrunch.com/2023/08/08/nvidia-ceo-we-bet-the-farm-on-ai-and-no-one-knew-it
[4]https://www.youtube.com/watch?v=3qSQjRaseos

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「广告营销」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
生成式AI投资反思:幻想最多的可能不是大模型,而是AIGC《思乡情》&《千樱雪》你抢到首批 iPhone15 了吗 / 花西子事件后老牌国货销量暴涨 / 腾讯混元大模型将陆续对公众开放 | 未来周报英伟达AI芯片劲敌来了!AMD推出MI300X,可运行多达800亿参数模型今年,是人形机器人的“iPhone时刻”吗?老字号品牌盈利暴增近590%,吸引19家机构关注!苹果下一个“iPhone时刻”,要看库克的刀法SambaNova的新芯片可运行比OpenAI的ChatGPT高级版大两倍以上的模型百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报小米 AI 大模型首次曝光:64 亿参数;马斯克:敲定意大利「决斗」地点;美国防部成立生成式 AI 工作组 | 极客早知道OpenAI联创Karpathy爱上羊驼:纯C代码实现婴儿Llama2,MacBook可运行,已揽1.6k星百川发布530亿大模型,融入搜索能力:第一时间内测体验已来五十二 保旗棉被黄仁勋和OpenAI接连点名,这家向量数据库公司终迎「iPhone时刻」|年度AI对话今年,是人形机器人的“iPhone时刻”吗? | 【经纬低调研究】引入33个大模型,百度智能云千帆大模型平台的“破茧时刻”AMD放大!苏妈甩出最强AI芯片叫板老黄,可跑800亿参数大模型老黄深夜炸场,AIGC进入iPhone时刻!Hugging Face接入最强超算,神秘显卡胜过A100索赔1元的“大模型数据被盗第一案”和解;首个生成式AI监管文件正式施行;雷军:小爱同学已升级大模型丨AI周报当AI大模型在手机上运行,AI未来已来?大隐隐于市!越南一家人在San Jose开的小店全是越南客人——Phở Cường 2外派故事 (35)萍水相逢在南洋对话OpenAI科学家:iPhone时刻还没有到来AI 的「iPhone时刻 」,英伟达赢麻了,最贵的芯片性价比最高nǚ hóng?nǚ gōng3w+星标项目大佬创业:树莓派即可运行大模型,已获GitHub前CEO投资宝马无线充电会损坏iPhone 15的NFC芯片?开源版 GPT-4 代码解释器,可安装任意 Python 库,本地终端运行苹果发布MR头显 XR的“iPhone时刻”来了?次韵GitHub热榜登顶:开源版GPT-4代码解释器,可安装任意Python库,本地终端运行人脸识别技术应用征求意见发布;微软推出最强生成式AI虚拟机;华为天才少年大模型创业丨AIGC大事日报仿生机器人大咖谈现状:说iPhone时刻有点早,诺基亚时刻刚刚好五十一 治沙苏妈战老黄!官宣AMD大模型专用卡,对标英伟达H100,可跑更大模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。