老黄手捧ChatGPT专用“核弹”炸场,英伟达H100至尊版速度提10倍!
新智元报道
【新智元导读】GTC大会上,老黄石破天惊地祭出了专为ChatGPT打造的H100 NVLINK,并放出豪言,称英伟达就是行业内的台积电。
英伟达,赢麻了!
刚刚结束的GTC大会上,靠着满屏的「生成式AI」,手握一块支撑ChatGPT算力、提速10倍的H100 NVLINK芯片,老黄就差把这几个字写在脸上——「我是赢家」。
ChatGPT,Microsoft 365, Azure,Stable Diffusion,DALL-E,Midjourney……所有这些时下最红最爆的AI产品,英伟达全都能从中分得一杯羹。
今年初ChatGPT在全球的爆火,让英伟达股价飙升,市值直接增加700多亿美元。目前,英伟达市值为6400亿美元。
而如今,AI的iPhone时刻已经到来,第四次科技革命就要开启,而手握A100和H100的英伟达,或成最大赢家。
在GTC大会上,老黄宣布了英伟达在GPU、加速库、计算光刻、云平台上的亮眼进步,更是放出豪言——英伟达就是要做AI圈的台积电!
现在已经有人猜测,今天的演讲都是在H100上用AIGC模型生成的。
这次大会上最重磅的发布,就是针对ChatGPT打造的NVIDIA H100 NVLINK。
因为算力需求巨大,针对ChatGPT等LLM的推理,英伟达推出了新款Hopper GPU,配备双GPU NVLINK的PCIE H100,具有94B内存。
事实上,深度学习的历史从2012年之后,就一直与英伟达息息相关。
老黄表示,2012年深度学习元老Hinton和学生Alex Kerchevsky、Ilya Suskever在训练AlexNet时,用的正是GeForce GTX 580。
随后,AlexNet一举夺得ImageNet图像分类竞赛冠军,成为了深度学习大爆炸的奇点。
而时隔10年,在OpenAI的Ilya Suskever也是用着英伟达的DGX,训练出了ChatGPT背后的GPT3,及GPT3.5。
老黄自豪地说,目前在云上唯一可以实际处理ChatGPT的GPU,就是HGX A100。
但与A100相比,一台搭载四对H100和双GPU NVLINK的服务器速度还要快上10倍!因为H100可以将LLM的处理成本降低一个数量级。
随着生成式AI掀起一波机遇浪潮,AI正处于转折点,使得推理工作负载呈阶梯函数式增长。
在以前,设计一个云数据中心来处理生成式AI,是巨大的挑战。
一方面,理想情况下最好使用一种加速器,使数据中心具有弹性;但另一方面,没有一个加速器能以最优的方式处理在算法、模型、数据类型和大小方面的多样性。英伟达的One Architecture平台就兼具加速功能和弹性。
而今天,英伟达宣布,推出全新的推理平台。每种配置都对某类工作负载进行了优化。
比如针对AI视频工作负载,英伟达就推出了L4,在视频解码和转码、视频内容审核、视频通话功能上做了优化。
而一台8-GPU L4服务器,将取代一百多台用于处理AI视频的双插槽CPU服务器。
同时,英伟达还针对Omniverse、图形渲染以及文本转图像/视频等生成式AI推出了L40。其性能是英伟达最受欢迎的云推理GPU T4的10倍。
当前,Runway推出的Gen-1,以及Gen-2生成式AI模型拥有的强大能力便是借助了英伟达的GPU。
另外,英伟达还推出了全新的超级芯片Grace-Hopper,适用于推荐系统和向量数据库。
在芯片领域,英伟达联合台积电、ASML和Synopsys,历时4年终于完成了计算光刻技术的一项重大突破——NVIDIA cuLitho计算光刻库。
在到达2nm制程的极限后,光刻就是突破点。
计算光刻模拟了光通过光学元件后与光刻胶相互作用时的行为,通过应用逆物理算法,我们可以预测掩膜板上的图案,以便在晶圆上生成最终图案。
在芯片设计和制造领域中,计算光刻是最大的计算工作负载,每年都要消耗数百亿CPU小时。相比之下,英伟达创造的这个新算法,可以让日益复杂的计算光刻工作流程能够在GPU上并行执行。
总结来说,cuLitho不仅能使计算速度提升40倍,而且功耗也可以降低9倍之多。
举个例子,英伟达的H100需要89块掩膜板。
如果用CPU进行处理的话,每个掩膜板都需要消耗两周的时间。而如果在GPU上运行cuLitho,则只需8个小时即可处理完一个掩膜板。
而台积电也可以用500个DGX H100系统中的4,000个Hopper GPU,完成之前需要多达40,000台基于CPU的服务器才能搞定的工作,并且功率也会从35MW降至5MW。
值得注意的是,cuLitho加速库与Ampere和Volta架构的GPU也是兼容的,不过Hopper是最快的解决方案。
老黄表示,由于光刻技术已经处于物理学的极限,晶圆厂能够提高产量,为2nm及以后的发展做好准备。
这几个月,ChatGPT以摧枯拉朽之势,眼看就要掀起第四次科技革命。「我们正处于AI的iPhone时刻」这个说法,也随之广泛流传开。
在GTC大会上,老黄也是激动地把这句话重复了三遍。
iPhone时刻来临,初创公司如OpenAI在竞相构建颠覆性的产品和商业模式,而谷歌、微软这样的老牌公司,则在寻求着应对之法。
它们的种种举动,都是由生成式AI在全球引发的制定AI战略的紧迫感。
英伟达加速计算始于DGX AI超级计算机,这也是当前大型语言模型实现突破的背后引擎。
GTC上,老黄自豪地表示,是我亲手将全球首款DGX交给了OpenAI。
从那之后,「财富」100强企业中,其中有一半都安装了DGXAI超级计算机。
DGX配有8个H100 GPU模组,同时H100配有Transformer引擎,能够处理ChatGPT这样令人惊叹的模型。
8个H100模组通过NVLINK Switch彼此相连,实现了全面无阻塞通信。8个H100协同工作,就像是一个巨型的GPU。
过去十年,加速和纵向扩展结合使各种应用实现百万倍性能提升。
令人印象最深刻的例子,便是2012年,AlexNet深度学习框架的提出。
当时,Alex Krizhevsky、Ilya Suskever,以及Hinton在GeForce GTX 580上使用了1400万张图完成了训练,可处理262千万亿次浮点运算。
十年后,Transformer面世。
Ilya Suskever训练了GPT-3来预测下一个单词,需要进行的浮点运算比训练AlexNet模型要多一百万倍。
由此,创造出了令全世界震惊的AI——ChatGPT。
用老黄的一句话总结:
这意味着崭新的计算平台已经诞生,AI的「iPhone时刻」已经到来。加速计算和AI技术已经走进现实。
加速库是加速计算的核心。这些加速库连接了各种应用,进而再连接到各行各业,形成了网络中的网络。
经过30年的开发,目前已经有数千款应用被英伟达的库加速,几乎涉及科学和工业的每个领域。
目前,所有的英伟达GPU都兼容CUDA。
现有的300个加速库和400个AI模型覆盖了量子计算、数据处理、机器学习等广泛的领域。
这次GTC大会,英伟达宣布更新了其中的100个。
英伟达Quantum平台由库和系统组成,可供研究人员推进量子编程模型、系统架构和算法。
cuQuantum是用于量子电路仿真的加速库,其中IBM、百度等公司已经将这一加速库集成到他们的仿真框架中。
Open Quantum CUDA是英伟达的混合GPU-Quantum编程模型。
英伟达还宣布推出一个量子控制链路,这是与Quantum Machines合作开发的。它可以将英伟达GPU连接到量子计算机,以极快的速度进行纠错。
还有RAFT新库推出,用于加速索引、数据加载和近邻搜索。
此外,英伟达还宣布了DGX Quantum,用DGX构建,并利用最新开源的CUDA Quantum,这个新平台为从事量子计算的研究人员提供了一个革命性的高性能和低延迟的架构。
英伟达还推出了NVIDIA Triton Management Service软件,可在整个数据中心自动扩展和编排Triton推理实例。适用于像GPT-3大语言模型的多GPU、多节点推理。
用于计算机视觉的CV-CUDA和用于视频处理的VPF是英伟达新的云规模加速库。
老黄宣布CV-CUDA Beta优化了预处理和后处理,实现了更高的云吞吐量,将成本和能耗减少了四分之一。
目前,微软处理视觉搜索、Runway为其生成式AI视频处理过程,全都采用了CV-CUDA和VRF库。
此外,英伟达加速计算还帮助基因组学实现了里程碑式发展。使用英伟达助力的仪器设备,将整个基因组测序的成本降低至100美元,成为另一个里程碑。
英伟达NVIDIA Parabrics加速库可用于云端或仪器设备内的端到端基因组分析,并且适用于各种公有云和基因组学平台。
现在,ChatGPT、Stable Diffusion、DALL-E和Midjourney,已经唤醒了全世界对于生成式AI的认知。
当红炸子鸡ChatGPT仅在推出2个月后,就月活破亿,已经成为史上用户增长最快的应用。
可以说,它就是一台计算机。不仅能生成文本、写诗、改写研究论文、解决数学问题、甚至还能编程。
众多突破性成果造就了今天的生成式AI。
Transformer能够以大规模并行的方式,从数据的关系和依赖性中学习上下文和含义。这使得LLMs能够利用海量数据进行学习,在没有明确训练的情况下执行下游任务。
另外,受物理学启发的扩散模型,能够通过无监督学习来生成图像。
老黄总结道,短短十几年,我们就从识别猫,跨越到了生成在月球行走的太空服猫的过程。
现在完全可以说,生成式AI就是一种新的计算机,一种可以用人类语言进行编程的计算机。
此前,命令计算机解决问题,是独属于程序员的特权,但是如今,人人都可以是程序员了。
和比尔盖茨一样,老黄也下了类似的定义:生成式AI是一种新型计算平台,与PC、互联网、移动设备和云类似。
通过Debuild,我们只要说清楚自己想要什么,就可以直接设计和部署Web应用。
在这样的背景下,专业公司都需要使用自己的专有数据,来构建定制模型。
接着,老黄自豪宣布,行业需要一个类似台积电的代工厂,来构建自定义的大语言模型,而英伟达,就是这个「台积电」!
大会上,英伟达宣布推出NVIDIA AI Foundations云服务,让客户可以定制LLM和生成式AI。
这个云服务包括语言、视觉和生物学模型制作服务。
其中,Nemo用于构建定制的语言文本转文本生成式模型。
而Picasso是视觉语言模型制作,可以用于训练自定义模型,包括图像、视频和3D应用。
只要向Picasso发送文本提示和元数据的API调用,Picasso就会用DGX Cloud上的模型把生成的素材发送回应用。
更厉害的地方是,把这些素材导入NVIDIA Omniverse,就可以构建逼真的元宇宙应用,和数字孪生仿真。
另外,英伟达还在和Shutterstock合作,开发Edify-3D生成式模型。
同时,英伟达和Adobe的合作也继续扩展,把生成式AI融入营销人员和创意人士的日常工作流,并且,尤其注意对于艺术家版权的保护。
第三个领域,就是生物学。
如今,药物研发行业的价值已经达到近2万亿元,研发投入高达2500亿美元。
NVIDIA Clara就是一款医疗健康应用框架,用于影像、仪器、基因组学分析和药物研发。
而最近,生物圈的热门方向是利用生成式AI发现疾病靶因、设计新分子或蛋白类药物等。
与之相应的,BIONEMO可以让用户使用专有数据创建、微调、提供自定义模型,包括AlphaFold、ESMFold、OpenFold等蛋白质预测模型。
最后,老黄总结道,NVIDIA AI Foundations是一个云服务和代工厂,用于构建自定义语言模型和生成式AI。
英伟达这次,还推出了一款云服务。
它敏锐地看到客户需要更简单快捷访问NVIDIA AI的需求,因而推出了NVIDIA DGX Cloud。
DGX Cloud与Microsoft Azure、Google GCP和Oracle OCI都有合作。只要一个浏览器,NVIDIA DGX AI超级计算机,就能即时接入每家公司!
在这款云上,可以运行NVIDIA AI Enterprise加速库套件,直接解决AI端到端的开发和部署。
并且,云上不止提供NVIDIA AI,还有全球最主要的几大云服务商。
而英伟达的第一个NVIDIA DGX Cloud,就是Oracle Cloud Infrastructure(OCI)。
在OCI中,NVIDIA CX-7和BlueField-3两个王炸合体,立马组合出一台强力超算。
据介绍,企业现在可以租用DGX Cloud,月租36999美元起。
最后,当然还是每年GTC大会的保留节目——Omniverse。老黄宣布了关于元宇宙平台Omniverse更新。
现在,Microsoft和NVIDIA,正准备将Omniverse带给数以亿计的Microsoft 365和Azure用户。
此外,还有消息称:老黄为了能让H100合规地出口中国,便照着之前A800的经验特调了一款「H800」,将芯片之间的数据传输率降到了H100的50%左右。
总结来说,老黄在这次的大会已经相当明确,英伟达要做AI领域的台积电,像晶圆厂一样提供代工,在此基础上让行业内其他公司训练算法。
这种商业模式,能成功吗?
微信扫码关注该文公众号作者