Redian新闻
>
老黄祭出新核弹B200!30倍H100单机可训15个GPT-4模型,AI迎新摩尔时代

老黄祭出新核弹B200!30倍H100单机可训15个GPT-4模型,AI迎新摩尔时代

科技



  新智元报道  

编辑:编辑部
【新智元导读】就在刚刚,老黄又来打破摩尔定律了:英伟达新核弹B200,一块能顶5个H100,30倍推理加速,能训万亿参数大模型!同时推出的AI推理微服务NIM,号称让全世界用上AI。

就在刚刚结束的GTC人工智能大会上,英伟达的新一代性能巨兽Backwell诞生了!

Blackwell B200 GPU,是如今世界上最强大的AI芯片,旨在「普惠万亿参数的AI」。

本来,H100已经使英伟达成为价值数万亿美元的公司,赶超了谷歌和亚马逊,但现在,凭着Blackwell B200和GB200,英伟达的领先优势还要继续领先。

老黄表示——「H100很好,但我们需要更大的GPU」!

新的B200 GPU,从2080亿个晶体管中能提供高达20 petaflops的FP4性能。(H100仅为4 petaflops)

而将两个B200与单个Grace CPU相结合的GB200,则可以为LLM推理工作负载提供30倍的性能,同时大大提高效率。

比起H100,GB200的成本和能耗降低了25倍!

Blackwell芯片和Hopper H100芯片的尺寸比较

这种额外的处理能力,就能让AI公司训练更大、更复杂的模型,甚至可以部署一个27万亿参数的模型。

更大的参数,更多的数据,未来的AI模型,无疑会解锁更多新功能,涌现出更多新的能力。

现在,老黄拿在手里的,或许是100亿美元。

新一代性能巨兽,深夜重磅登场

凭借H100成为全球市值第三大公司的英伟达,今天再次推出了性能野兽——Blackwell B200 GPU和GB200「超级芯片」。
它以著名数学家David Blackwell(1919-2010)命名。他一生中对博弈论、概率论做出了重要的贡献。
老黄表示,「30年来,我们一直在追求加速计算,目标是实现深度学习和AI等变革性突破。生成式AI已然成为我们这个时代的标志性技术,而Blackwell将是推动这场新工业革命的引擎」。
「我们认为这是个完美的博弈概率」。
全新B200 GPU拥有2080亿个晶体管,采用台积电4NP工艺节点,提供高达20 petaflops FP4的算力。
与H100相比,B200的晶体管数量是其(800亿)2倍多。而单个H100最多提供4 petaflops算力,直接实现了5倍性能提升。
而GB200是将2个Blackwell GPU和1个Grace CPU结合在一起,能够为LLM推理工作负载提供30倍性能,同时还可以大大提高效率。
值得一提的是,与H100相比,它的成本和能耗「最多可降低25倍」。
过去,训练一个1.8万亿参数的模型,需要8000个Hopper GPU和15MW的电力。
如今,2000个Blackwell GPU就能完成这项工作,耗电量仅为4MW。
在GPT-3(1750亿参数)大模型基准测试中,GB200的性能是H100的7倍,训练速度是H100的4倍。

GB200由2个GPU、1个CPU、一个主板组成
全新芯片其中一个关键改进是,采用了第二代Transformer引擎。
对每个神经元使用4位(20 petaflops FP4)而不是8位,直接将算力、带宽和模型参数规模提高了一倍。
与此同时,英伟达还推出了第五代NVLink网络技术。
最新的NVLink迭代增强了数万亿参数AI模型的性能,提供了突破性的每GPU双向吞吐量,促进了无缝高速通信。
这也就是第二个关键区别,只有当你连接大量这些GPU时才会出现:新一代NVLink交换机可以让576个GPU相互通信,双向带宽高达1.8TB/秒。
这就要求英伟达打造一个全新的网络交换芯片,其中包含500亿个晶体管和一些自己的板载计算:拥有3.6 teraflops FP8处理能力。
在此之前,由16个GPU组成的集群,有60%的时间用于相互通信,只有40%的时间用于实际计算。

Blackwell GPU增加了对FP4和FP6的支持
另外,Blackwell还配备了RAS引擎。
为了确保可靠性、可用性和可维护性,Blackwell GPU集成了专用引擎和基于AI的预防性维护功能,以最大限度地延长系统正常运行时间并最大限度地降低运营成本。
老黄表示,「过去8年,计算规模扩展已经增加了1000倍」。

网友:新的摩尔定律诞生了!

网友们纷纷惊叹,Blackwell再一次改变了摩尔定律。
英伟达高级科学家Jim Fan表示:Blackwell,城里的新野兽。
- DGX Grace-Blackwell GB200:单机架计算能力超过1 Exaflop。
- 从这个角度来看:老黄交付给OpenAI的第一台DGX是0.17 Petaflops。
- GPT-4-1.8T参数在2000张Blackwell上可在90天内完成训练。
新摩尔定律诞生了。
贾扬清回忆道,「我记得在Meta,当我们在一小时内(2017年)训练ImageNet时,总计算量约为1exaflop。这意味着有了新的DGX,理论上你可以在一秒钟内训练ImageNet」。
还有网友表示,「这简直就是野兽,比H100强太多」。
另有网友戏称,「老黄确认GPT-4是1.8万亿参数」。
所以,GB200的成本是多少呢?英伟达目前并没有公布。
此前据分析师估计,英伟达基于Hopper的H100芯片,每颗的成本在25,000美元到40,000美元之间,整个系统的成本高达200,000美元。
而GB200的成本,只可能更高。

新超算可训万亿参数大模型

当然,有了Blackwell超级芯片,当然还会有Blackwell组成的DGX超算。
这样,公司就会大量购入这些GPU,并将它们封装在更大的设计中。
GB200 NVL72是将36个Grace CPU和72个Blackwell GPU集成到一个液冷机柜中,可实现总计720 petaflops的AI训练性能,或是1,440 petaflops(1.4 exaflops)的推理性能。
它内部共有5000条独立电缆,长度近两英里。
它的背面效果如下图所示。
机柜中的每个机架包含两个GB200芯片,或两个NVLink交换机。一共有18个GB200芯片托盘,9个NVLink交换机托盘有。
老黄现场表示,「一个GB200 NVL72机柜可以训练27万亿参数的模型」。
此前传言称,GPT-4的参数规模达1.8万亿,相当于能训练近15个这样的模型。
与H100相比,对于大模型推理工作负载,GB200超级芯片提供高达30倍的性能提升。
那么,由8个系统组合在一起的就是DGX GB200。
总共有288个Grace CPU、576个Blackwell GPU、240 TB内存和11.5 exaflop FP4计算。
这一系统可以扩展到数万个GB200超级芯片,通过Quantum-X800 InfiniBand(最多144个连接)或Spectrum-X800ethernet(最多64个连接)与800Gbps网络连接在一起。
配备DGX GB200系统的全新DGX SuperPod采用统一的计算架构。
除了第五代NVIDIA NVLink,该架构还包括NVIDIA Bluefield-3 DPU,并将支持Quantum-X800 InfiniBand网络。
这种架构可以为平台中的每个GPU提供高达每秒1,800 GB的带宽。
除此之外,英伟达还发布了统一的超算平台DGX B200,用于AI模型训练、微调和推理。
它包括8个Blackwell GPU和2个第五代Intel Xeon处理器,包含FP4精度功能,提供高达144 petaflops的AI性能、1.4TB的GPU内存和64TB/s的内存带宽。
这使得万亿参数模型的实时推理速度,比上一代产品提高了15倍。
用户还可以使用DGX B200系统构建DGX SuperPOD,创建人工智能卓越中心,为运行多种不同工作的大型开发团队提供动力。
目前,亚马逊、谷歌、微软已经成为最新芯片超算的首批用户。
亚马逊网络服务,将建立一个拥有20,000 GB200芯片的服务器集群。

「不只是一个芯片,更是一个平台」


自从ChatGPT于2022年底掀起AI热潮以来,英伟达的股价已经上涨了五倍之多,总销售额增长了两倍多。
因为英伟达的GPU对于训练和部署大型AI模型至关重要,微软、Meta等大公司都已纷纷豪掷数十亿购买。
如今各大公司和软件制造商还在争先恐后地抢购Hopper H100等芯片呢,GB200就已经出了。
老黄表示,Blackwell不是一个芯片,而是一个平台的名称。
从此,英伟达不再是芯片供应商,而更像是微软、苹果这样的平台提供商,可以让其他公司在平台上构建软件。
英伟达副总裁Manuvir Das表示,GPU是可销售的商业产品,而软件,是为了帮人们用不同的方式使用GPU。
虽然英伟达现在仍然售卖GPU,但真正不同的是,英伟达现在有了商业软件业务。
新软件NIM,代表着英伟达的推理微服务。
NIM使得在英伟达的任何GPU上运行程序都变得更容易,即使是可能更适合部署但不适合构建AI的旧GPU。
也就是说,假如一名开发者有一个有趣的模型,希望向人们推广,就可以把它放到NIM中。英伟达会确保它可以在所有的GPU上运行,这样模型的受众就大大扩展了。
NIM使得部署AI变得更容易,这就更加增加了客户使用英伟达芯片的粘性。
并且,与新AI模型的初始训练相比,NIM的推理需要更少的算力。
这样,想要运行自己AI模型的公司,就能运行自己的AI模型,而不是从OpenAI等公司购买对AI结果的访问权。
需要购买基于英伟达服务器的客户,需要注册Nvidia企业版,每个GPU每年需要花费4,500美元。
英伟达将与微软或Hugging Face等人工智能公司合作,确保他们的人工智能模型经过调整,可以在所有兼容的英伟达芯片上运行。
然后,使用NIM,开发者可以在自己的服务器或基于云的英伟达服务器上,高效运行模型,而无需冗长的配置过程。
Das介绍说,在自己调用OpenAI的代码中,他只替换了一行代码,就指向了NIM。
另外,NIM软件还将帮助AI在配备GPU的笔记本电脑上运行,而不是在云端的服务器上。
NIM支持跨多个领域的AI用例,包括LLMs、视觉语言模型(VLM)以及用于语音、图像、视频、3D、药物发现、医学成像等的模型。
AI API就是未来的软件。在未来,所有LLM都可以从云端获取,从云上下载,运行它的工作站。

终极生成式AI模型

而现在,整个行业都已经为Blackwell准备好了。
2012年,将一只小猫的图片输入,AlexNet识别后输出「cat」,让世界所有人为之震惊,并高呼这改变了一切。
而现在从三个字「cat」输出10 million 像素成为了可能。仅用了10年时间,我们就可以识别文本、图像、视频。
万物都皆可数字化。
网友表示,老黄向我们展示了GenAI的终极游戏:多模态输入——多模态输出。
「这是我们总有一天都会使用的最终模型。它可以获取任何模态并生成任何模态。同时,它还能在没有每个部件的情况下工作」。
数字化的目的是让所有的目标都能成为机器学习的目标,从而让它们都能被AI生成。
比如,数字孪生地球,可以很好地帮助我们了解全球气象气候的变化。
将基因、蛋白质、氨基酸数字化,可以让人类去理解生命的力量。
在大会接近尾声时,活动迎来了一个小高潮:WALL-E机器人也登台表演了。
而生成式AI的未来应用不仅于此。
现在,有了世界最强的处理器Blackwell,新一轮技术革命即将开启。
参考资料:
https://youtu.be/Y2F8yisiS6E?list=TLGGFIbdOwQMZx4xODAzMjAyNA




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
黄仁勋甩出最强AI核弹!GPU新架构性能暴涨30倍,首发人形机器人大模型,联手苹果闯MR芯片战争早已打响!谷歌15个月打造首个TPU,欲和老黄平起平坐一个顶五个H100的B200,老黄这是打破摩尔定律了?不明白播客:大选前夜体验台湾民主的细节负笈不敌温柔乡(1)曼哈顿将建62层新摩天大楼神秘模型gpt2-chatbot实力被赞超越GPT-4:sam亲自确认,或是OpenAI全新模型首席分析师揭秘爆火Groq,每小时要烧168美元!10倍H100拥有成本,老黄笑而不语三个Agent顶个GPT-4,基于开源小模型的那种|中大阿里联合出品小扎砸数百亿美元猛攻开源AGI!狂掷60万块H100,爆50倍GPT-4算力地表最强AI大会上,我看到自己就能训练一个GPT的日子即将到来一名24fall网友反馈:同一申请季递交4个G5+1个G6,0 offer全拒信,问题就出现在这里!微软推出iPhone能跑的ChatGPT级模型,网友:OpenAI得把GPT-3.5淘汰了OpenAI拟将ChatGPT军用?与五角大楼合作军事禁令解除,谷歌前CEO:AI会变成核弹写小说,还是回忆录?英伟达新核弹B200发布,一台服务器顶一个超算,万亿参数大模型30倍推理加速|亮马桥小纪严选ChatGPT 之父最新专访:发现 GPT-4o 惊喜用途,下一代模型可能不是 GPT-5老黄炸场!深夜发布全球最强芯片B200!推理速度提升30倍全球最强大模型一夜易主,GPT-4时代终结!Claude 3提前狙击GPT-5,3秒读懂万字论文理解力接近人类|亮马桥小纪严选童年故事(35):小镇钟表匠小模型时代来了?微软推出其最小参数 AI 模型,性能逼近 GPT-3.5预计容纳 35 万颗 H100!训练 Llama 大模型的基础设施是如何搭建的硅光计算芯片,后摩尔时代人工智能算力基座英文作者会描述一个景物叙事的双重比喻[单车] iGPSPORT VS1200单车前灯入手体验小扎宣布进军AGI!Meta正在训练Llama 3,目标是60万块H100!模型仍会开源近期消息综合(wk2405,北美转机可用上新马泰免签|H1B签证&美国入境提示|中美增班的一些想法)2B小钢炮碾压Mistral-7B,旗舰级端侧模型炸场开年黑马!1080Ti可训,170万tokens成本仅1元英伟达B200打破摩尔定律!老黄顺便公开GPT-4的秘密英伟达新核弹,站在苹果的肩膀上神秘GPT模型引爆社区,GPT-4.5、GPT-5谣言满天飞,奥特曼在线围观新的AI模型,将GPU用量降低100倍老黄亲自上门送超算!OpenAI奥特曼签收后到斯坦福演讲GPT-5手机可跑,3.8B参数量超越GPT-3.5!微软发布Phi-3技术报告:秘密武器是洗干净数据直逼GPT-4开源模型大泄漏,AI社区炸锅!Mistral CEO自曝是旧模型,OpenAI再败一局?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。