Redian新闻
>
一文读懂英伟达的“新GPU”:比H100快5倍?1200W的功耗?液冷?与MI300X比较又如何?

一文读懂英伟达的“新GPU”:比H100快5倍?1200W的功耗?液冷?与MI300X比较又如何?

公众号新闻

“Hopper很棒,但我们需要更强大的GPU”,时隔两年黄仁勋在英伟达AI盛会GTC,重磅发布新一代Blackwell架构GPU

随着生成式AI的兴起,英伟达正用更强大的芯片吸引客户,Blackwell架构被寄予厚望,性能方面实现飞跃。

据媒体周一分析,作为Hopper架构的后继者,Blackwell在性能提升方面表现出色,最高规格的Blackwell芯片浮点运算速度(FLOPS)大约快了5倍,能耗也进一步优化,与AMD MI300X GPU相比显现出强大竞争力,巩固了英伟达在性能和能效方面的技术优势。

性能提升的关键在于Blackwell价格设计,每款GPU实际上由两颗Compute Die集成,通过10TB/秒的NVLink-HBI(高带宽接口)技术连接,使得它们能够作为单个加速器工作。

此外,两颗计算芯片周围配备了8个8层堆叠HBM3e内存,总容量可达 192GB,带宽高达 8TB/秒。与 H100和H200 不同,B100和B200在内存和GPU带宽上保持一致。目前,Blackwell系列包括三个型号:B100、B200 和Grace-Blackwell Superchip(GB200)。

此外,想要发挥最大性能并非易事,需要考虑众多因素。尽管英伟达宣称新芯片算力能够达到 20petaflops,但这一性能指标是基于使用新推出的FP4精度,并采用液冷服务器的情况下测得的。想要发挥Blackwell的最大潜力,转向液态冷却几乎成为必须。若比较与上一代芯片H100的FP8性能,新芯片的速度仅提升约 2.5 倍。


GB200超级芯片性能强悍

英伟达最强大的GPU集成在GB200芯片中,类似于Grace-Hopper芯片,Grace-Blackwell Superchip将现有的72核Grace CPU与Blackwell GPU利用NVLink-C2C连接技术相结合。

不过,与单个H100GPU不同,GB200配备了两个Blackwell加速器——使其计算性能达到40petaflops,并拥有384GB的HBM3e内存。

先前的GH200被标注为 1000W——包括700W的GPU和300W的Arm CPU。因此,可以粗略估算,在全负荷下,GB200——包括两个 GPU,每个1200W,以及相同的 Arm CPU——可能的总功耗大约为 2700W。因此,英伟达直接采用液冷系统也就不足为奇了。

去掉笨重的热散布器,改为安装几个冷却板,英伟达能够将这两个加速器紧凑地安装在一个1U机架系统内,该机架能提供高达80千万亿次浮点运算的计算性能,或者以FP8计算达到40千万亿次浮点运算。

与上一代相比,这种双GB200系统能够提供比其 8U 10.2kW DGX H100 系统更多的计算性能——40 petaflops对比 32petaflops——同时所需空间减少到八分之一。


新一代NVLink连接方案使性能大幅提升

GB200构成了Nvidia NVL72机架级AI系统的核心,GB200 NVL72 则是一款机架级系统,它使用NVLink交换设备将36个GB200拼接成一个系统 。该系统旨在支持大规模的训练和推理任务,可处理高达27万亿个参数的大语言模型。

根据英伟达介绍,在训练领域,该系统性能达到在FP8精度下能达到720petaflops。而在推理工作负载方面,该系统的计算能力可达FP4下的1.44exaFLOPS 。如果这还不够,八个 NVL72 机架可以互联,组成“巨无霸”DGX BG200 Superpod。

每个机架装配了18个节点,共计32个Grace GPU和72 个Blackwell加速器。然后,这些节点通过一系列九个 NVLink 开关进行互连,使得这些节点像单个13.5TB HBM3e 内存的 GPU 节点一样工作。

这基本上是 Nvidia 在之前的 DGX 系统中所采用的同样技术,使得八个GPU像单卡GPU一样运作。不同之处在于,Nvidia 利用专用的 NVLink 设备,实现了对更多 GPU 的支持。新一代NVLink为每个GPU提供1.8TB/s双向带宽,支持多达576个GPU间的无缝高速通信。


散热需求激增,液冷或成必备

尽管英伟达新一代产品并不强制要求使用液冷,但若想充分利用英伟达的旗舰芯片,液态冷却几乎是必选的。

对于 B100、B200 和 GB200,其主要区别在于功率和性能。据英伟达介绍,这些芯片的工作功率范围可在 700W 至 1200W 之间,视具体型号和冷却方式而定。

在不同的功率工作状态下,芯片的性能自然也会有所不同。英伟达指出,采用空气冷却系统的HGX B100 设备可以在每块GPU上实现14petaflops的速度,同时功耗与 H100 相当。这意味着,如果数据中心已能够支持英伟达的DGX H100 系统,那么引入B100节点应不会遇到问题。

而B200则更加引人关注,在采用空气冷却的 HGX 或 DGX 架构中,每块GPU能提供18petaflops的计算能力,同时功耗达到一千瓦。据英伟达称,DGX B200机箱配备8个B200GPU 的总功耗约为14.3kW,这意味着在机架功率和散热方面需要约 60kW 的额外容量。

对于专门为AI集群设计的新数据中心来说,这不是问题;但对于现有设施,挑战可能更大。

在AI数据中心领域,想要发挥Blackwell的最大潜力,转向液态冷却几乎成为必须。在液冷配置下,芯片在满负荷运作时的热输出可以达到1200W,同时实现20petaflops的性能。


与竞品相比,Blackwell仍具优势

虽然英伟达正主导AI基础设施市场,但它并非唯一参与者,重量级对手英特尔和AMD正在推出 Gaudi 和 Instinct 加速器,云服务商正推动自家定制芯片,AI创业公司如Cerebras和Samba Nova也在竞争中占据一席之地。

以AMD去年12月推出的MI300X GPU相比,Blackwell仍具备优势:

MI300X利用先进的封装技术,将八个CDNA 3计算单元垂直堆叠在四个 I/O 芯片上,这些芯片为GPU之间以及与192GBHBM3 内存之间提供高速通信。
在性能方面,MI300X在FP8 浮点计算中提供 30% 的性能优势,在与Nvidia H100为主的高性能计算集中型双精度工作负载中,几乎具有2.5倍的领先优势。将750W的MI300X与700W的B100对比,英伟达的芯片在sparse性能方面快了2.67 倍。
此外,尽管这两款芯片现在都包含了192GB 的高带宽内存,但Blackwell部件的内存速度快了 2.8TB/秒。而内存带宽已被证明是AI性能的关键指标,特别是在推理方面。例如,英伟达H200本质上是H100加强带宽的版本。尽管 FLOPS 相同,英伟达声称H200在如Meta的Llama2 70B模型中的速度是H100的两倍。

虽然英伟达在低精度领域保持明显领先,但可能牺牲了双精度性能,AMD 近年来在此类性能方面表现突出,赢得了多项高端超级计算机奖项。

分析预计,在2024 年对AI新品的需求将远远超过供应,在这种情况下,赢得市场份额并不总是意味着拥有更快的芯片,关键是哪些芯片能够上市发货。尽管Blackwell性能令人兴奋,但在买家拿到它们之前还需要一段时间,B200 和 GB200产能爬坡似乎要等到2025年初。

⭐星标华尔街见闻,好内容不错过
本文不构成个人投资建议,不代表平台观点,市场有风险,投资需谨慎,请独立判断和决策。

觉得好看,请点“在看”

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
英伟达 RTX 4080 SUPER GPU 跑分出炉:OpenCL 测试比非 SUPER 版高 7%有信心如何?没信心又如何?三万员工支撑两万亿市值,英伟达的秘密在哪?总部实探→爆炒英伟达的人,已经财富自由了算力牛股“大变故”!周韡韡被解聘,她是联系英伟达的关键人物英伟达的思科时刻上帝的考验英伟达最强通用大模型Nemotron-4登场!15B击败62B,目标单张A100/H100可跑一个月30万片H100,英伟达欲找英特尔造芯?只因CoWos产能太低Meta第二代自研AI芯投产,摆脱英伟达依赖!为买H100小扎狂砸数百亿美元猜猜我在日本的酒店房间发现了什么?但斌发声:怎样才能赚到现象级的钱?英伟达的调整只是短期现象GPU的“泼天富贵”,英伟达一家吃不下美股基本面 - 2024_01_19 * 午报 * 高盛认为美联储量化紧缩政策对美元的影响有限。欧H100/H200、B100、X100 GPU架构演进总结仅是明白,岂是足够的?消息称英伟达 Blackwell“B100”GPU 将配 192GB HBM3e 显存,B200 配 288GB 显存一文读懂我国数据跨境监管新框架仅剩1席|别错过现场与MBB导师进行Mock Interview的难得机会,轻松应对令人头疼的案例面试!英伟达的下一个一万亿在哪里?雷神猎刃 16 游戏本超能版 BIOS 曝光:功耗解锁至 200W2024年大宗商品投资指南:如何投资?一文读懂三分之一都进了常春藤?藤校录取率是美国贝赛思2.5倍?看看上东区和硅谷娃都在卷的项目英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍投资英伟达的人已经辞职躺平了!普通人如何投资AI独角兽公司?为AI“降温”:直接对芯片的无水液冷技术大幅降低能耗和成本,正适配英伟达GPU天道有常(12)英伟达的颠覆式创新:芯片行业迎来30年来的新王者OpenAI有望在今年夏季推出GPT-5;英伟达推出更强GPU芯片;马斯克宣布正式开源Grok-1|AIGC周观察第三十七期黄仁勋刚刚发布,英伟达最强GPU B200,首次采用Chiplet?今日arXiv最热NLP大模型论文:一文读懂大模型的prompt技术Elon Musk抢购英伟达GPU,也要买AMD芯片韩国人,卡住了英伟达的脖子?GPT-5被5万张H100卡脖子!Altman急筹数十亿美元,欲取代英伟达建起AI芯片帝国英伟达获5亿美元天价大单!印数据中心一口气买下16000块H100/GH200
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。