Redian新闻
>
一文读懂英伟达的“新GPU”:比H100快5倍?1200W的功耗?液冷?与MI300X比较又如何?

一文读懂英伟达的“新GPU”:比H100快5倍?1200W的功耗?液冷?与MI300X比较又如何?

公众号新闻

“Hopper很棒,但我们需要更强大的GPU”,时隔两年黄仁勋在英伟达AI盛会GTC,重磅发布新一代Blackwell架构GPU

随着生成式AI的兴起,英伟达正用更强大的芯片吸引客户,Blackwell架构被寄予厚望,性能方面实现飞跃。

据媒体周一分析,作为Hopper架构的后继者,Blackwell在性能提升方面表现出色,最高规格的Blackwell芯片浮点运算速度(FLOPS)大约快了5倍,能耗也进一步优化,与AMD MI300X GPU相比显现出强大竞争力,巩固了英伟达在性能和能效方面的技术优势。

性能提升的关键在于Blackwell价格设计,每款GPU实际上由两颗Compute Die集成,通过10TB/秒的NVLink-HBI(高带宽接口)技术连接,使得它们能够作为单个加速器工作。

此外,两颗计算芯片周围配备了8个8层堆叠HBM3e内存,总容量可达 192GB,带宽高达 8TB/秒。与 H100和H200 不同,B100和B200在内存和GPU带宽上保持一致。目前,Blackwell系列包括三个型号:B100、B200 和Grace-Blackwell Superchip(GB200)。

此外,想要发挥最大性能并非易事,需要考虑众多因素。尽管英伟达宣称新芯片算力能够达到 20petaflops,但这一性能指标是基于使用新推出的FP4精度,并采用液冷服务器的情况下测得的。想要发挥Blackwell的最大潜力,转向液态冷却几乎成为必须。若比较与上一代芯片H100的FP8性能,新芯片的速度仅提升约 2.5 倍。


GB200超级芯片性能强悍

英伟达最强大的GPU集成在GB200芯片中,类似于Grace-Hopper芯片,Grace-Blackwell Superchip将现有的72核Grace CPU与Blackwell GPU利用NVLink-C2C连接技术相结合。

不过,与单个H100GPU不同,GB200配备了两个Blackwell加速器——使其计算性能达到40petaflops,并拥有384GB的HBM3e内存。

先前的GH200被标注为 1000W——包括700W的GPU和300W的Arm CPU。因此,可以粗略估算,在全负荷下,GB200——包括两个 GPU,每个1200W,以及相同的 Arm CPU——可能的总功耗大约为 2700W。因此,英伟达直接采用液冷系统也就不足为奇了。

去掉笨重的热散布器,改为安装几个冷却板,英伟达能够将这两个加速器紧凑地安装在一个1U机架系统内,该机架能提供高达80千万亿次浮点运算的计算性能,或者以FP8计算达到40千万亿次浮点运算。

与上一代相比,这种双GB200系统能够提供比其 8U 10.2kW DGX H100 系统更多的计算性能——40 petaflops对比 32petaflops——同时所需空间减少到八分之一。


新一代NVLink连接方案使性能大幅提升

GB200构成了Nvidia NVL72机架级AI系统的核心,GB200 NVL72 则是一款机架级系统,它使用NVLink交换设备将36个GB200拼接成一个系统 。该系统旨在支持大规模的训练和推理任务,可处理高达27万亿个参数的大语言模型。

根据英伟达介绍,在训练领域,该系统性能达到在FP8精度下能达到720petaflops。而在推理工作负载方面,该系统的计算能力可达FP4下的1.44exaFLOPS 。如果这还不够,八个 NVL72 机架可以互联,组成“巨无霸”DGX BG200 Superpod。

每个机架装配了18个节点,共计32个Grace GPU和72 个Blackwell加速器。然后,这些节点通过一系列九个 NVLink 开关进行互连,使得这些节点像单个13.5TB HBM3e 内存的 GPU 节点一样工作。

这基本上是 Nvidia 在之前的 DGX 系统中所采用的同样技术,使得八个GPU像单卡GPU一样运作。不同之处在于,Nvidia 利用专用的 NVLink 设备,实现了对更多 GPU 的支持。新一代NVLink为每个GPU提供1.8TB/s双向带宽,支持多达576个GPU间的无缝高速通信。


散热需求激增,液冷或成必备

尽管英伟达新一代产品并不强制要求使用液冷,但若想充分利用英伟达的旗舰芯片,液态冷却几乎是必选的。

对于 B100、B200 和 GB200,其主要区别在于功率和性能。据英伟达介绍,这些芯片的工作功率范围可在 700W 至 1200W 之间,视具体型号和冷却方式而定。

在不同的功率工作状态下,芯片的性能自然也会有所不同。英伟达指出,采用空气冷却系统的HGX B100 设备可以在每块GPU上实现14petaflops的速度,同时功耗与 H100 相当。这意味着,如果数据中心已能够支持英伟达的DGX H100 系统,那么引入B100节点应不会遇到问题。

而B200则更加引人关注,在采用空气冷却的 HGX 或 DGX 架构中,每块GPU能提供18petaflops的计算能力,同时功耗达到一千瓦。据英伟达称,DGX B200机箱配备8个B200GPU 的总功耗约为14.3kW,这意味着在机架功率和散热方面需要约 60kW 的额外容量。

对于专门为AI集群设计的新数据中心来说,这不是问题;但对于现有设施,挑战可能更大。

在AI数据中心领域,想要发挥Blackwell的最大潜力,转向液态冷却几乎成为必须。在液冷配置下,芯片在满负荷运作时的热输出可以达到1200W,同时实现20petaflops的性能。


与竞品相比,Blackwell仍具优势

虽然英伟达正主导AI基础设施市场,但它并非唯一参与者,重量级对手英特尔和AMD正在推出 Gaudi 和 Instinct 加速器,云服务商正推动自家定制芯片,AI创业公司如Cerebras和Samba Nova也在竞争中占据一席之地。

以AMD去年12月推出的MI300X GPU相比,Blackwell仍具备优势:

MI300X利用先进的封装技术,将八个CDNA 3计算单元垂直堆叠在四个 I/O 芯片上,这些芯片为GPU之间以及与192GBHBM3 内存之间提供高速通信。
在性能方面,MI300X在FP8 浮点计算中提供 30% 的性能优势,在与Nvidia H100为主的高性能计算集中型双精度工作负载中,几乎具有2.5倍的领先优势。将750W的MI300X与700W的B100对比,英伟达的芯片在sparse性能方面快了2.67 倍。
此外,尽管这两款芯片现在都包含了192GB 的高带宽内存,但Blackwell部件的内存速度快了 2.8TB/秒。而内存带宽已被证明是AI性能的关键指标,特别是在推理方面。例如,英伟达H200本质上是H100加强带宽的版本。尽管 FLOPS 相同,英伟达声称H200在如Meta的Llama2 70B模型中的速度是H100的两倍。

虽然英伟达在低精度领域保持明显领先,但可能牺牲了双精度性能,AMD 近年来在此类性能方面表现突出,赢得了多项高端超级计算机奖项。

分析预计,在2024 年对AI新品的需求将远远超过供应,在这种情况下,赢得市场份额并不总是意味着拥有更快的芯片,关键是哪些芯片能够上市发货。尽管Blackwell性能令人兴奋,但在买家拿到它们之前还需要一段时间,B200 和 GB200产能爬坡似乎要等到2025年初。

⭐星标华尔街见闻,好内容不错过
本文不构成个人投资建议,不代表平台观点,市场有风险,投资需谨慎,请独立判断和决策。

觉得好看,请点“在看”

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
一个月30万片H100,英伟达欲找英特尔造芯?只因CoWos产能太低投资英伟达的人已经辞职躺平了!普通人如何投资AI独角兽公司?英伟达新GPU强是真强,贵是真贵GPU的“泼天富贵”,英伟达一家吃不下英伟达获5亿美元天价大单!印数据中心一口气买下16000块H100/GH200GPT-5被5万张H100卡脖子!Altman急筹数十亿美元,欲取代英伟达建起AI芯片帝国上帝的考验韩国人,卡住了英伟达的脖子?消息称英伟达 Blackwell“B100”GPU 将配 192GB HBM3e 显存,B200 配 288GB 显存仅剩1席|别错过现场与MBB导师进行Mock Interview的难得机会,轻松应对令人头疼的案例面试!为AI“降温”:直接对芯片的无水液冷技术大幅降低能耗和成本,正适配英伟达GPU华为、比亚迪、宁德时代等均已布局!全球共振下,人形机器人商业奇点已来!一文读懂全产业链,国产替代和投资机会在哪?天道有常(12)英伟达吞噬世界!新架构超级GPU问世,AI算力一步提升30倍H100/H200、B100、X100 GPU架构演进总结一文读懂多家厂商的大模型训练、推理、部署策略纽大学员春招投递100+岗位,成功斩获知名人工智能计算公司英伟达的软件工程师offer!OpenAI有望在今年夏季推出GPT-5;英伟达推出更强GPU芯片;马斯克宣布正式开源Grok-1|AIGC周观察第三十七期仅是明白,岂是足够的?野心藏不住了!不满CPU统治,英伟达决定彻底重写软件开发栈!黄仁勋:为什么还要用Python?命令行都不需要!GPU开发时代将至今日arXiv最热NLP大模型论文:一文读懂大模型的prompt技术一文读懂我国数据跨境监管新框架英伟达最强通用大模型Nemotron-4登场!15B击败62B,目标单张A100/H100可跑猜猜我在日本的酒店房间发现了什么?有信心如何?没信心又如何?三万员工支撑两万亿市值,英伟达的秘密在哪?总部实探→USCIS发布2024H1B数据!一文看懂2024H1B的一切谷歌Gemini 1.5技术报告:轻松证明奥数题,Flash版比GPT-4 Turbo快5倍英伟达的下一个一万亿在哪里?扎克伯格警告:GPU不再缺货,功耗成为大问题美股基本面 - 2024_01_19 * 午报 * 高盛认为美联储量化紧缩政策对美元的影响有限。欧2024年大宗商品投资指南:如何投资?一文读懂英伟达的思科时刻爆炒英伟达的人,已经财富自由了英伟达的颠覆式创新:芯片行业迎来30年来的新王者
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。