TOP 500超算,都用什么芯片?
来源:内容由半导体行业观察(ID:icbank)编译自servethehome,谢谢。
2018 年至 2023 年新增 Top500 系统数量
多年来,提交者对 Top500 名单的兴趣逐渐减弱,但这份名单有一些有趣的变化。我们已经看到部署的 CPU、加速器甚至互连发生了巨大变化。最重要的统计数据之一是,排名前 25 的系统中有 9 个出现在该列表中,这意味着前 25 名系统中的换手率为 36%,但在列表中接下来的 475 个位置中只有 8%。
Top500新系统趋势
首先,我们强调 500 强中的绝对成交量。当我们在 2018 年开始进行这项分析时,每份新出版物都有超过四分之一的榜单更替。2020 年,业界注意到因疫情导致的系统数量减少。我们现在似乎正处于新的趋势线上,该列表略低于 2020 年以来的平均水平。
2018 年至 2023 年新增 Top500 系统数量
在此列表中,我们有 48 个新系统,高于 6 月份的 44 个。这些是 2022 年列表中新增的 41 个和 39 个新系统。此列表中的另一个显着变化是 Lenovo 提交 Linpack 运行的 Web 托管类型集群较少。
似乎 Top500 榜单正在消亡,也许如今前 25 名、前 50 名或前 100 名会更有意义。部分原因是中国没有提交国内系统,但中国供应商联想正在中国境外提交系统。
Top500新系统CPU架构趋势
在本节中,我们简单地通过查看哪些新系统进入 Top500 以及它们使用的 CPU 来了解 CPU 架构趋势。让我们首先看看供应商的细分情况。
2023 年 11 月 CPU 供应商新 Top500 系统
AMD 在系统数量上再次击败英特尔,但这只是故事的一部分。AMD 拥有更多系统,而英特尔则部署了更多核心。
2023 年 11 月 X86 CPU 内核的新 Top500 系统
当我们讨论每个插槽的 CPU 核心数时,最大的变化是 32 核系统的下降。此列表中的系统通常比以前的列表中具有更多的 CPU。
2023 年 11 月 新的 Top500 系统每插槽 CPU 核心数
我们终于看到了AMD EPYC 9004“Genoa”系列的 96 个核心部件的亮相。我们还看到 56 个核心部件,通常是较新的 Intel Sapphire Rapids Xeon 部件。
在2023年6月的榜单中,最受欢迎的架构是AMD的Zen3或第三代AMD EPYC。在这份榜单中,第四代英特尔至强可扩展蓝宝石Rapids确实表现出色。
2023 年 11 月 CPU 架构新 Top500 系统
问题在于,这些部件现在不再是“Sapphire Rapids HBM”,而是 Xeon Max。仅 Xeon Max 就可以与 AMD 当前一代 Zen 4“Genoa”架构保持同步。
以下是正在使用的实际 SKU:
2023 年 11 月 新的 Top500 系统(按 CPU SKU)
2019 年AMD EPYC 7002 系列罗马CPU 在 2023 年 11 月的榜单中最受欢迎,这有点疯狂 。
加速器还是 NVIDIA?
NVIDIA 在 HPC 加速器市场占据主导地位,因此我们在其标题中专门专门讨论了这一点。在这个列表中,它远没有占主导地位,但也很接近了:
2023 年 11 月 供应商新推出的 Top500 系统加速器
这是一个大问题:AMD 在哪里?在四份榜单中,AMD MI250X加速器在 Top500 中排名第一,并部署了多个较小的系统。现在,AMD缺席了。
可能更有意义的是 NVIDIA A100 的表现相对较好。NVIDIA H100 在今年的许多大交易中售价都超过了建议零售价。H100 速度更快,但 A100 和 H100 之间的 AI 性能差异比 FP64 侧大得多。
2023 年 11 月 新一代 Top500 系统加速器
从一个角度来看,任何拥有 10 个或更多DGX H100 或 HGX H100系统的 AI 安装都可以进入 Top500 列表。
NVIDIA DGX H100
考虑到 NVIDIA 数据中心的收入,感觉 NVIDIA 的客户正在构建的系统根本不关心 Top500。换句话说,部署流行的新型 HPC 加速器的人们并没有屈服于 Top500 来取代联想的 Web 服务器集群。
结构和网络趋势
这是许多常看这件作品的人都会认同的一个。在互连方面,以太网是迄今为止最常见的解决方案。2023 年,InfiniBand 卷土重来。
2023 年 11 月 按互连类型划分的新 Top500 系统
这是 Infiniband 的另一个大列表,特别是在以太网已经包含了许多之前的列表之后。
以下是按代划分的互连详细信息。
2023 年 11 月 新的 Top500 系统(按互连生成)
我们实际上看到了四个 Omni-Path 系统,这超出了我们的预期。
2023 年 11 月新 Top500 系统以太网速度和供应商
联想的填充系统比之前的列表中的要少。有五个仅 CPU 的以太网集群。戴尔的集群使用带有 NVIDIA A100 PCIe GPU 和 100GbE 的PowerEdge R750xa。
最后的话
看到 NVIDIA 巨大的 GPU 销量,并知道这些 AI 系统具有互连功能以支持运行,从而跻身 Top500 之列,这确实凸显了 Top500 面临的挑战。在 SC23 上,大笔资金来自于人工智能解决方案的广告。AMD 甚至没有举行 SC23 预简报,因为他们告诉我们他们正在全力发展人工智能。SC23 上的许多演讲都是关于混合精度计算如何帮助实现科学进步而不是使用双精度。有人可能会说,Top500 的目标是追踪最大的科学计算系统。然而,很难说所有这些未追踪的人工智能系统都没有取得科学进步。我们现在有一个列表,很多大型人工智能系统都没有提交,中国国内部署的系统没有提交,但是网络托管集群正在提交结果。也许这只是 Frontier 和上榜的两款新的百亿亿级系统之间的差距。尽管如此,感觉 Top500 正在衡量的东西目前很少有人认为是有益的。也许随着时间的推移,这种情况会再次改变。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3596期内容,欢迎关注。
推荐阅读
半导体行业观察
『半导体第一垂直媒体』
实时 专业 原创 深度
识别二维码,回复下方关键词,阅读更多
晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装
回复 投稿,看《如何成为“半导体行业观察”的一员 》
回复 搜索,还能轻松找到其他你感兴趣的文章!
微信扫码关注该文公众号作者