英特尔火力全开：X86的首次，GPU威胁英伟达？

2022-11-10 01:11

来源：内容由半导体行业观察（ID：icbank）编译自theregister，谢谢。

英特尔抵御高性能计算工作负载的竞争对手的最新计划包括配备大量高带宽内存和新型加速器的 CPU，以及期待已久的数据中心 GPU，它将与 Nvidia 最强大的芯片正面交锋。

经过多次延迟后，这家 x86 巨头于周三正式推出了新的 Xeon CPU 系列，以前称为 Sapphire Rapids HBM 及其新的数据中心 GPU，后者更为人所知的是 Ponte Vecchio。现在您将分别将它们称为英特尔至强 CPU Max 系列和英特尔数据中心 GPU Max 系列，它们是英特尔今天分享的众多细节之一，包括性能比较。

这些芯片将于 2023 年初与普通的第 4代Xeon可扩展 CPU一起上市，这多年来一直是 HPC 社区的好奇心之源，因为它们将为美国能源部拖延已久的 Aurora 超级计算机提供动力，预计成为该国第二台百亿亿级超级计算机，因此成为世界上最快的超级计算机之一。

英特尔超级计算事业部负责人 Jeff McVeigh 在与记者的简报中表示，Max 的名称代表了公司希望为广泛的 HPC 应用程序最大化带宽、计算和其他能力，其主要用户包括政府、研究实验室, 和公司。

McVeigh 确实承认，英特尔在公司将这些芯片商业化所需的时间上还不确定，但他试图将这些错误转为更高的目的。

“我们总是会挑战极限。有时这会导致我们可能无法实现它，但我们这样做是为了帮助我们的开发人员，帮助生态系统帮助解决 [世界上] 最大的挑战，”他说。

如果您想知道是否有任何服务器供应商计划使用这些芯片，答案是肯定的。英特尔表示，Xeon Max 的 30 多种系统设计来自 12 家供应商，包括惠普、戴尔、联想和 Supermicro。这些可能与来自五家供应商的超过 15 种数据中心 CPU Max 系列设计重叠。

第一个带有 HBM 的 x86 CPU

Xeon Max 系列将包含多达 56 个性能内核，这些内核基于与去年首次亮相的英特尔第 12 代酷睿 CPU相同的 Golden Cove 微架构特性。与明年推出的vanilla Sapphire Rapids 芯片一样，这些芯片将支持 DDR5、PCIe 5.0 和 Compute Express Link (CXL) 1.1，这将使内存能够通过 PCIe 5.0 直接连接到 CPU。

Xeon Max 的热设计功率 (TDP) 为 350W，内置 20 个加速器，用于人工智能和 HPC 工作负载。这些加速器类型包括英特尔高级矢量扩展 512 (AVX-512) 和英特尔深度学习加速 (DL Boost)、英特尔数据流加速器 (DSA) 和英特尔高级矩阵扩展 (AMX)。

借助 AVX-512，英特尔声称基于 Xeon Max 的系统可以提供两倍于使用 AMD 高端 Epyc 7763 CPU 的系统的深度学习训练性能，使用 MLPerf DeepCAM 基准测试。但对于 AMX，该公司表示 Xeon Max 系统可以提供 3.6 倍的性能提升。像往常一样，我们应该对任何性能声明持保留态度。

与普通的 Sapphire Rapids 不同，Xeon Max 将配备 64GB 的 HBM2e，这将为 CPU 提供大约 1TB/s 的内存带宽和每个内核超过 1GB 的内存带宽。

这不是 CPU 首次集成 HBM。该荣誉将授予富士通基于 Arm 的 A64FX，它为日本世界上最快的超级计算机之一提供动力。但是 Xeon Max 是世界上第一个带有 HBM 的 x86 CPU，McVeigh 说这将把 HBM 的好处带给更广泛的受众。

使用 64GB 的 HBM2e，带有两个 Xeon Max CPU 的双路服务器总共将打包 128GB。这很重要，因为您可以将 HBM用作系统内存，因此，如果您对这种容量感到满意，就可以忘记放入任何 DRAM 模块。

McVeigh 表示，这种称为 HBM only 模式的配置可以帮助数据中心运营商节省资金和电力，并且软件无需更改任何代码即可识别 HBM。

但对于希望将 DDR 内存用作额外容量或系统内存的数据中心运营商，有一些选择。在 HBM flat 模式下，HBM 和 DDR 充当两个内存区域，但要让软件识别这一点，则需要更改代码。在 HBM 缓存模式下，HBM 充当 DDR 的缓存；这不需要更改代码。

McVeigh 声称，与 AMD专注于 HPC 的 Epyc 7773X（配备 768MB 三级缓存）相比，HBM 帮助 Xeon Max 大幅提高了每瓦性能。英特尔表示，安装 DDR5 内存后，基于 Xeon Max 的系统的功耗比基于 Epyc 的系统低 63%，从而为高性能共轭梯度基准测试提供相同水平的性能。据英特尔称，仅使用 HBM，至强 Max 系统的功耗降低了 67%。

英特尔分享了其他几项性能比较，根据 HPC 工作负载，Xeon Max 系统比基于 Epyc 的系统快 20% 到 4.8 倍。但是，正如我们之前所说，供应商提供的任何竞争性并列都需要经过严格审查。

我们还需要考虑到，AMD 正计划推出代号为Genoa-X的高缓存 Epyc 芯片的继任者，该芯片可能会在明年或 2024 年的某个时候上市。

值得 Nvidia 关注的 GPU？

虽然英特尔的数据中心 GPU Max 系列缺乏像 Xeon 这样的创意品牌，但该公司希望以前称为 Ponte Vecchio 的加速器能够使公司与拥有稳固领先地位的 Nvidia 和正在追赶的 AMD 的数据中心 GPU 相比更具竞争力向上。

这家芯片制造商将 Max 系列 GPU 称为“密度最高的处理器”，因为它如何将超过 1000 亿个晶体管打包到一个由 47 个小芯片组成的系统级封装中，在英特尔术语中称为“tile”。这些tiles使用英特尔的先进封装技术组合在封装上：嵌入式多芯片互连桥 (EMIB) 和 Foveros。

Max 系列 GPU 配备多达 128 个内核，基于英特尔 Xe HPC 微架构，这是该芯片制造商 Xe GPU 架构的一个专注于 HPC 的分支。McVeigh 表示，这使得 GPU 最强大的配置能够提供 52 teraflops 的峰值 FP64 吞吐量，这是 HPC 的一个关键指标。

GPU 还配备多达 128 个光线追踪单元，适用于传统模拟软件以及数字内容创建和预可视化应用程序。每个 GPU 有 16 个 Xe Link 端口，以允许多个 GPU 直接相互通信。

与 Xeon Max 一样，Max 系列 GPU 配备了 HBM2e，但在这种情况下容量高达 128GB。GPU还打包了很多缓存，最大408MB的Rambo L2缓存（Rambo代表“随机存取内存，带宽优化”）和最大64MB的L1缓存。

McVeigh 表示，英特尔设计了 GPU 的内存层次结构，以使尽可能多的数据尽可能接近处理器的计算引擎。

“这一切都是关于：我们如何提供计算，我们如何为非常大的多 teraflop 引擎提供足够的数据和足够的处理，以便它能够真正执行这些应用程序？” 他说。

Max 系列 GPU 将提供几种不同的外形尺寸和配置。

对于标准服务器，有英特尔数据中心 GPU Max 1100，这是一款双宽 PCIe 卡，配备 56 个 Xe 内核和光线追踪单元以及 48GB 的 HBM2e，具有 300W TDP。该卡还带有一个 53G SerDes Intel Xe Link 桥接器，用于连接多达四张卡。

对于遵循开放计算项目服务器设计的数据中心，有两个 OCP 加速器模块。Max Series 1350 GPU 配备 112 个 Xe 内核和 96GB 的 HBM2e，具有 450W TDP。最强大的配置是 Max Series 1550 GPU，它配备了 128 个 Xe 内核和 128GB 的 HBM2e，具有 600W TDP。这两个模块都带有一个 53G SerDes Intel Xe Link 桥接器，最多允许八个 OAM 直接通信。

英特尔还在一个子系统中提供四个 Max 系列 GPU OAM，可支持高达 512GB 的 HBM2e 和 12.8 TBps 的总内存带宽。该子系统的 TDP 是 1,800W 或 2,400W，具体取决于规格，适用于具有大量 GPU 服务器的数据中心。

这家芯片制造商表示，它已经对 HPC 和 AI 工作负载进行了多项测试，结果显示其 Max 系列 GPU 的性能比最初于 2020 年推出的 Nvidia 的 A100 GPU 高 30% 到 2.4 倍，如果你需要提醒的话。不幸的是，英特尔的脚注使得在多种情况下很难辨别 Max 系列 GPU 使用哪种外形尺寸或配置。

这里还需要注意的是，英伟达计划很快发布其 A100 的继任者H100，这家 GPU 制造商表示，这将通过多项措施显着提高性能。Nvidia 已经表示 H100 将能够进行 60 teraflops 的 FP64 计算，至少在纸面上，这将使 H100 在这一方面比 Max 系列 GPU 更快。

McVeigh 说英特尔还没有使用 Nvidia 的 H100。

“当我们拥有这些结果时，我们将渴望分享结果，”他说，并补充说公司希望通过调整代码继续提高性能。

我们还应该记住，AMD 正在努力通过Instinct MI300在数据中心 GPU 领域变得更具竞争力，该产品将于明年推出。

极光超级计算机：如果不是现在，什么时候？

虽然英特尔即将将其新的 Max CPU 和 GPU 商业化，但使用该芯片的美国能源部 Aurora 超级计算机尚未上线。

Aurora 面临多次延误，现在跨越四年。该超级计算机于 2015 年首次宣布，由于芯片制造商将其高端 Xeon Phi 芯片推迟，因此该计算器的计划将其从最初的 2018 年完成时间表推迟到 2021 年。然后，英特尔有据可查的制造问题影响了其新的 Max CPU 和 GPU，促使其再次推迟到 2022 年。

Aurora 真的会在 2022 年投入运营吗？根据 McVeigh 的最新更新，机会看起来并不大，特别是考虑到现在日历上还剩不到 60 天。

McVeigh 表示，Aurora 的运营商阿贡国家实验室将不会提交预计将于下周登陆的全球 500 台最快超级计算机的最新秋季名单的结果，因为该系统仍在整合中。

“我们渴望在 2023 年做到这一点，我们现在的重点是全面安装、全面优化工作以及系统优化，”他说。

★ 点击文末【阅读原文】，可查看本文原文链接！

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3217内容，欢迎关注。