Redian新闻
>
英特尔火力全开:X86的首次,GPU威胁英伟达?

英特尔火力全开:X86的首次,GPU威胁英伟达?

公众号新闻

源:内容半导体行业观察(ID:icbank)编译自theregister,谢谢

英特尔抵御高性能计算工作负载的竞争对手的最新计划包括配备大量高带宽内存和新型加速器的 CPU,以及期待已久的数据中心 GPU,它将与 Nvidia 最强大的芯片正面交锋。


经过多次延迟后,这家 x86 巨头于周三正式推出了新的 Xeon CPU 系列,以前称为 Sapphire Rapids HBM 及其新的数据中心 GPU,后者更为人所知的是 Ponte Vecchio。现在您将分别将它们称为英特尔至强 CPU Max 系列和英特尔数据中心 GPU Max 系列,它们是英特尔今天分享的众多细节之一,包括性能比较。


这些芯片将于 2023 年初与普通的第 4代Xeon可扩展 CPU一起上市,这多年来一直是 HPC 社区的好奇心之源,因为它们将为美国能源部拖延已久的 Aurora 超级计算机提供动力,预计成为该国第二台百亿亿级超级计算机,因此成为世界上最快的超级计算机之一。


英特尔超级计算事业部负责人 Jeff McVeigh 在与记者的简报中表示,Max 的名称代表了公司希望为广泛的 HPC 应用程序最大化带宽、计算和其他能力,其主要用户包括政府、研究实验室, 和公司。


McVeigh 确实承认,英特尔在公司将这些芯片商业化所需的时间上还不确定,但他试图将这些错误转为更高的目的。


“我们总是会挑战极限。有时这会导致我们可能无法实现它,但我们这样做是为了帮助我们的开发人员,帮助生态系统帮助解决 [世界上] 最大的挑战,”他说。


如果您想知道是否有任何服务器供应商计划使用这些芯片,答案是肯定的。英特尔表示,Xeon Max 的 30 多种系统设计来自 12 家供应商,包括惠普、戴尔、联想和 Supermicro。这些可能与来自五家供应商的超过 15 种数据中心 CPU Max 系列设计重叠。


第一个带有 HBM 的 x86 CPU


Xeon Max 系列将包含多达 56 个性能内核,这些内核基于与去年首次亮相的英特尔第 12 代酷睿 CPU相同的 Golden Cove 微架构特性。与明年推出的vanilla Sapphire Rapids 芯片一样,这些芯片将支持 DDR5、PCIe 5.0 和 Compute Express Link (CXL) 1.1,这将使内存能够通过 PCIe 5.0 直接连接到 CPU。


Xeon Max 的热设计功率 (TDP) 为 350W,内置 20 个加速器,用于人工智能和 HPC 工作负载。这些加速器类型包括英特尔高级矢量扩展 512 (AVX-512) 和英特尔深度学习加速 (DL Boost)、英特尔数据流加速器 (DSA) 和英特尔高级矩阵扩展 (AMX)。


借助 AVX-512,英特尔声称基于 Xeon Max 的系统可以提供两倍于使用 AMD 高端 Epyc 7763 CPU 的系统的深度学习训练性能,使用 MLPerf DeepCAM 基准测试。但对于 AMX,该公司表示 Xeon Max 系统可以提供 3.6 倍的性能提升。像往常一样,我们应该对任何性能声明持保留态度。


与普通的 Sapphire Rapids 不同,Xeon Max 将配备 64GB 的 HBM2e,这将为 CPU 提供大约 1TB/s 的内存带宽和每个内核超过 1GB 的内存带宽。


这不是 CPU 首次集成 HBM。该荣誉将授予富士通基于 Arm 的 A64FX,它为日本世界上最快的超级计算机之一提供动力。但是 Xeon Max 是世界上第一个带有 HBM 的 x86 CPU,McVeigh 说这将把 HBM 的好处带给更广泛的受众。


使用 64GB 的 HBM2e,带有两个 Xeon Max CPU 的双路服务器总共将打包 128GB。这很重要,因为您可以将 HBM用作系统内存,因此,如果您对这种容量感到满意,就可以忘记放入任何 DRAM 模块。


McVeigh 表示,这种称为 HBM only 模式的配置可以帮助数据中心运营商节省资金和电力,并且软件无需更改任何代码即可识别 HBM。


但对于希望将 DDR 内存用作额外容量或系统内存的数据中心运营商,有一些选择。在 HBM flat 模式下,HBM 和 DDR 充当两个内存区域,但要让软件识别这一点,则需要更改代码。在 HBM 缓存模式下,HBM 充当 DDR 的缓存;这不需要更改代码。


McVeigh 声称,与 AMD专注于 HPC 的 Epyc 7773X(配备 768MB 三级缓存)相比,HBM 帮助 Xeon Max 大幅提高了每瓦性能。英特尔表示,安装 DDR5 内存后,基于 Xeon Max 的系统的功耗比基于 Epyc 的系统低 63%,从而为高性能共轭梯度基准测试提供相同水平的性能。据英特尔称,仅使用 HBM,至强 Max 系统的功耗降低了 67%。


英特尔分享了其他几项性能比较,根据 HPC 工作负载,Xeon Max 系统比基于 Epyc 的系统快 20% 到 4.8 倍。但是,正如我们之前所说,供应商提供的任何竞争性并列都需要经过严格审查。


我们还需要考虑到,AMD 正计划推出代号为Genoa-X的高缓存 Epyc 芯片的继任者,该芯片可能会在明年或 2024 年的某个时候上市。


值得 Nvidia 关注的 GPU?


虽然英特尔的数据中心 GPU Max 系列缺乏像 Xeon 这样的创意品牌,但该公司希望以前称为 Ponte Vecchio 的加速器能够使公司与拥有稳固领先地位的 Nvidia 和正在追赶的 AMD 的数据中心 GPU 相比更具竞争力向上。


这家芯片制造商将 Max 系列 GPU 称为“密度最高的处理器”,因为它如何将超过 1000 亿个晶体管打包到一个由 47 个小芯片组成的系统级封装中,在英特尔术语中称为“tile”。这些tiles使用英特尔的先进封装技术组合在封装上:嵌入式多芯片互连桥 (EMIB) 和 Foveros。


Max 系列 GPU 配备多达 128 个内核,基于英特尔 Xe HPC 微架构,这是该芯片制造商 Xe GPU 架构的一个专注于 HPC 的分支。McVeigh 表示,这使得 GPU 最强大的配置能够提供 52 teraflops 的峰值 FP64 吞吐量,这是 HPC 的一个关键指标。


GPU 还配备多达 128 个光线追踪单元,适用于传统模拟软件以及数字内容创建和预可视化应用程序。每个 GPU 有 16 个 Xe Link 端口,以允许多个 GPU 直接相互通信。


与 Xeon Max 一样,Max 系列 GPU 配备了 HBM2e,但在这种情况下容量高达 128GB。GPU还打包了很多缓存,最大408MB的Rambo L2缓存(Rambo代表“随机存取内存,带宽优化”)和最大64MB的L1缓存。


McVeigh 表示,英特尔设计了 GPU 的内存层次结构,以使尽可能多的数据尽可能接近处理器的计算引擎。


“这一切都是关于:我们如何提供计算,我们如何为非常大的多 teraflop 引擎提供足够的数据和足够的处理,以便它能够真正执行这些应用程序?” 他说。


Max 系列 GPU 将提供几种不同的外形尺寸和配置。


对于标准服务器,有英特尔数据中心 GPU Max 1100,这是一款双宽 PCIe 卡,配备 56 个 Xe 内核和光线追踪单元以及 48GB 的 HBM2e,具有 300W TDP。该卡还带有一个 53G SerDes Intel Xe Link 桥接器,用于连接多达四张卡。


对于遵循开放计算项目服务器设计的数据中心,有两个 OCP 加速器模块。Max Series 1350 GPU 配备 112 个 Xe 内核和 96GB 的 HBM2e,具有 450W TDP。最强大的配置是 Max Series 1550 GPU,它配备了 128 个 Xe 内核和 128GB 的 HBM2e,具有 600W TDP。这两个模块都带有一个 53G SerDes Intel Xe Link 桥接器,最多允许八个 OAM 直接通信。


英特尔还在一个子系统中提供四个 Max 系列 GPU OAM,可支持高达 512GB 的 HBM2e 和 12.8 TBps 的总内存带宽。该子系统的 TDP 是 1,800W 或 2,400W,具体取决于规格,适用于具有大量 GPU 服务器的数据中心。


这家芯片制造商表示,它已经对 HPC 和 AI 工作负载进行了多项测试,结果显示其 Max 系列 GPU 的性能比最初于 2020 年推出的 Nvidia 的 A100 GPU 高 30% 到 2.4 倍,如果你需要提醒的话。不幸的是,英特尔的脚注使得在多种情况下很难辨别 Max 系列 GPU 使用哪种外形尺寸或配置。


这里还需要注意的是,英伟达计划很快发布其 A100 的继任者H100,这家 GPU 制造商表示,这将通过多项措施显着提高性能。Nvidia 已经表示 H100 将能够进行 60 teraflops 的 FP64 计算,至少在纸面上,这将使 H100 在这一方面比 Max 系列 GPU 更快。


McVeigh 说英特尔还没有使用 Nvidia 的 H100。


“当我们拥有这些结果时,我们将渴望分享结果,”他说,并补充说公司希望通过调整代码继续提高性能。


我们还应该记住,AMD 正在努力通过Instinct MI300在数据中心 GPU 领域变得更具竞争力,该产品将于明年推出。


极光超级计算机:如果不是现在,什么时候?


虽然英特尔即将将其新的 Max CPU 和 GPU 商业化,但使用该芯片的美国能源部 Aurora 超级计算机尚未上线。


Aurora 面临多次延误,现在跨越四年。该超级计算机于 2015 年首次宣布,由于芯片制造商将其高端 Xeon Phi 芯片推迟,因此该计算器的计划将其从最初的 2018 年完成时间表推迟到 2021 年。然后,英特尔有据可查的制造问题影响了其新的 Max CPU 和 GPU,促使其再次推迟到 2022 年。


Aurora 真的会在 2022 年投入运营吗?根据 McVeigh 的最新更新,机会看起来并不大,特别是考虑到现在日历上还剩不到 60 天。


McVeigh 表示,Aurora 的运营商阿贡国家实验室将不会提交预计将于下周登陆的全球 500 台最快超级计算机的最新秋季名单的结果,因为该系统仍在整合中。


“我们渴望在 2023 年做到这一点,我们现在的重点是全面安装、全面优化工作以及系统优化,”他说。


★ 点击文末【阅读原文】,可查看本文原文链接!

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第3217内容,欢迎关注。

推荐阅读


Arm“威胁”变更授权模式?发生了什么事?

日本半导体10年规划:2nm在其中!

芯片巨头的新战场


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码,回复下方关键词,阅读更多

晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装

回复 投稿,看《如何成为“半导体行业观察”的一员 》

回复 搜索,还能轻松找到其他你感兴趣的文章!


点击阅读原文,可查看本文
原文链接!


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
金子般的一颗心 - 答谢亮妈蔬法轻松愉快在坎昆纽约溜冰场火力全开全面开放英特尔推出 “按需购买” 计划,充钱可解锁更多CPU功能英伟达 RTX 40 系列笔记本 GPU 的 TGP 和频率曝光,RTX 4090 最高可达 200W畅游法国(16)-奥尔良之围Arm还是x86?分析师预测Arm笔记本电脑2023年将占据13.9%的市场份额德国下萨克森州的沃尔芬比特尔英伟达最新GPU架构,深度解读!GPU出货量现20年来最大跌幅!英伟达游戏显卡价格腰斩,AMD仍在观望国产GPU再进一步!摩尔线程推出全新多功能GPU春晓,构建元计算新引擎X86处理器崛起背后的故事烟火气回来了!辞旧迎新,各地灯火璀璨迎接新年!消费市场“火力全开”英特尔拆分GPU部门,一把手重回技术岗,累计亏损超20亿美金争议摩尔定律,英特尔反驳英伟达“结束论”英特尔 CEO:愿意在自家晶圆厂为 AMD / 英伟达代工英国女王与厕所欧尔班“火力全开”:纯属笑话消息称英伟达将修改 RTX 4070 规格,不再基于 AD104-275 GPUCPU和GPGPU市场现状及趋势7788 元起,微软 Surface Pro 9 发布:可选英特尔 12 代酷睿 /SQ 3 处理器,首次支持 5G马力全开!买一送一、eBest促销第二弹,火力全开,惠战双11!四年时间,30万架战机149艘航母,火力全开的美国工业有多恐怖?英特尔 13 代酷睿 P 系列处理器核显规格不变,GPU 频率提升英伟达 RTX 4090 笔记本 GPU 曝光:桌面 RTX 4080 规格围猎X86 PC处理器曝苹果Mac Pro明春面世:彻底告别英特尔CPU,性能暴涨300%重磅!澳洲人狂欢了!买一送一、0元体验,送爱马仕,送冰箱,火力全开,惠战双11,就来eBest!什么是GPU?GPU和显卡的关系?GPU国产化布局?火力全开!双11大促再度来袭~美国好货继续抢抢抢,今早8点继续放料!睿频将超6GHz!英特尔第13代酷睿发布,发高端显卡硬刚英伟达让机器人的触觉感官更灵敏、稳定、高效,腾讯Robotics X在传感器上火力全开墨尔本、悉尼、布里斯班、奥克兰四强战队会师墨尔本巅峰对决!备战决赛,火力全开!快来为你支持的城市战队打call!中信证券许英博:从英伟达看国产GPU的挑战与前景
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。