一个拥有1680万核心的芯片怪兽
来源:内容由半导体行业观察(ID:icbank)编译自nextplatform,谢谢。
如果你现在回头看,尤其是随着 GPU 上大规模并行计算的出现,也许 TeraComputing 和后来的 Cray 的技术人员通过他们的“ThreadStorm”大规模线程处理器和高带宽互连有了正确的想法。
鉴于人工智能框架创建的许多神经网络本身就是图形——带有数据的顶点和显示数据之间关系的边,而不是在 Excel 中生成的东西——或者输出相当于图形的东西,也许,在最后,我们需要的是一个非常好的图形处理器。或者,也许有数百万。
喘气!在 Nvidia GPU 及其崇拜者是解决问题的万能药膏的世界里,谁会说出这样的异端邪说?– 我们的现代计算问题?嗯,我们愿意。虽然 GPU 擅长密集矩阵高精度浮点数学,在 HPC 模拟和建模中占主导地位,但支撑 AI 框架的大量数据却稀疏且精度较低。鉴于此,也许有更好的方法来做到这一点。
美国国防部的研发部门——美国国防高级研究计划局正在探索此类前沿问题,并自建立分层识别验证漏洞利用 (HIVE) 项目以来一直在研究创建大规模并行图形处理器和互连时间回到2017年。英特尔被选为制造 HIVE 处理器,麻省理工学院的林肯实验室和亚马逊网络服务被选为基于此类处理器的系统创建和托管万亿边图形数据集以供分析。
在本周的 Hot Chips 2023 上,英特尔展示了为 HIVE 项目创建的处理器,该处理器最初的代号为“Puma”,与支撑该项目的可编程集成统一内存架构 (PIUMA) 相关。2019 年 8 月,英特尔在 DARPA 的 ERI 峰会上对 PIUMA 芯片进行了更新,在 2020 年 9 月的 IEEE 高性能极限计算 2020 活动上,英特尔研究人员 Balasubramanian Seshasayee、Joshua Fryman 和 Ibrahim Hur 做了题为“哈希表可扩展性”的演讲Intel PIUMA,它支持 IEEE 付费专区,但提供了处理器的概述,以及一篇名为PIUMA:可编程集成统一内存架构的论文,它不在付费专区后面。这些对于 PIUMA 系统的架构来说是模糊的。但本周,英特尔首席工程师贾森·霍华德 (Jason Howard) 更新了 PIUMA 处理器和系统,其中包括英特尔与 Ayar Labs 合作创建的光子互连技术,用于将大量处理器连接在一起。
在 IEEE 论文中,PIUMA 研究人员毫不掩饰他们绝对受到 Cray XMT 系列启发的事实。十年前的 XMT 系列最终推出了一个巨大的共享内存线程怪物,非常适合图形分析,它拥有多达 8,192 个处理器,每个处理器有 128 个以 500 MHz 运行的线程,插入 Opteron 8000 使用的 AMD Rev F 插槽系列 X86 CPU 全部与定制的“SeaStar2+”环面互连捆绑在一起,该互连提供 105 万个线程和 512 TB 共享主内存,供图形发挥作用。就 Linux 而言,这看起来就像一个单一的 CPU。
PIUMA 项目再次将旧的东西变成新的,这一次处理器更加普通,但互连更好。想必性价比也是如此,出于对天堂所有神圣事物的热爱,也许英特尔会将这个 PIUMA 系统商业化,并真正改变一切。
占用较小字节的内存
Howard 表示,当英特尔开始设计 PIUMA 芯片时,从事 HIVE 项目的研究人员意识到图形作业不仅是大规模并行,而且是令人尴尬的并行,这意味着可能有一些方法可以利用这种并行性来提高性能的图形分析。当在标准 X86 处理器上运行时,图形数据库的缓存行利用率非常低,在图形数据库运行的 80% 以上的时间里,72 字节缓存行中只有 8 字节或更少被使用。指令流中的大量分支给 CPU 管道带来了压力,而内存子系统也因依赖负载的长链而承受了很大的压力,这对 CPU 上的缓存造成了很大的影响。
PIUMA 芯片嵌入了一些大大小小的想法,有四个管道,每个管道有 16 个线程(称为 MTP),还有两个管道,每个管道有一个线程(称为 STP),可提供其中一个线程性能的 8 倍中期计划内。这些内核基于定制的 RISC 指令集,霍华德没有透露该指令集,他在英特尔或微软的研究同行也没有透露该指令集,后者也参与了 PIUMA 的工作。
“所有管道都使用定制 ISA,它类似于 RISC,并且长度固定,”Howard 在他的 Hot Chips 演示中解释道。“每个管道都有 32 个可用的物理寄存器。我们这样做是为了让您可以轻松地在任何管道之间迁移计算线程。因此,也许我开始在其中一个多线程管道上执行,如果我发现它花费的时间太长,或者可能是最后一个可用的线程,我可以将其快速迁移到我的单线程管道以获得更好的性能。”
STP 和 MTP 单元通过交叉开关连接,并具有组合的 192 KB L1 指令和 L1 数据缓存,并且它们链接到比 L2 缓存更简单的共享 4 MB 暂存器 SRAM 存储器。
每个 PIUMA 芯片都有 8 个活动核心,每个核心都有自己定制的 DDR5 内存控制器,该控制器具有 8 字节访问粒度,而不是像普通 DDR5 内存控制器那样具有 72 字节访问粒度。每个插槽都有 32 GB 的定制 DDR5-4400 内存。
每个核心都有一对路由器,将 2D 网格中的核心相互链接、链接到八个内存控制器以及四个高速高级接口总线 (AIB) 端口。AIB 是英特尔于 2018 年推出的用于互连小芯片的免版税 PHY。Ayar Labs 的芯片有 32 个光学 I/O 端口,每个 AIB 8 个,每个方向可提供 32 GB/秒的带宽。
以下是在 PIUMA 封装上实现 2D 网格的片上路由器的深入分析:
这是一个十端口直通路由器。2D 网格以 1 GHz 运行,需要四个周期来遍历路由器。它有 10 个虚拟通道和四种不同的消息类别,Howard 表示这可以避免网格上的任何死锁,并且为路由器内的每个链路提供 64 GB/秒的速度。
PIUMA 芯片上的路由器和核心封装比您想象的要复杂一些。看一看:
它更像是芯片上有 16 个核心/路由器单元,其中只有 8 个核心被激活,因为芯片上网格需要两倍数量的路由器来馈入 AIB,而 AIB 又馈入 Ayar Labs 芯片光子学。硅光子链路仅用作物理层,它们专门用于扩展多个插槽之间的片上网络。
当我们说多个时,我们指的是一个巨大的数字。像这样:
由 16 个使用硅光子链路的 PIUMA 芯片组成的雪橇可以以全对全配置的 4×4 网格连接在一起。每个 PIUMA 芯片在标称电压和工作负载下消耗约 75 瓦,这意味着它消耗约 1,200 瓦。多于一个 Xeon SP 插槽,但不超过三个。
构建完美的图形处理野兽
PIUMA 芯片具有 1 TB/秒的光学互连能力,除了雪橇上的链路之外,其中一些链路还可用于将多达 131,072 个雪橇连接在一起,形成一个大型共享内存图形处理超级计算机。路由器就是网络,所有设备都通过 HyperX 拓扑进行连接,而不是直接连接到机架内的所有拓扑,机架内有 16 个底座。
让我们来看看这个。具有 16 个插槽的单个雪橇拥有 128 个内核、8,448 个线程和 512 GB 内存。HyperX 网络的第一级拥有 256 个底座、32,768 个核心、270,336 个线程和 1 TB 内存。升级到 HyperX 网络的二级,您可以构建一个包含 16,384 个底座、210 万个核心、1730 万个线程和 64 TB 共享内存的 PIUMA 集群。最后,在 HyperX 网络的第三级,您可以扩展到 131,072 个底座、1680 万个核心、1.384 亿个线程和 512 PB 共享内存。
承认吧。你想看看其中一只野兽能做什么。美国国家安全局和国防部以及世界各地的同行在过去十五年中资助了大量人工智能研究,毫无疑问也对此感兴趣。
当您仔细考虑一下这个量表时,让我们再讨论一些事情。首先,该光网络的延迟:
PIUMA 节点通过单模光纤连接在一起,有趣的是,PIUMA 网络设计所实现的带宽(每方向 16 GB/秒)仅具有理论设计点的带宽。但即便如此,这仍然是一个巨大的带宽野兽,理论上整个 HyperX 网络的单向平分带宽为 16 PB/秒。
PIUMA 芯片采用台积电的 7 纳米 FinFET 工艺实现,其上有 276 亿个晶体管,其中 12 亿个晶体管专用于相对较小的内核。显然,AIB 电路占用了大量晶体管数量。
PIUMA 芯片封装如下所示:
封装和测试板如下所示:
到目前为止,英特尔已经构建了两块板,每块板都配有一个 PIUMA 芯片,并将它们互连起来以运行测试并向 DARPA 证明其有效。
现在的问题是,这样一台机器的大规模成本是多少?嗯,以每个节点 750 美元计算,这根本不算什么,对于一个具有 4,096 个 PIUMA 芯片的 HyperX 一级系统来说,它需要 310 万美元,对于一个具有 262,144 个 HyperX 二级芯片的系统来说接近 2 亿美元,而对于一个具有 262,144 个芯片的 HyperX 二级系统则需要 15.7 亿美元。其中一个拥有 210 万个芯片,可达到 HyperX 三级。
正如生成式人工智能的爆炸式增长所表明的那样,世界上有几十家公司,还有几十家政府机构,甚至不再为一个系统投入 10 亿美元而眨眼。当我写下这个数字然后读它时,我什至没有感到心跳。
这就是我们现在生活的时代。
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3511期内容,欢迎关注。
推荐阅读
★谷歌新一代AI芯片发布,Jeff Dean:AI硬件性能提升更难了
半导体行业观察
『半导体第一垂直媒体』
实时 专业 原创 深度
识别二维码,回复下方关键词,阅读更多
晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装
回复 投稿,看《如何成为“半导体行业观察”的一员 》
回复 搜索,还能轻松找到其他你感兴趣的文章!
微信扫码关注该文公众号作者