晶圆级芯片,潜力无限
👆如果您希望可以时常见面,欢迎标星🌟收藏哦~
来源:内容由半导体行业观察(ID:icbank)编译自nextplatform,谢谢。
我们认为,对于某些类型的计算和内存而言,晶圆级计算是一个有趣甚至不可避免的概念。但不可避免的是,你需要做的工作会超出单个晶圆核心所能提供的范围,然后你就会遇到同样的网络问题。
但也不要太过分。科学和数据分析仍然需要完成,在某些地方,这些由内核和 SRAM 存储器组成的方形圆圈,比如由人工智能初创公司和 HPC 业界知名企业 Cerebras Systems 推出的三代晶圆规模引擎设备,可以推动大型 GPU 加速机器的发展。
正因如此,劳伦斯-利弗莫尔国家实验室利弗莫尔计算中心的首席技术官布罗尼斯-德-苏平斯基(Bronis de Supinski)早在 2023 年 7 月就告诉我们,该实验室正在与人工智能新贵 Cerebras Systems 和 SambaNova Systems 合作,研究它们的架构在美国核武器储备管理和美国海军核动力舰艇舰队管理中的用途。这也是所谓的三实验室(Tri-Labs)的任务之一,三实验室包括劳伦斯-利弗莫尔国家实验室、桑迪亚国家实验室和洛斯阿拉莫斯国家实验室,它们都隶属于美国能源部。
原来,Cerebras 正在与 TriLabs 合作解决六个不同的问题。作为本周 ISC24 庆祝活动的一部分,Cerebras 和 TriLabs 的研究人员发表了一篇论文,介绍了与核储备管理相关的分子动力学应用如何比在橡树岭国家实验室的 "前沿 "超级计算机上运行的同一应用加速了 179 倍。(TriLabs公司的自制分子动力学模拟也在劳伦斯-利弗莫尔的 "石英 "CPU集群上运行。
问题的关键在于,现代大规模并行超级计算机的扩展能力较弱,而单个计算引擎的扩展能力较强。对于像 Frontier 和 Quartz 这样的大规模并行系统来说,这些系统的弱扩展性使得可以模拟的原子及其相互作用的数量达到了巨大的规模。
正如论文所指出的,这些 MD 应用能以飞秒级的时间步长解析原子振动,并能模拟数十亿到数万亿个原子。但如果把所有时间加起来,模拟最多只能显示几微秒的原子相互作用,而对于 TriLabs 和其他公司想要模拟的物理和化学现象,有趣的行为只会发生在 100 微秒或更长的时间尺度上。论文中列举的例子包括核反应堆中辐射损伤的退火、热激活催化反应、接近平衡的相核化以及蛋白质折叠。
晶圆级计算引擎顾名思义是一种扩展能力很强的设备,因此 TriLabs 与 Cerebras 合作,将其嵌入式原子法(EAM)模拟移植到 CS-2 系统中的第二代 WSE-2 处理器上,该模拟运行在大型原子/分子大规模并行模拟器(LAMMPS)工具之上,该工具最初由 Sandia 和坦普尔大学于 1995 年创建。具体的模拟是将辐射射入由钨、铜和钽制成的三种不同晶格。在这些特定的模拟中,每个晶格中都有 801,792 个原子,模拟的目的是用辐射轰击晶格,看看会发生什么。在 "前沿 "和 "石英 "机器上,模拟只能看到纳秒级的模拟,时间不够长,无法看到晶格在辐射轰击下发生了什么。
但是,WSE 每个内核可以模拟一个原子(并且仍有一些内核剩余),并将所有数据存储在本地 SRAM 中进行处理。与 GPU 相比,EAM/LAMMPS 模拟每秒可处理的时间步数对铜来说高出 109 倍,对钨来说高出 96 倍,对钽来说高出 179 倍。
如果你想测试一下自己对色盲的敏感度,这里的图表显示了测试的节点数、每焦耳电力使用的时间步数,以及 WSE-2 相对于 Frontier 和 Quartz 机器的能效系数:
上图的有趣之处在于,使用 GPU 的 Frontier 系统在每秒模拟的时间步数方面落后于 GPU,而基于 CPU 的集群可以比 GPU 扩展得更远,驱动的时间步数也更多,但 WSE-2 仍然胜过 GPU,如上图和上表所示。
看完这些结果,我们再来谈谈硬件。
WSE-2 引擎于 2021 年 4 月发布,采用台湾积体电路制造股份有限公司的 7 纳米工艺蚀刻而成。WSE-2 芯片拥有 2.6 万亿个晶体管和 85 万个内核,40 GB SRAM 内存,SRAM 总带宽为 20 PB/秒。你可能想知道为什么 TriLabs 没有在今年 3 月推出的更新 WSE-3 设备上测试 EAM/LAMMPS 基准。WSE-3缩小到5纳米后,内核数只增加到900,000个,SRAM也只增加到44GB,SRAM带宽只增加到21PB/秒。使用 WSE-3 只能模拟稍大的原子集合,尽管每个内核的性能提高了 2 倍,模拟运行速度也会提高 2 倍,或者每秒模拟的时间步数提高 2 倍。我们推测后者将非常有用--例如,将钽晶格的模拟窗口从 WSE-2 的 40 毫秒提高到 WSE-3 的 80 毫秒。这几乎是人的时间。(自互联网商用以来,我们眨眼的平均时间约为 200 毫秒)。
橡树岭的 "前沿 "超级计算机由配备定制的 64 核 "Trento "Epyc 处理器和四个 "Aldebaran "Instinct MI250X GPU 加速器的节点组成;其中 9408 个节点通过惠普公司的 Slingshot 11 以太网变体连接在一起。但从这个测试中可以看出,增加 GPU 或 CPU 到一定程度后,并不能增加更多的模拟时间步数。一个 Frontier 节点在强扩展的情况下,每个 GPU 可以模拟约 100,000 个原子,而扩展在 32 个 GPU 左右就会停滞。因此,Frontier 中的其他 37856 个 GPU 在本测试中毫无用处。
劳伦斯-利弗莫尔的 Quartz 机器有 3,018 个节点,每个节点都有一对英特尔的 18 核 "Broadwell "至强 E5-2695 v4 处理器和一个 100 Gb/秒的全路径网络。这并不是什么速度恶魔,但也不逊色。TriLabs 的研究人员说,他们可以在每个 CPU 插槽上模拟约 1000 个原子,而在 400 个节点(800 个插槽)时,其规模也会逐渐缩小。
所有这些都给我们带来了下一个问题,也是我们在简报中向 Cerebras 联合创始人兼首席执行官提出的一个问题:如果将多个晶圆级引擎连接在一起,并尝试运行相同的仿真,会发生什么?费尔德曼说,现在还没人知道。
WSE-2 系统中的专有互连可扩展到 192 个设备,而 WSE-3 则将这一数字提升了一个数量级,达到了 2048 个设备。当然,这是相当不错的弱扩展,但我们强烈认为,WSE 的扩展原理与 GPU 和 CPU 相同。你可以做更大的原子聚合,但仍然只能看到几十毫秒的未来。
当然,除非有某种方法可以将 WSE 实体绑在一起。你可以想象一下,一堆方形的 WSE 边缘榫接在一起。你可以把相互连接的正方形 WSE 做成一个炉管,它们在边缘处相互连接,在炉管内侧供电,在炉管外侧制冷。强扩展的有效性将受限于 WSE 边缘的互连以及从管道顶部到管道底部的导线长度。但有一点我们可以肯定:这种配置不会比使用 InfiniBand 或以太网连接 CPU 或 GPU 差。
参考链接
END
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3769期内容,欢迎关注。
推荐阅读
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
微信扫码关注该文公众号作者