下一代服务器设计蓝图浮现!
来源:本文由半导体行业观察(ID:icbank)编译自hpcwire,谢谢。
在最近的开放计算项目峰会上出现了准备改变传统服务器架构的新一代设计,谷歌、Facebook 和微软在峰会上展示了高性能计算机的新蓝图。
在加利福尼亚州圣克拉拉举行的贸易展上展示的硬件表明,云提供商继续降低 CPU 的优先级,同时更多地关注网络、存储和加速器,如 GPU 和 AI 芯片。服务器制造商可以复制和改进 OCP 设计。
本次峰会上的焦点之一是 Meta 设计的名为 Grand Teton 的服务器,该公司正在为数据中心部署该服务器以运行人工智能应用程序。Meta 的工程副总裁 Alexis Bjorlin 在一篇博客文章中表示,Meta 的目标是为其大型数据中心带来更多的 AI 能力,这支撑了其社交媒体平台上的许多功能,同时也为其 metaverse 的未来做好准备。
半导体研究机构 SemiAnalysis 的创始人 Dylan Patel 表示,OCP 包括服务器世界的名人录——Meta、Google 和其他公司——在戴尔、HPE 和联想的标准机架之前,所有很酷的新硬件都在这里出现。
“当我们谈论硬件时,它的功率要高得多,但也很高效。它可能是高功率,因为它用于 Facebook 的 AI,或者它可能是高功率,因为它是一个非常密集的服务器,”Patel 说。
Patel 还指出,许多下一代服务器也展示了代号为 Sapphire Rapids 的 Intel 下一代 Xeon 服务器 CPU 和 AMD 即将推出的 Genoa。
Bjorlin 上个月表示,Meta 计划到2025 年建立拥有超过 4,000 个加速器的大型集群。这些核心将被组织为一个网格,加速器之间的带宽将达到每秒 1 TB。Bjorlin 上个月在 AI 硬件峰会上的一次演讲中详细介绍了这些计划,但没有分享硬件细节。该公司广泛使用 Nvidia GPU。
Meta 的服务器设计基本方法包括去除不必要的组件,并在系统和芯片级别缩小硬件。系统和芯片尺寸的缩小将有助于创建 AI 训练集群,这些集群将消耗更多功率,同时也提供显着更高的每瓦性能。
Bjorlin 在 Grand Teton 的公告中说,深度学习模型正在显著增长到数十万亿个参数,并且“可能需要 zettaflop 的计算来训练”。
“人工智能和机器学习模型正变得越来越强大和复杂,需要更多高性能基础设施来匹配,”Bjorlin 说。
Grand Teton 是 2021 年推出的 Zion-EX 横向扩展系统的继任者。Grand Teton 的速度明显快于其前身,主机到 GPU 带宽提高了四倍,计算能力和吞吐量提高了两倍。
“与包含多个独立子系统的 Zion-EX 相比,Grand Teton 还具有集成底盘,”Bjorlin 说。
微软展示了一个名为 Mt. Shasta 的模块化系统,这是一个可以容纳人工智能和高性能计算加速器的机箱。该模块通过 48 伏电源馈入高性能服务器。该模块可以热插拔并容纳多个加速器。该系统由 Molex 和 Quanta 设计,并与 OCP 的 Open Rack V3 设计兼容,该设计为系统打开了机架级分解。
微软在一篇博文中表示,Mt. Shasta 模块解决了在数据中心实施加速器时面临的常见问题。加速器可以在数据中心的电源、冷却和连接指南内轻松实施,并自动与基于软件的管理接口进行硬件控制。节点级挂钩使模块可热插拔,这在 PCI Gen 3.0 接口中也很困难,该接口较旧,但仍在较旧的服务器上使用。
Insight 64 首席分析师 Nathan Brookwood 表示,加速器的多样化服务器硬件一直是当务之急,但今年围绕 CXL(Compute Express Link)引起了很多兴奋,因为它提供了轻松添加一系列加速器的钩子。
“很明显,那些在云中部署的人——你看到的是谷歌、微软等——他们知道他们需要什么。他们可能会去掉 HPE 和戴尔在通用企业级产品中投入的更多花里胡哨的东西,”Brookwood说。
CXL 是一个关键的构建块,旨在改变服务器的设计、定制和配置方式。CXL 允许更轻松地选择和组装服务器的构建块。该技术提供了计算、内存和存储系统之间的通信链接,并包括跨服务器提供和管理计算的工具。
“CXL 正在迅速被接受,这令人惊讶,因为支持它的通用处理器尚未发布,包括 [Intel 的] Sapphire Rapids 和 [AMD 的] Genoa,”Brookwood 说。
虽然 Facebook 的 Grand Teton 是一个集成服务器,但 Google 专注于未来的“多脑”服务器,它将存储、加速器、内存和基础设施处理单元整合到单独的托盘中。模块化硬件架构基于包括 CXL 和 NVMe 在内的互连以及 OpenBMC 和 RedFish 等分布式系统管理工具。
Brookwood 说,小型服务器制造商同样对 CXL 感到兴奋。
“随着这些产品的推出,我认为小型服务器制造商,尤其是云计算领域的制造商,将会关注这一点,”Brookwood说。
IT 基础设施公司 Wiwynn 是台湾纬创资通集团的子公司,专注于定制服务器设计的构建模块。该公司以前专门从事 OCP 的集成服务器设计,但今年的重点是根据特定要求构建的定制设计。
Wiwynn 的构建模块包括 OCP 认证的冷却、电源、组件、互连、NIC 和安全模块。CXL 互连也在设计中,位于中间以促进存储、内存和处理单元之间的通信。
该设计适用于英特尔和 AMD 的各种 x86 服务器芯片,以及 Ampere 的 CPU 等 Arm 服务器芯片。它还支持英特尔的 Habana Gaudi AI 处理器等加速器。
Wiwynn 销售支持执行董事 Steven Hwang 在 OCP 峰会前的新闻发布会上表示,客户对构建块的关注点发生了变化,因为他们有兴趣构建更接近其数据中心要求的服务器。
具体来说,人们对功率转换组件很感兴趣,Hwang 说,并补充说,“许多数据中心正在走向绿色,能源变得非常非常敏感……所以从直流到交流和交流到直流的功率损耗肯定是人们可以立即从中受益的东西。”
在 OCP,谷歌、微软、Nvidia 和 AMD 还合作创建了一个名为 Caliptra 的规范,允许系统制造商在芯片和系统级别嵌入安全层。该规范在 0.5 版中,侧重于在硅中创建信任根。
微软 Azure 首席技术官 Mark Russinovich 在一篇博客文章中表示:“作为可重用的开源、硅级块,用于集成到片上系统(例如 CPU、GPU 和加速器)中,Caliptra 提供了可信赖且易于验证的证明。”
Caliptra 规范包括一系列用于存储和加密数据的块,并确保只有授权方才能访问安全飞地中的数据。它还确保数据的安全性,因此在本地或云中时不会受到 Spectre 和 Meltdown 等基于硬件的黑客攻击。云提供商对 Caliptra 感兴趣,以改进机密计算产品和保护虚拟机。
★ 点击文末【阅读原文】,可查看本文原文链接!
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3201内容,欢迎关注。
推荐阅读
半导体行业观察
『半导体第一垂直媒体』
实时 专业 原创 深度
识别二维码,回复下方关键词,阅读更多
晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装
回复 投稿,看《如何成为“半导体行业观察”的一员 》
回复 搜索,还能轻松找到其他你感兴趣的文章!
微信扫码关注该文公众号作者