Redian新闻
>
下一代服务器设计蓝图浮现!

下一代服务器设计蓝图浮现!

公众号新闻

来源:本文由半导体行业观察(ID:icbank)编译自hpcwire,谢谢。

在最近的开放计算项目峰会上出现了准备改变传统服务器架构的新一代设计,谷歌、Facebook 和微软在峰会上展示了高性能计算机的新蓝图。


在加利福尼亚州圣克拉拉举行的贸易展上展示的硬件表明,云提供商继续降低 CPU 的优先级,同时更多地关注网络、存储和加速器,如 GPU 和 AI 芯片。服务器制造商可以复制和改进 OCP 设计。


本次峰会上的焦点之一是 Meta 设计的名为 Grand Teton 的服务器,该公司正在为数据中心部署该服务器以运行人工智能应用程序。Meta 的工程副总裁 Alexis Bjorlin 在一篇博客文章中表示,Meta 的目标是为其大型数据中心带来更多的 AI 能力,这支撑了其社交媒体平台上的许多功能,同时也为其 metaverse 的未来做好准备。


半导体研究机构 SemiAnalysis 的创始人 Dylan Patel 表示,OCP 包括服务器世界的名人录——Meta、Google 和其他公司——在戴尔、HPE 和联想的标准机架之前,所有很酷的新硬件都在这里出现。


“当我们谈论硬件时,它的功率要高得多,但也很高效。它可能是高功率,因为它用于 Facebook 的 AI,或者它可能是高功率,因为它是一个非常密集的服务器,”Patel 说。


Patel 还指出,许多下一代服务器也展示了代号为 Sapphire Rapids 的 Intel 下一代 Xeon 服务器 CPU 和 AMD 即将推出的 Genoa。


Bjorlin 上个月表示,Meta 计划到2025 年建立拥有超过 4,000 个加速器的大型集群。这些核心将被组织为一个网格,加速器之间的带宽将达到每秒 1 TB。Bjorlin 上个月在 AI 硬件峰会上的一次演讲中详细介绍了这些计划,但没有分享硬件细节。该公司广泛使用 Nvidia GPU。


Meta 的服务器设计基本方法包括去除不必要的组件,并在系统和芯片级别缩小硬件。系统和芯片尺寸的缩小将有助于创建 AI 训练集群,这些集群将消耗更多功率,同时也提供显着更高的每瓦性能。


Bjorlin 在 Grand Teton 的公告中说,深度学习模型正在显著增长到数十万亿个参数,并且“可能需要 zettaflop 的计算来训练”。


“人工智能和机器学习模型正变得越来越强大和复杂,需要更多高性能基础设施来匹配,”Bjorlin 说。


Grand Teton 是 2021 年推出的 Zion-EX 横向扩展系统的继任者。Grand Teton 的速度明显快于其前身,主机到 GPU 带宽提高了四倍,计算能力和吞吐量提高了两倍。


“与包含多个独立子系统的 Zion-EX 相比,Grand Teton 还具有集成底盘,”Bjorlin 说。


微软展示了一个名为 Mt. Shasta 的模块化系统,这是一个可以容纳人工智能和高性能计算加速器的机箱。该模块通过 48 伏电源馈入高性能服务器。该模块可以热插拔并容纳多个加速器。该系统由 Molex 和 Quanta 设计,并与 OCP 的 Open Rack V3 设计兼容,该设计为系统打开了机架级分解。


微软在一篇博文中表示,Mt. Shasta 模块解决了在数据中心实施加速器时面临的常见问题。加速器可以在数据中心的电源、冷却和连接指南内轻松实施,并自动与基于软件的管理接口进行硬件控制。节点级挂钩使模块可热插拔,这在 PCI Gen 3.0 接口中也很困难,该接口较旧,但仍在较旧的服务器上使用。


Insight 64 首席分析师 Nathan Brookwood 表示,加速器的多样化服务器硬件一直是当务之急,但今年围绕 CXL(Compute Express Link)引起了很多兴奋,因为它提供了轻松添加一系列加速器的钩子。


“很明显,那些在云中部署的人——你看到的是谷歌、微软等——他们知道他们需要什么。他们可能会去掉 HPE 和戴尔在通用企业级产品中投入的更多花里胡哨的东西,”Brookwood说。


CXL 是一个关键的构建块,旨在改变服务器的设计、定制和配置方式。CXL 允许更轻松地选择和组装服务器的构建块。该技术提供了计算、内存和存储系统之间的通信链接,并包括跨服务器提供和管理计算的工具。


“CXL 正在迅速被接受,这令人惊讶,因为支持它的通用处理器尚未发布,包括 [Intel 的] Sapphire Rapids 和 [AMD 的] Genoa,”Brookwood 说。


虽然 Facebook 的 Grand Teton 是一个集成服务器,但 Google 专注于未来的“多脑”服务器,它将存储、加速器、内存和基础设施处理单元整合到单独的托盘中。模块化硬件架构基于包括 CXL 和 NVMe 在内的互连以及 OpenBMC 和 RedFish 等分布式系统管理工具。


Brookwood 说,小型服务器制造商同样对 CXL 感到兴奋。


“随着这些产品的推出,我认为小型服务器制造商,尤其是云计算领域的制造商,将会关注这一点,”Brookwood说。


IT 基础设施公司 Wiwynn 是台湾纬创资通集团的子公司,专注于定制服务器设计的构建模块。该公司以前专门从事 OCP 的集成服务器设计,但今年的重点是根据特定要求构建的定制设计。


Wiwynn 的构建模块包括 OCP 认证的冷却、电源、组件、互连、NIC 和安全模块。CXL 互连也在设计中,位于中间以促进存储、内存和处理单元之间的通信。


该设计适用于英特尔和 AMD 的各种 x86 服务器芯片,以及 Ampere 的 CPU 等 Arm 服务器芯片。它还支持英特尔的 Habana Gaudi AI 处理器等加速器。


Wiwynn 销售支持执行董事 Steven Hwang 在 OCP 峰会前的新闻发布会上表示,客户对构建块的关注点发生了变化,因为他们有兴趣构建更接近其数据中心要求的服务器。


具体来说,人们对功率转换组件很感兴趣,Hwang 说,并补充说,“许多数据中心正在走向绿色,能源变得非常非常敏感……所以从直流到交流和交流到直流的功率损耗肯定是人们可以立即从中受益的东西。”


在 OCP,谷歌、微软、Nvidia 和 AMD 还合作创建了一个名为 Caliptra 的规范,允许系统制造商在芯片和系统级别嵌入安全层。该规范在 0.5 版中,侧重于在硅中创建信任根。


微软 Azure 首席技术官 Mark Russinovich 在一篇博客文章中表示:“作为可重用的开源、硅级块,用于集成到片上系统(例如 CPU、GPU 和加速器)中,Caliptra 提供了可信赖且易于验证的证明。”


Caliptra 规范包括一系列用于存储和加密数据的块,并确保只有授权方才能访问安全飞地中的数据。它还确保数据的安全性,因此在本地或云中时不会受到 Spectre 和 Meltdown 等基于硬件的黑客攻击。云提供商对 Caliptra 感兴趣,以改进机密计算产品和保护虚拟机。


★ 点击文末【阅读原文】,可查看本文原文链接!

*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第3201内容,欢迎关注。

推荐阅读


夹缝求生的芯片公司

市值暴跌的半导体设备巨头

半导体巨头的钱,从哪里挣的?


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码,回复下方关键词,阅读更多

晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装

回复 投稿,看《如何成为“半导体行业观察”的一员 》

回复 搜索,还能轻松找到其他你感兴趣的文章!


点击阅读原文,可查看本文
原文链接!

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
厕哢佗洛基,试释屎诗事当汽车成为服务器,固态存储要如何创新?[电脑] 联想1L小机机自制RoonServer(基于ubuntu),兼做影音服务器【万歌诗词】卷四、自由诗闲话人生(206)老关庙小学和首义路小学OpenAI新上线GPT太强了,服务器瞬间挤爆,马斯克:你们太沉迷了服务器支持 IPv6 的原因 | Linux 中国如何检查: 是 Xorg 还是 Wayland 显示服务器? | Linux 中国你还不会 Jumpserver 堡垒机(保护服务器)搭建部署?Java 无服务器函数入门 | Linux 中国【实操日记】使用PyQt5设计下载远程服务器日志文件程序re:Invent全球大会全回顾:硬件创新、全面无服务器、云原生数据战略从服务器分析CPU发展趋势(收藏)硬核观察 #762 Facebook 在数百万台服务器上使用 Kpatch 内核实时补丁服务器发展、硬件结构及分类介绍可能是最严重的云存储数据外泄事故之一:微软承认服务器错误配置导致全球客户数据泄露转折浮现!大湾区中产到底有什么机遇,这两个故事给出了答案你还不会 Jumpserver 堡垒机 (保护服务器) 搭建部署?服务器芯片之争,愈演愈烈!四川麻将可以考级了!服务器挤爆…摩尔线程推首款国潮游戏显卡、服务器GPU计算卡!还有中国首个元宇宙平台MTVERSE常用 Shell 分析服务器日志命令,运维快收藏!女副教授的浅浅诗打麻将还能注册运动员?服务器被挤爆!老海归和白卷英雄费控SaaS服务商「喜报销」获数千万级A轮融资,探索下一代企业支出管理新模式发|36氪首发数据中心服务器技术及规格介绍从一个漏洞拿下服务器控制权的全部过程思科投资的芯片公司宣布:RISC-V服务器芯片,要来了!优化 Kubernetes 中的 Java 无服务器函数 | Linux 中国乡村振兴离不开这一代人,也需要下一代人服务器被入侵怎么办?看我操作逃离AWS后,我们将服务器的年开支省下了80%程序员离职后为泄私愤远程锁公司服务器硬盘;前程无忧宣传语嘲讽“996”职场人;Twitter 开源工作停摆| Q资讯费控SaaS服务商「喜报销」获数千万级A轮融资,探索下一代企业支出管理新模式|早起看早期
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。