Redian新闻
>
数据中心解耦架构技术路线(下)

数据中心解耦架构技术路线(下)

公众号新闻
随着网络与硬件技术地快速发展,资源解耦架构因其资源利用率高、硬件拓展性好等诸多优势,成为了未来数据中心的主要发展方向之一,从资源管理的角度出发,目前的方案主要分为三个技术路线,包括“以 CPU 中心”、“以内存为中心”和“资源去中心化”。

第七届未来网络发展大会发布《算网操作系统白皮书》、《光电融合服务定制广域网》、《以网络IO为中心的无服务器数据中心》白皮书,本文选自"以网络IO为中心的无服务器数据中心"。

CPU为中心,参考文章“数据中心解耦架构技术路线(上)”。

以内存为中心

在“以内存为中心”的技术路线下,内存管理功能从传统操作系统中分离出来,并运行在内存侧,以便实现内存的独立拓展和异构计算单元对内存的共享访问,进而实现更高效的数据处理和计算。例如,内存池化后可预处理内存分配和回收,进而提高内存的利用效率和性能;内存共享后可以减少计算核心之间的数据搬移次数,从而加速计算任务的完成;大内存消除了数据的换出换入开销等。在此技术路线上,目前的实现方案有 HP The Machine、天蝎项目和 NetDAM 等。

1、HP The Machine

惠普在2016 年的伦敦发布会上推出了“以内存为中心”的新型计算机原型机——The Machine。如图 2-10 所示,与传统计算机相比,The Machine[12]架构主要有以下几个关键技术,包括系统级芯片(SoC)、统一存储、内存池化共享和全光通信。

首先,The Machine 采用了经过能效和算法优化的 SoC,是 The Machine 的核心组成,旨在支撑高度可扩展、节能且安全的系统,主要由 FAMFabric-attached Memory)芯片、I/O 端口、网络相关组件等构成。其中,FAM 芯片的主要功能是连接传统计算核心与远端内存池,同时减少对数据移动的需求。

此外,该 SoC 还提供安全特性,如硬件强制隔离等。其次,The Machine 中的存储是统一的。具体来说,原来由 RAM 和硬盘/闪存承担的存储任务(RAM 负责临时存储,硬盘/闪存负责长期存储)全部由 NVM 完成。在传统的分层存储架构下,数据需要在两种存储(RAM 与硬盘/闪存)之间来回交换,这既影响性能又增加能耗。

2、天蝎项目

在国内的服务器市场,BAT 三家互联网公司在 2011 年联合成立了天蝎联盟。于 2014 年 月,天蝎联盟正式升级为开放数据中心委员会(ODCC)。如图 2-11 所示,天蝎计划[13]发展至今,已演进至 3.0版本。

天蝎 1.0 确立了集中供电、集中风扇(散热)、集中管理的天蝎整机柜服务器基本形态。机柜模块作为整机柜服务器的“外壳”,中间4U 空间用于部署集中供电模块(Power Supply UnitPSU)、集中管理模块以及网络模块(交换机)。

为了更好的协调组织活动,扩大天蝎整机柜服务器的适用范围,ODCC 发布了天蝎 2.0 规范,主要包括机柜的尺寸、机柜背板和顶部功能、风扇尺寸、服务器节点与机柜系统解耦等。此外,基于中国数据中心行业的基本情况,天蝎 2.0规范还对环境(温湿度)及机房提出了高度、供电和承重等方面的要求。

天蝎 3.0 旨在打破 1U/2U 服务器节点的限制,解除计算和存储资源在小空间里的耦合,在机柜级的大空间里再耦合。CPU、内存、闪存、硬盘等同类资源物理上聚集在一起,形成不同种类的资源池。从外部看,整机柜服务器是一个整体,但其内部的资源是可以分割的,不同类型、数量的资源自由组合为不同配置的“逻辑”服务器,必要时还可以更改配置或打散重组,提高资源利用率,进一步降低能耗。

3、NetDAM

NetDAM主要思想是将内存直接挂载到以太网控制器上,并提供大量的 ALU 和可编程逻辑,旨在提供高效的内存池化、存内计算(In-Memory Computing)以及在网计算(In-Network Computing)的新范式。

从NetDAM的功能构成来看,其通过内存共享以及对存内计算和在网计算的指令级支持,实现主机内和主机间协议的桥接。具体来说,NetDAM 采用以太网 IP/UDP 来传输 NetDAM 数据,主要通过以下四个技术点来保证低时延和大带宽:

1)确定性时延:NetDAM 通过消除 PCIe DMA 和跳过缓存一致性嗅探来固定了数据包处理流水线,从而实现数据包在确定时延内得到回复;

2)可选的可靠性传输:该设计主要出于以下两点考虑,一是具有虚拟化或容器覆盖支持的无损以太网将带来大量开销,二是很多分布式应用可以设计幂等接口,简单地重传并不影响结果;

3)可选的排序:交换操作运行乱序执行,因为每个数据包中都有内存地址字段来隔离操作内存空间,同时每个数据包中也有序列号字段以支持用户在编程逻辑中增加可选的重排序模块;

4)多径传输:为了使数据传输与网络拓扑无关,NetDAM UDP 数据包内加入段路由头,因此源节点可以选择专用路径,避免交换机缓冲区溢出,充分利用网络带宽。

NetDAM 实现的存算资源互联系统,CPUDSA存储等资源可以通过AXICHIPCIe/CXL等总线直连到NetDAM,不同 NetDAM 之间通过以太网互联,NetDAM 上的内存资源形成共享池。

资源去中心化

在“以 CPU 为中心”的技术路线下,所有存算资源的管理和使用逻辑都运行在 CPU 上,并通过访问远端资源的方式使用解耦的其他存算资源。此技术路线不仅使 CPU 成为故障中心,还会因远端资源管理引入大量的带宽和时延开销,特别在大规模部署的资源解耦数据中心中这一问题尤为显著。

“以内存为中心”的技术路线是将传统OS 中的内存管理功能迁移至内存侧,使得内存资源可按需独立拓展,同时实现不同类型的计算核心对内存资源的共享使用。该技术路线虽然减少了内存管理的开销,但除内存外的其他资源(如外存等)还由CPU 来进行管理和调度,仍存在“以 CPU 为中心”技术路线的局限性。

总的来说,以上两种技术路线,本质上仍是都是以某种资源为中心的管理逻辑,此逻辑使得其他资源仍受制于某类资源,进而无法充分发挥解耦资源的使用效率,并在可拓展性和弹性方面仍存在不足,因此,“资源去中心化”的理念被提出,数据中心中的计算、存储和网络等资源都被视为独立的服务,不同资源的拓展和使用均不存在依赖关系。

在“资源去中心化”的技术路线下,传统 OS 被彻底解耦,使不同资源的管理功能位于相应的资源侧,彼此之间通过消息传递的方式进行通信和协作,真正实现所有资源的高可按需拓展和高弹性使用。

具体来说,“资源去中心化”包含拆分内核功能、将管理模块运行在相应资源的控制器上、用网络消息代替一致性。

目前来说,“资源去中心化”的具体实现仍处于探究完善阶段,如 LegoOS,但它的设计理念对资源解耦数据中心的资源管理与使用逻辑设计有着重要的启示和参考价值,可充分发挥资源解耦架构下资源的可拓展性和使用弹性。

下载链接:

《未来网络白皮书(2023)合集》

1、未来网络白皮书(2023):算网操作系统白皮书 

2、未来网络白皮书(2023):以网络IO为中心的无服务器数据中心白皮书 

3、未来网络白皮书(2023):光电融合服务定制广域网白皮书

数据驱动企业数字化经营报告
创新技术推动算力网络纵深发展
企业桌面虚拟化系统的设计与实现
企业终端运维的现状与未来
浅谈超融合基础架构
浅谈服务器虚拟化核心技术
千兆光接入网技术进展
高通量数据网架构与关键技术白皮书
中国企业SaaS行业研究报告(2022)
金融级分布式数据库白皮书
基础网络技术:千兆光宽带技术发展探讨(2023)
构筑边缘智能推动算力网络新发展(2023)
2023-2025年全球DICT技术趋势研判
车载转播车无线传输技术报告(2023)
《行业深度研究报告》

掌控混合多云环境白皮书

《全栈云技术探索实践合集》

2023年美国SaaS市场研究报

申明:感谢原创作者的辛勤付出。本号转载的文章均会在文中注明,若遇到版权问题请联系我们处理。

推荐阅读

更多架构相关技术知识总结请参考“架构师全店铺技术资料打包”相关电子书(41本技术资料打包汇总详情可通过“阅读原文”获取)。


1、全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”一起发送服务器基础知识全解(终极版)存储系统基础知识全解 pdf及ppt版本,后续可享全店内容更新“免费”赠阅,价格仅收249元(原总价439元)。

2、随着电子书数量增加及内容更新,价格会随之增加,所以现在下单最划算,购买后续可享全店内容更新“免费”赠阅。

温馨提示:

扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)电子书资料详情


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
亚马逊 280 亿投 OpenAI 最大对手;华为发布 2 万元智能金表等新品;传微软计划建造「核动力」数据中心 | 极客早知道“机场停车场禁止特斯拉入内”引热议,特斯拉回应:已在中国建立数据中心![照片] 陕甘宁7天小环线(下)数据中心解耦架构技术路线(上)芯片产业未来十年技术路径图特斯拉:已在中国建立数据中心,所有中国大陆市场车辆数据存储在境内福特重启与宁德时代建造电动汽车电池工厂计划;全球首个商用海底数据中心数据舱成功下水;卫星互联网技术试验卫星成功发射丨智能制造日报“捅破天”技术路线将走向统一?高通与铱星终止手机直连卫星项目合作文勇刚:大模型时代,我们需要怎样的数据中心?丨GAIR 2023AI芯片为数据中心节省大量资金航天运载器机构技术发展及展望小鹏「导入」双目立体感知?高阶智驾降本倒逼技术路线变革英伟达说未来4年数据中心升级开支1万亿美元,问题是:谁来买单?“不领先,就不扩产”的隆基,不会赌一种技术路线|甲子光年数据中心芯片,新王崛起Covid 2023谷歌投资6亿美元在德州建设新数据中心腾讯网易抢先适配Mate系列新机,华为游戏中心解锁飞驰游戏体验老乡似候鸟,余生为谁忙西交、清华等发布多模态大模型,有望成为「DALL·E 4」技术路线?和AI一起「白日作梦」第4次辟谷 • 累计27天(下)| 生命再次重启:年轻了25岁,附检测数据。Go 零基础学习路线(2023年)谷歌计划投资 6 亿美元在达拉斯沃斯堡Red Oak市建立新数据中心生成式 AI 与大语言模型时代的 NVIDIA GPU 生态 | NVIDIA 解决方案与架构技术总监张瑞华演讲预告波士顿大学,坐落都市中心(下)| 心理学/社会工作/社会工作与其他专业双学位项目介绍富国强兵和改革开放打造不怕生病的身體本錢自卫的段位英特尔示警数据中心芯片库存严重,传出腾讯、阿里出手救援突发,高通与铱星终止手机直连卫星项目合作,“捅破天”技术路线将走向统一?狱中心灵慰藉——泰勒•斯威夫特的音乐(下) | 纽约客(中秋节快乐)以网络IO为中心,无服务器数据中心(2023)刘强东夫妇“移民美国”?京东回应;恒大汽车获中东资本5亿美元战投;特斯拉已在中国建立数据中心;雷军曝光小米大模型进展丨邦早报Chiplet设计、性能240%提升,英特尔下一代数据中心CPU设计来了现代数据中心发明人Luiz André Barroso去世,享年59岁,Jeff Dean、劈柴发推悼念
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。