Redian新闻
>
标准化:Chiplet与UCIe技术

标准化:Chiplet与UCIe技术

公众号新闻

本文来自“2023新型算力中心调研报告(2023)”。更多内容参考“《海光CPU+DCU技术研究报告合集(上)》 ”,“《海光CPU+DCU技术研究报告合集(下)》 ”和“龙芯CPU技术研究报告合集”。

Chiplet 的优势已经获得了充分的验证,接下来的问题就是通用化、标准化。通过标准化,来自不同供应商的芯片可以更容易地实现封装内的互联,在这个前提下,部分 IP 可以固化为芯片,而不再需要分别集成到不同客户的芯片中,也不需要适配太多版本的生产工艺。
在此愿景之下,2022 年 3 月,通用处理器市场的核心玩家 Intel、AMD、Arm 等联合发布了新的互联标准 UCIe(Universal Chiplet Interconnect Express,通用小芯片互连通道,希望解决 Chiplet 的行业标准问题。
由于标准的主导者与 PCIe 和 CXL(Compute Express Link已有千丝万缕的关系,因此,UCIe 非常强调与 PCIe/CXL 的协同,在协议层本地端提供 PCIe 和 CXL 协议映射。
与 CXL 的协同,说明 UCIe 的目标不仅仅是解决芯片制造中的互联互通问题,而是希望芯片与设备、设备与设备之间的交互是无缝的。在 UCIe1.0 标准中,即展现了两种层面的应用:Chiplet(In package和Rackspace(Off package

△ UCIe 规划的机架连接交给了 CXL

UCIe支持不同的数据传输速率,位宽,凸点间隔,还有通道,来保证最广泛的可行的互用性,详细描述如表1所示。它定义了一个边带接口使设计和验证变得容易。UCIe 互联的单簇的组成单元是包含了N条单端,单向,全双工的数据线(标准封装选项中N=16,高级封装选项中N=64),一条单端的数据线用作有效信号,一条线用于追踪,每个方向都有一个差分的发送时钟,还有每个方向的两条线用于边带信号(单端,一条是800MHz的时钟,一条是数据线)。高级封装选项中支持把空闲的线束作为错误处理线束(包括时钟,有效信号,边带信号等等),标准封装选项中支持位宽退化来处理错误。多簇的UCIe 互联可以组合起来在每条连接链路上提供更优的性能,如图所示。



表:UCIe的特征和关键性能指标


过去十年间,CPU 的核心数量从 8~12 个的水平,增长到了 60 乃至 96 核,Arm 已有 192 核的产品,而每插槽 CPU 的内存通道数仅从 4 通道增加到 8 或 12 通道。每通道的内存在此期间也经过了三次大的迭代,带宽大概增加 1.5~2 倍,存储密度大约为 4 倍。从发展趋势来看,每个 CPU 核心所能分配到的内存通道数量在明显下降,每核心可以分配的内存容量和内存带宽其实也有所下降。这是内存墙的一种表现形式,导致 CPU 核心因为不能充分得到数据来处于满负荷的运行状态,会导致整体计算效率下降。

为什么增加内存通道如此缓慢?因为增加内存通道不仅仅需要增加芯片面积,还需要扩展对外接口,在电气连接方式没有根本性改变的情况下,触点数量的大量增加会导致 CPU 封装面积剧增。10 年前的英特尔至强(Intel Xeon处理器的 LGA2011 封装尺寸为 52.5mm×45.0mm(毫米,当前 Xeon 所用 LGA 4677 封装尺寸为 77.5mm×56.5mm,触点数量增加了 1.33 倍,封装面积增加了 1.85 倍。
而 AMD 第四代 EPYC 启用的新封装 SP5 更大,有 6096 个触点,封装面积达到 75.4mm×72mm,跟一张扑克牌差不多大了,毕竟它的内存通道数量达到了 12 个。为了与 AMD 和 Arm 继续“核战”,英特尔代号 Granite Rapids 和 Sierra Forest 的下一代 Xeon 将启用 LGA 7529 插槽,尺寸 105mm×70.5mm。作为参考,iPhone 4的正面尺寸是 115.2mm×58.6mm,iPhone 8 则为 138.4mm×67.3mm。
同时,主板上内存相关的走线数量和距离也需要相应增加,保证信号质量的难度加大。CPU 插槽面积增加、内存槽数量增加,还受到主板面积的限制。按照英特尔和 AMD 的通用处理器的这个发展趋势, 双路服务器的主板布局将会愈加困难,其市场份额可能会逐步下降。
通过 CXL 扩展内存,可以将 CPU 与内存从沿革多年的紧耦合关系变为松耦合,利用 PCIe/CXL 通道的物理带宽增加内存总带宽,而不仅仅限于内存控制器自身的通道总数(即使前者的带宽相对较低,但也是增量,利用机箱的立体空间容纳更大容量的内存,而不再受主板面积的约束。
△ CXL 内存
考虑到人工智能,尤其是机器学习领域的发展,模型容量在过去 5 年间大致增加了 50 倍,内存容量的扩展方式确实值得突破一下。不过这也不是一蹴而就的,毕竟第四代英特尔至强可扩展处理器每插槽 CPU 只支持 4 个 CXL 设备,给计算卡之类的一分就没了。所以也就不用纠结它暂时没有宣布支持 CXL Type 3 Device(Memory Buffer
在第四代可扩展至强处理器平台上,如果支持 CXL 1.1 的加速卡、计算卡 、智能网卡能够提供比 PCIe 5.0 更好的性能,稍微拉近跟 SMX 接口(NVLink的性能落差,那就非常开心了。而 AMD 则反过来,处理器大核确实多,而且不论单路还是双路处理器,内存槽上限都是 24 条,如果不优先另辟蹊径扩展内存容量,每个核心能够分配到的内存资源其实反而会落了下风,补短板看起来更迫切。但是,AMD 同样也会面临内存扩展与计算卡抢PCIe 通道数量的问题。
总之,不论这两家通用处理器具体各怀啥心思,CXL 的第一轮普及工作就是不尽如人意,顾此失彼。甚至现在还不到纠结内存扩展的时候,即使 CXL 内存模组已然是各种技术论坛中样品最接近现实的 CXL 设备。在这个阶段,解决 CXL 设备的有无问题,借机逐步导入 EDSFF,初步形成生态环境,就算是成功。至于内存的大事情,且得看下一代平台以及更新版本的 CXL。
△ CXL 的本地内存扩展
到了 CXL 2.0,通过 CXL Switch,内存扩展将可以跨 CPU 实现。这个阶段将构建机柜级的资源池化。这其中的好处多多,此处主要集中在云服务的需求角度去看。
微软曾调研了 Azure 公有云数据中心的内存使用情况,其结论是:有约 50% 的服务器的实际内存利用率不到一半。这是由于内存的分配是与 CPU 核心绑定的,当客户按照预设的实例配置租用资源时,每个核心便搭配了固定容量的内存,譬如 2GB。当主机的 CPU 核心数量被分配完毕后,未被搭配的内存便被闲置了。考虑到预先配置的内存容量相对核心数量必然是超配的,譬如 56 核的至强,搭配 128GB 内存,每个实例配 2GB 内存的话,那注定有 128-2×56=16 GB 内存将会被闲置。如果服务器核心未被充分利用,被闲置的内存将会更多。而运行中的实例,其实际内存占用率通常也不高。由此,无从分配的、未被分配的、分配但未充分使用的,这三种性质的浪费叠加之后,主机的实际内存浪费相当惊人。
由此,微软提出通过内存池来解决这个问题。各主机搭配容量较少的内存,其余内存放入内存资源池。当 CPU 本地内存不足时,再到内存池调用。这虽然增加了一些访问延迟,但会降低内存的总成本。如果减少 10% 的内存搭配数量,对于大型数据中心而言也是数以亿计的资金节约。微软预计通过 CXL 和内存池化,可以为云数据中心减少 4~5% 的成本。
除了节约总内存投入,内存池化还可以带来内存持久化、内存故障热迁移等等新的功能特性以供业界进一步挖掘,此处暂不展开。
CXL 的完整愿景,需要到 CXL 3.0 规范才能实现。
首先是带宽,CXL 3.0 基于 PCIe 6.0,更换了 PCIe 沿革多年的 NRZ 调制方案,变为 PAM-4 脉冲幅度调制编码,在电气特性变化不大的情况下,链路带宽翻倍,从 32GT/s 提升到了 64GT/s。
其次,CXL3.0 增加了对二层交换机的支持,也就是叶脊(Leaf-Spine网络架构,资源池化也不再局限于内存,而是可以实现 CPU 资源池、加速器资源池、网卡资源池等。
△ CXL 3.0 将改变资源的组织方式

CXL 2.0 实现的是机柜内的池化,CXL 3.0 除了可以在一个机柜内实现计算资源和存储资源的解耦和池化,还可以在多个机柜之间建立更大的资源池。跨主机、跨机柜调度规模巨大的计算资源,已经是超算的范畴了。然后,CXL 3.0 网络可以支持 4096 个 CXL 节点!单纯从数量上看,这远远超过了 NVLink 网络 256 个节点的规模(见下一章。这将是 CXL 对私有但标榜高性能的 NVLink 最有力的挑战。当然,CXL 3.0 依旧暂时还未落地,而 NVIDIA 新一代的系统已经正式发布了。二者在机柜互联方面的带宽远超 400G InfiniBand(IB)或者以太网,实际运行效率都是非常值得期待的。

为了使得计算组合设备能够持续得到创新,一个开放的芯粒生态系统成为了一项巨大的需求。UCIe 1.0兼顾了极佳的能源效率和性价比。它是一个开放的标准,拥有一个即插即用的模型,同时它参考了几个成功的标准,由工业界领先团队提出,确保它能在未来得到广泛的使用。我们可以预见未来的创新将在芯粒层面上产生,不同芯粒组合的可适配性将满足客户的不同应用需求。

在未来,我们期望联盟产生更多的高能效和性价比的解决方案,因为凸点间隔的宽度会持续缩小,3D封装会变成主流。从延迟,带宽和能源效率的角度来看这些将要求宽的链路运行地更慢,并且裸片的连接将会更加紧密。先进的封装和半导体制造技术将会在未来的10年在计算界掀起新的革命。UCIe已经蓄势待发,准备开启生态系统的创新来利用这些技术。当这些先进技术出现时,UCIe能跟上它们的脚步。

更多存储技术参考服务器基础知识全解(终极版)姊妹篇存储系统基础知识全解,包含存储介质技术、存储系统及形态介绍、存储协议详解、存储系统技术概述、存储关键技术、存储系统技术创新及趋势、存储虚拟化技术、存储系统数据备份技术、存储备份方案设计等9个章节。

申明:感谢原创作者的辛勤付出。本号转载的文章均会在文中注明,若遇到版权问题请联系我们处理。

推荐阅读

更多架构相关技术知识总结请参考“架构师全店铺技术资料打包”相关电子书(41本技术资料打包汇总详情可通过“阅读原文”获取)。


1、全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”一起发送服务器基础知识全解(终极版)存储系统基础知识全解 pdf及ppt版本,后续可享全店内容更新“免费”赠阅,价格仅收249元(原总价439元)。

2、随着电子书数量增加及内容更新,价格会随之增加,所以现在下单最划算,购买后续可享全店内容更新“免费”赠阅。

温馨提示:

扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)电子书资料详情


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
惊喜! “EE技术移民”狂邀4300人, 降至496分!第九章第二节 公权力的组织运作分享龚俊新疆照片Nature:基于人工智能的开源软件,正在标准化显微镜生成数据的图像格式规模100亿,烟台设立一支中餐标准化产业基金UCL与UAL合办的新专业,正在为少数人群创造奇迹!AI时代,标准化工作交给机器,创意类工作留给人类?直播链接发布 | 中国老年学和老年医学学会标准化委员会会员代表大会暨2023年度学术会议用了甲方的标准化模块,我做设计跟开挂一样!注意!加拿大人明年报税新变化:CRA这项收费的税率涨到10%!芯和半导体苏周祥:打造Chiplet专属EDA工具,全面支持2.5D/3DIC的Chiplet设计丨GACS 2023龚俊澄清笑得开心苹果Apple特别活动!iPhone 15、Apple Watch新品登场,耳机换接口「专题速递」JPEG AI、端到端图像编码的标准化及产品落地、深度学习29个重大科学难题公布:Chiplet和AI被列入未央播报 | 四部门印发新产业标准化实施方案 美团上半年营收1265.8亿元拥有全球独家专利WCE技术,填补国产医疗用接触式激光空白,江西走出一家“专精特新”观点| 夏璐等:Chinese authorities respond to people's needsLLM生成延迟降低50%!DeepSpeed团队发布FastGen:动态SplitFuse技术,提升2.3倍有效吞吐量中国电子技术标准化研究院副院长刘贤刚:用标准化手段支撑虚拟现实产业链短板的突破如何评价郭帆被聘为第一届全国电影标准化技术委员会委员?金壮龙赴中国电子技术标准化研究院调研工信部等四部门《新产业标准化领航工程实施方案(2023─2035年)》食品科技 | 陈香贵李杨:连锁化就是出品运营的标准化、供应链的一体化和管理的数字化芯瑞微先进封装设计总工冯毅:Chiplet设计中多物理场仿真的挑战|公开课预告报名进行中 | 中国老年学和老年医学学会标准化委员会2023年度学术会议暨会员代表大会列宁主义是什么ChatGPT与Stable Diffusion的来龙去脉,我们何去何从北极雄芯马恺声:全国产Chiplet封装链路跑通,Chiplet架构正在重塑大算力芯片丨GACS 2023DPU硬件标准化思考与探索(2023)chì rè?zhì rè?千词万字“返场赛”来了!市场监管总局《企业标准化促进办法》首个国内《芯粒互联接口标准》Chiplet接口测试成功,北极雄芯公布新进展2023地中海邮轮行 (十)巴塞罗那甲方:标准化模块都给你了,连设计都不会"抄"吗?(附PDF下载)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。