标准化：Chiplet与UCIe技术

2023-10-10 00:10

本文来自“2023新型算力中心调研报告（2023）”。更多内容参考“《海光CPU+DCU技术研究报告合集（上）》 ”，“《海光CPU+DCU技术研究报告合集（下）》 ”和“龙芯CPU技术研究报告合集”。

Chiplet 的优势已经获得了充分的验证，接下来的问题就是通用化、标准化。通过标准化，来自不同供应商的芯片可以更容易地实现封装内的互联，在这个前提下，部分 IP 可以固化为芯片，而不再需要分别集成到不同客户的芯片中，也不需要适配太多版本的生产工艺。

在此愿景之下，2022 年 3 月，通用处理器市场的核心玩家 Intel、AMD、Arm 等联合发布了新的互联标准 UCIe（Universal Chiplet Interconnect Express，通用小芯片互连通道），希望解决 Chiplet 的行业标准问题。

由于标准的主导者与 PCIe 和 CXL（Compute Express Link）已有千丝万缕的关系，因此，UCIe 非常强调与 PCIe/CXL 的协同，在协议层本地端提供 PCIe 和 CXL 协议映射。

与 CXL 的协同，说明 UCIe 的目标不仅仅是解决芯片制造中的互联互通问题，而是希望芯片与设备、设备与设备之间的交互是无缝的。在 UCIe1.0 标准中，即展现了两种层面的应用：Chiplet（In package）和Rackspace（Off package）。

△ UCIe 规划的机架连接交给了 CXL

UCIe支持不同的数据传输速率，位宽，凸点间隔，还有通道，来保证最广泛的可行的互用性，详细描述如表1所示。它定义了一个边带接口使设计和验证变得容易。UCIe 互联的单簇的组成单元是包含了N条单端，单向，全双工的数据线（标准封装选项中N=16，高级封装选项中N=64），一条单端的数据线用作有效信号，一条线用于追踪，每个方向都有一个差分的发送时钟，还有每个方向的两条线用于边带信号（单端，一条是800MHz的时钟，一条是数据线）。高级封装选项中支持把空闲的线束作为错误处理线束（包括时钟，有效信号，边带信号等等），标准封装选项中支持位宽退化来处理错误。多簇的UCIe 互联可以组合起来在每条连接链路上提供更优的性能，如图所示。

表：UCIe的特征和关键性能指标

过去十年间，CPU 的核心数量从 8~12 个的水平，增长到了 60 乃至 96 核，Arm 已有 192 核的产品，而每插槽 CPU 的内存通道数仅从 4 通道增加到 8 或 12 通道。每通道的内存在此期间也经过了三次大的迭代，带宽大概增加 1.5~2 倍，存储密度大约为 4 倍。从发展趋势来看，每个 CPU 核心所能分配到的内存通道数量在明显下降，每核心可以分配的内存容量和内存带宽其实也有所下降。这是内存墙的一种表现形式，导致 CPU 核心因为不能充分得到数据来处于满负荷的运行状态，会导致整体计算效率下降。

为什么增加内存通道如此缓慢？因为增加内存通道不仅仅需要增加芯片面积，还需要扩展对外接口，在电气连接方式没有根本性改变的情况下，触点数量的大量增加会导致 CPU 封装面积剧增。10 年前的英特尔至强（Intel Xeon）处理器的 LGA2011 封装尺寸为 52.5mm×45.0mm（毫米），当前 Xeon 所用 LGA 4677 封装尺寸为 77.5mm×56.5mm，触点数量增加了 1.33 倍，封装面积增加了 1.85 倍。

而 AMD 第四代 EPYC 启用的新封装 SP5 更大，有 6096 个触点，封装面积达到 75.4mm×72mm，跟一张扑克牌差不多大了，毕竟它的内存通道数量达到了 12 个。为了与 AMD 和 Arm 继续“核战”，英特尔代号 Granite Rapids 和 Sierra Forest 的下一代 Xeon 将启用 LGA 7529 插槽，尺寸 105mm×70.5mm。作为参考，iPhone 4的正面尺寸是 115.2mm×58.6mm，iPhone 8 则为 138.4mm×67.3mm。

同时，主板上内存相关的走线数量和距离也需要相应增加，保证信号质量的难度加大。CPU 插槽面积增加、内存槽数量增加，还受到主板面积的限制。按照英特尔和 AMD 的通用处理器的这个发展趋势，双路服务器的主板布局将会愈加困难，其市场份额可能会逐步下降。

通过 CXL 扩展内存，可以将 CPU 与内存从沿革多年的紧耦合关系变为松耦合，利用 PCIe/CXL 通道的物理带宽增加内存总带宽，而不仅仅限于内存控制器自身的通道总数（即使前者的带宽相对较低，但也是增量），利用机箱的立体空间容纳更大容量的内存，而不再受主板面积的约束。

△ CXL 内存

考虑到人工智能，尤其是机器学习领域的发展，模型容量在过去 5 年间大致增加了 50 倍，内存容量的扩展方式确实值得突破一下。不过这也不是一蹴而就的，毕竟第四代英特尔至强可扩展处理器每插槽 CPU 只支持 4 个 CXL 设备，给计算卡之类的一分就没了。所以也就不用纠结它暂时没有宣布支持 CXL Type 3 Device（Memory Buffer）。

在第四代可扩展至强处理器平台上，如果支持 CXL 1.1 的加速卡、计算卡、智能网卡能够提供比 PCIe 5.0 更好的性能，稍微拉近跟 SMX 接口（NVLink）的性能落差，那就非常开心了。而 AMD 则反过来，处理器大核确实多，而且不论单路还是双路处理器，内存槽上限都是 24 条，如果不优先另辟蹊径扩展内存容量，每个核心能够分配到的内存资源其实反而会落了下风，补短板看起来更迫切。但是，AMD 同样也会面临内存扩展与计算卡抢PCIe 通道数量的问题。

总之，不论这两家通用处理器具体各怀啥心思，CXL 的第一轮普及工作就是不尽如人意，顾此失彼。甚至现在还不到纠结内存扩展的时候，即使 CXL 内存模组已然是各种技术论坛中样品最接近现实的 CXL 设备。在这个阶段，解决 CXL 设备的有无问题，借机逐步导入 EDSFF，初步形成生态环境，就算是成功。至于内存的大事情，且得看下一代平台以及更新版本的 CXL。

△ CXL 的本地内存扩展

到了 CXL 2.0，通过 CXL Switch，内存扩展将可以跨 CPU 实现。这个阶段将构建机柜级的资源池化。这其中的好处多多，此处主要集中在云服务的需求角度去看。

微软曾调研了 Azure 公有云数据中心的内存使用情况，其结论是：有约 50% 的服务器的实际内存利用率不到一半。这是由于内存的分配是与 CPU 核心绑定的，当客户按照预设的实例配置租用资源时，每个核心便搭配了固定容量的内存，譬如 2GB。当主机的 CPU 核心数量被分配完毕后，未被搭配的内存便被闲置了。考虑到预先配置的内存容量相对核心数量必然是超配的，譬如 56 核的至强，搭配 128GB 内存，每个实例配 2GB 内存的话，那注定有 128-2×56=16 GB 内存将会被闲置。如果服务器核心未被充分利用，被闲置的内存将会更多。而运行中的实例，其实际内存占用率通常也不高。由此，无从分配的、未被分配的、分配但未充分使用的，这三种性质的浪费叠加之后，主机的实际内存浪费相当惊人。

由此，微软提出通过内存池来解决这个问题。各主机搭配容量较少的内存，其余内存放入内存资源池。当 CPU 本地内存不足时，再到内存池调用。这虽然增加了一些访问延迟，但会降低内存的总成本。如果减少 10% 的内存搭配数量，对于大型数据中心而言也是数以亿计的资金节约。微软预计通过 CXL 和内存池化，可以为云数据中心减少 4~5% 的成本。

除了节约总内存投入，内存池化还可以带来内存持久化、内存故障热迁移等等新的功能特性以供业界进一步挖掘，此处暂不展开。

CXL 的完整愿景，需要到 CXL 3.0 规范才能实现。

首先是带宽，CXL 3.0 基于 PCIe 6.0，更换了 PCIe 沿革多年的 NRZ 调制方案，变为 PAM-4 脉冲幅度调制编码，在电气特性变化不大的情况下，链路带宽翻倍，从 32GT/s 提升到了 64GT/s。

其次，CXL3.0 增加了对二层交换机的支持，也就是叶脊（Leaf-Spine）网络架构，资源池化也不再局限于内存，而是可以实现 CPU 资源池、加速器资源池、网卡资源池等。

△ CXL 3.0 将改变资源的组织方式

CXL 2.0 实现的是机柜内的池化，CXL 3.0 除了可以在一个机柜内实现计算资源和存储资源的解耦和池化，还可以在多个机柜之间建立更大的资源池。跨主机、跨机柜调度规模巨大的计算资源，已经是超算的范畴了。然后，CXL 3.0 网络可以支持 4096 个 CXL 节点！单纯从数量上看，这远远超过了 NVLink 网络 256 个节点的规模（见下一章）。这将是 CXL 对私有但标榜高性能的 NVLink 最有力的挑战。当然，CXL 3.0 依旧暂时还未落地，而 NVIDIA 新一代的系统已经正式发布了。二者在机柜互联方面的带宽远超 400G InfiniBand（IB）或者以太网，实际运行效率都是非常值得期待的。

为了使得计算组合设备能够持续得到创新，一个开放的芯粒生态系统成为了一项巨大的需求。UCIe 1.0兼顾了极佳的能源效率和性价比。它是一个开放的标准，拥有一个即插即用的模型，同时它参考了几个成功的标准，由工业界领先团队提出，确保它能在未来得到广泛的使用。我们可以预见未来的创新将在芯粒层面上产生，不同芯粒组合的可适配性将满足客户的不同应用需求。

在未来，我们期望联盟产生更多的高能效和性价比的解决方案，因为凸点间隔的宽度会持续缩小，3D封装会变成主流。从延迟，带宽和能源效率的角度来看这些将要求宽的链路运行地更慢，并且裸片的连接将会更加紧密。先进的封装和半导体制造技术将会在未来的10年在计算界掀起新的革命。UCIe已经蓄势待发，准备开启生态系统的创新来利用这些技术。当这些先进技术出现时，UCIe能跟上它们的脚步。

更多存储技术参考《服务器基础知识全解(终极版)》姊妹篇《存储系统基础知识全解》，包含存储介质技术、存储系统及形态介绍、存储协议详解、存储系统技术概述、存储关键技术、存储系统技术创新及趋势、存储虚拟化技术、存储系统数据备份技术、存储备份方案设计等9个章节。

申明：感谢原创作者的辛勤付出。本号转载的文章均会在文中注明，若遇到版权问题请联系我们处理。

推荐阅读

更多架构相关技术知识总结请参考“架构师全店铺技术资料打包”相关电子书(41本技术资料打包汇总详情可通过“阅读原文”获取)。

1、全店内容持续更新，现下单“架构师技术全店资料打包汇总(全)”一起发送服务器基础知识全解(终极版)和存储系统基础知识全解 pdf及ppt版本，后续可享全店内容更新“免费”赠阅，价格仅收249元(原总价439元)。

2、随着电子书数量增加及内容更新，价格会随之增加，所以现在下单最划算，购买后续可享全店内容更新“免费”赠阅。

温馨提示：

扫描二维码关注公众号，点击阅读原文链接获取“架构师技术全店资料打包汇总(全)”电子书资料详情。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章