GPU大厂,都愿意支持CXL
👆如果您希望可以时常见面,欢迎标星🌟收藏哦~
来源:内容由半导体行业观察(ID:icbank)编译自tomshardware,谢谢。
用于 AI 和 HPC 应用的现代 GPU 内置有限数量的高带宽内存 (HBM),限制了它们在 AI 和其他工作负载中的性能。然而,新技术将允许公司通过连接到 PCIe 总线的设备插入更多内存来扩展 GPU 内存容量,而不受 GPU 内置内存的限制——它甚至允许使用 SSD 来扩展内存容量。由韩国知名 KAIST 研究机构支持的公司 Panmnesia 开发了一种 低延迟 CXL IP ,可用于使用CXL 内存扩展器扩展 GPU 内存。
用于 AI 训练的更高级数据集对内存的需求正在迅速增长,这意味着 AI 公司要么必须购买新的 GPU,要么使用不太复杂的数据集,要么以牺牲性能为代价使用 CPU 内存。尽管 CXL 是一种正式在 PCIe 链路上运行的协议,从而使用户能够通过 PCIe 总线将更多内存连接到系统,但该技术必须得到 ASIC 及其子系统的识别,因此仅添加 CXL 控制器不足以使该技术发挥作用,尤其是在 GPU 上。
由于缺乏支持 GPU 中的 DRAM 和/或 SSD 端点的 CXL 逻辑结构和子系统,Panmnesia 在集成 CXL 以扩展 GPU 内存方面面临挑战。此外,GPU 缓存和内存子系统无法识别除统一虚拟内存 (UVM) 之外的任何扩展,而这往往速度较慢。
为了解决这个问题,Panmnesia 开发了一个符合 CXL 3.1 标准的根复合体 (RC),它配备了多个根端口 (RP),支持通过 PCIe 连接外部内存,以及一个主机桥,该桥带有一个主机管理的设备内存 (HDM) 解码器,可连接到 GPU 的系统总线。HDM 解码器负责管理系统内存的地址范围,它本质上让 GPU 的内存子系统“认为”它正在处理系统内存,但实际上,子系统使用 PCIe 连接的 DRAM 或 NAND。这意味着可以使用 DDR5 或 SSD 来扩展 GPU 内存池。
据 Panmnesia 称,该解决方案(基于定制 GPU,标记为 CXL-Opt)经过了广泛的测试,显示出两位数纳秒的往返延迟(而三星和 Meta 开发的原型的延迟为 250 纳秒,下图中标记为 CXL-Proto),其中包括标准内存操作和 CXL flit 传输之间的协议转换所需的时间。它已成功集成到硬件 RTL 的内存扩展器和 GPU/CPU 原型中,证明了其与各种计算硬件的兼容性。
根据 Panmnesia 的测试,UVM 在所有测试的 GPU 内核中表现最差,这是因为页面错误期间主机运行时干预和页面级数据传输的开销通常超出了 GPU 的需求。相比之下,CXL 允许通过加载/存储指令直接访问扩展存储,从而消除了这些问题。
因此,CXL-Proto 的执行时间比 UVM 短 1.94 倍。Pamnesia 的 CXL-Opt 进一步将执行时间缩短了 1.66 倍,优化的控制器实现了两位数纳秒的延迟,并最大限度地减少了读/写延迟。这种模式在另一张图中也很明显,该图显示了 GPU 内核执行期间记录的 IPC 值。它表明,Pamnesia 的 CXL-Opt 的性能速度分别比 UVM 和 CXL-Proto 快 3.22 倍和 1.65 倍。
总体而言,CXL 支持可以为 AI/HPC GPU 带来很大帮助,但性能是一个大问题。此外,AMD 和 Nvidia 等公司是否会为其 GPU 添加 CXL 支持还有待观察。如果使用 PCIe 连接内存为 GPU 的方法确实大行其道,那么只有时间才能告诉我们,行业巨头是否会使用 Panmnesia 等公司的 IP 模块,还是只是开发自己的技术。
JEDEC发布 Compute Express Link (CXL) 支持标准
微电子行业标准制定的全球领导者JEDEC 固态技术协会今天宣布发布 JESD405-1B JEDEC® 内存模块标签 – 用于 Compute Express Link® (CXL®) V1.1。JESD405-1B 与 2023 年 3 月首次推出的 JESD317A JEDEC 内存模块参考基础标准 – 用于 Compute Express Link® (CXL) V1.0 一起,定义了支持 CXL 规范的内存模块的功能和配置,以及这些模块标签的标准化内容。JESD405-1B 和 JESD317A 是与 Compute Express Link 标准组织协调开发的。这两项标准都可以从 JEDEC 网站免费下载。
JESD317A 为 CXL 内存模块提供了详细的指导原则,包括新兴 CXL 内存模块 (CMM) 的机械、电气、引脚排列、功率和热以及环境指导原则。这些模块符合 SNIA(存储网络行业协会)EDSFF 外形尺寸 E1.S 和 E3.S,可为数据中心和类似的服务器应用提供最终用户友好的热插拔组件。
JESD405-1B 定义了这些 CMM 标签的内容,帮助最终用户选择合适的 CXL 内存解决方案。标签包含有关内存介质类型(例如 DDR5)、支持的 CXL 协议的修订级别、以 GB 或 TB 为单位的总容量,以及对单个连接器 (1C) 到四个连接器 (4C) 上从 x4 到 x16 的连接器和 I/O 配置的支持。发布版本 1.1 包括可在所需二维条形码中读取的模块组件原产国文件,从而简化了库存管理。
JEDEC 董事会主席 Mian Quddus 表示:“JESD317A 和 JESD405-1B 都表明 JEDEC 积极支持扩大 CXL 解决方案市场。这些文件代表了数十家代表 CXL 内存解决方案供应商和最终用户的公司的合作。最终用户可以放心使用多种 CXL 内存模块来源,这有助于将这些解决方案商品化,从而造福行业。”
参考链接
https://www.tomshardware.com/pc-components/gpus/gpus-get-a-boost-from-pcie-attached-memory-that-boosts-capacity-and-delivers-double-digit-nanosecond-latency-ssds-can-also-be-used-to-expand-gpu-memory-capacity-via-panmnesias-cxl-ip
END
*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。
今天是《半导体行业观察》为您分享的第3815内容,欢迎关注。
推荐阅读
『半导体第一垂直媒体』
实时 专业 原创 深度
公众号ID:icbank
喜欢我们的内容就点“在看”分享给小伙伴哦
微信扫码关注该文公众号作者