英伟达的两条护城河

2023-09-17 04:09

过去几年的AI盛宴，催生了众多明星公司。尤其是在去年ChatGPT发布以来，AI的竞争进入了白热化阶段。巨大的市场潜力吸引了越来越多的厂商投身其中，他们也倾尽所能，希望用各种创新方案以求在其中占得一席之地，这在芯片领域更是体现得淋漓尽致，无论是GPGPU、DSA，还是各种存内架构，新硬件的竞争异常激烈。

然后，尽管国内外GPU和AI芯片竞争者层出不穷，英伟达依然牢牢占据头把交椅，处于垄断地位。除了倚仗于大家熟知的、强大的GPU+ CUDA生态，英伟达其实还通过NVLink+NVSwitch完成了从芯片厂商转变为AI+超算系统解决方案提供商的链式反应。

NVLink+NVSwitch也成为英伟达当之无愧的护城河。

NVLink + NVSwitch构建超算互联新架构

由于超算和AI大模型等数据规模越来越大，对计算平台的要求越来越高。单个GPU已经无法跑Transformer、BERT、GPT这些大模型，需要几百个甚至上千个GPU连在一起作为集群计算。与此同时，摩尔定律失效，通过工艺提升来降低芯片成本和功耗的优势不再存在，耗费巨资打造的单颗大芯片良率却更低。因此，通过集群互联实现算力扩展成为新趋势。

与传统HPC超算互联架构通过高速PCIe总线和高速网络组建多GPU互联架构不同，英伟达大胆创新，利用新型高速互联技术NVLink将GPU从“背面”直接连接起来。绕开PCIe总线，直接连接的多个GPU组建成一个GPU计算阵列，逻辑上形成一个“超级GPU”。

特别是NVSwitch可以将多个服务器中的GPU直接互联，不但绕开了传统HPC领域服务器内PCIe互联，还绕开了服务器间通过高速网络互联的线路，使得GPU和GPU通讯，特别是跨服务器的GPU通讯路径从原来的6步省略到2步，极大降低了GPU通讯的延迟，增强AI大模型计算中数据同步的效率，为AI大模型的计算提供了完美的跨服务器集群解决方案。

英伟达今年发布的史上最强DGX GH200超算系统通过NVLink和NVSwitch连接了256块Grace Hooper超级芯片。黄教主用高速互联重新定义GPU，这一史上最强的“超级GPU”集群可以实现100亿亿次AI计算性能，再次将竞争对手远远甩在后头。

英伟达的超级互联和超级计算

超级计算的必经之路：Link+Switch

GPU-GPU通过NVSwitch连接可以达到256个，CPU和CPU直连却远远落后。由于缺乏类似NVSwitch的高速交换芯片和互联协议，传统的CPU-CPU直连只能通过私有协议的方式组建成芯片矩阵。

由于缺乏Switch交换芯片，在芯片直连拓扑中，互联链路数量和芯片数量成倍数关系。例如，4个芯片互联需要至少6条链路，而8个芯片互联理论上需要28条链路。而链路数量和芯片成本直接相关，导致 8个CPU 互联成本非常高昂。正是由于成本关系，通常会降低链路数量，组成一个不是完全对称的点对点网络,降低互联性能，所以 CPU 直连发展一直停步不前。

而通过配置多颗Switch交换芯片，可以拓展出更大规模的芯片集群，打造任何形式的芯片拓扑结构。这也是为什么Nvidia在NVLink第三代大力发展NVSwitch的主要原因。

图：NVSwitch构建多路GPU互联解决方案

但Switch交换芯片不是一颗简单的芯片，而是一套复杂的系统，面临诸多挑战：

高速Serdes控制器的复杂性：如何利用高速Serdes接口，使其既满足芯片直连的需求，又可以完成设备交换的功能；
交换算法的扩展性：如何利用已有计算体系，尤其是PCIe体系，实现超大规模CPU-CPU互联；
网络协议的适配性：如何构建覆盖CPU、GPU、存储领域的网络协议，无缝适配已有硬件设备或上层软件系统

正是这些挑战，目前仅有英伟达等少数公司完成了Link+Switch的布局，这为英伟达的AI帝国筑起了厚厚的壁垒，这也是目前国内虽有众多GPU创业企业，却鲜有高速连接类芯片企业的重要原因。根据公开渠道，目前有海外的Enfabrica和国内的国数集联在沿着PCIe/CXL Switch方向在努力，结合CXL协议规范和PCIe接口的通用性，打造CPU-CPU直连交换芯片和系统方案。

关于后者，我们没有看到太多的资料介绍，而Enfabrica则在最近获得了英伟达的投资。

据外媒nextplatform所说，在过去十年左右的时间里，相当多的 IT 供应商都让我们相信，安全功能、网络和存储虚拟化功能，甚至用于划分计算本身的服务器虚拟化管理程序都应该从服务器卸载到类似数据处理单元（DPU）这样的芯片上。但nextplatform也同时指出。如果所有这些东西真的属于网络本身，特别是当分布式计算中需要完成如此多的集体操作时，尤其是内存现在也像计算和存储一样分布在网络上时，就需要新的解决方案，这正是Enfabrica 正在解决的事情。

据了解，Enfabrica用新的架构替换了传统多层网络基础设施。该公司针对AI和加速计算的新型加速计算结构 (ACF) 芯片是一种新的融合解决方案，无需使用不同的传统服务器 I/O 和网络芯片，例如机架级网络交换机、服务器网络接口控制器和 PCIe 交换机，降低数据中心和边缘计算成本。国内的国数集联也采取类似设计原理。

AI的爆发给半导体市场带来了全新机会。除了GPU等大芯片赛道，网络I/O等细分市场也值得关注。

*免责声明：本文由作者原创。文章内容系作者个人观点，半导体行业观察转载仅为了传达一种不同的观点，不代表半导体行业观察对该观点赞同或支持，如果有任何异议，欢迎联系半导体行业观察。

今天是《半导体行业观察》为您分享的第3526期内容，欢迎关注。