Redian新闻
>
英伟达的两条护城河

英伟达的两条护城河

公众号新闻

过去几年的AI盛宴,催生了众多明星公司。尤其是在去年ChatGPT发布以来,AI的竞争进入了白热化阶段。巨大的市场潜力吸引了越来越多的厂商投身其中,他们也倾尽所能,希望用各种创新方案以求在其中占得一席之地,这在芯片领域更是体现得淋漓尽致,无论是GPGPU、DSA,还是各种存内架构,新硬件的竞争异常激烈。


然后,尽管国内外GPU和AI芯片竞争者层出不穷,英伟达依然牢牢占据头把交椅,处于垄断地位。除了倚仗于大家熟知的、强大的GPU+ CUDA生态,英伟达其实还通过NVLink+NVSwitch完成了从芯片厂商转变为AI+超算系统解决方案提供商的链式反应。


NVLink+NVSwitch也成为英伟达当之无愧的护城河。


NVLink + NVSwitch构建超算互联新架构


由于超算和AI大模型等数据规模越来越大,对计算平台的要求越来越高。单个GPU已经无法跑Transformer、BERT、GPT这些大模型,需要几百个甚至上千个GPU连在一起作为集群计算。与此同时,摩尔定律失效,通过工艺提升来降低芯片成本和功耗的优势不再存在,耗费巨资打造的单颗大芯片良率却更低。因此,通过集群互联实现算力扩展成为新趋势。



与传统HPC超算互联架构通过高速PCIe总线和高速网络组建多GPU互联架构不同,英伟达大胆创新,利用新型高速互联技术NVLink将GPU从“背面”直接连接起来。绕开PCIe总线,直接连接的多个GPU组建成一个GPU计算阵列,逻辑上形成一个“超级GPU”。


特别是NVSwitch可以将多个服务器中的GPU直接互联,不但绕开了传统HPC领域服务器内PCIe互联,还绕开了服务器间通过高速网络互联的线路,使得GPU和GPU通讯,特别是跨服务器的GPU通讯路径从原来的6步省略到2步,极大降低了GPU通讯的延迟,增强AI大模型计算中数据同步的效率,为AI大模型的计算提供了完美的跨服务器集群解决方案。


英伟达今年发布的史上最强DGX GH200超算系统通过NVLink和NVSwitch连接了256块Grace Hooper超级芯片。黄教主用高速互联重新定义GPU,这一史上最强的“超级GPU”集群可以实现100亿亿次AI计算性能,再次将竞争对手远远甩在后头。


英伟达的超级互联和超级计算


超级计算的必经之路:Link+Switch


GPU-GPU通过NVSwitch连接可以达到256个,CPU和CPU直连却远远落后。由于缺乏类似NVSwitch的高速交换芯片和互联协议,传统的CPU-CPU直连只能通过私有协议的方式组建成芯片矩阵。


由于缺乏Switch交换芯片,在芯片直连拓扑中,互联链路数量和芯片数量成倍数关系。例如,4个芯片互联需要至少6条链路,而8个芯片互联理论上需要28条链路。而链路数量和芯片成本直接相关,导致 8个CPU 互联成本非常高昂。正是由于成本关系,通常会降低链路数量,组成一个不是完全对称的点对点网络,降低互联性能,所以 CPU 直连发展一直停步不前。


而通过配置多颗Switch交换芯片,可以拓展出更大规模的芯片集群,打造任何形式的芯片拓扑结构。这也是为什么Nvidia在NVLink第三代大力发展NVSwitch的主要原因。


图:NVSwitch构建多路GPU互联解决方案


但Switch交换芯片不是一颗简单的芯片,而是一套复杂的系统,面临诸多挑战:


  • 高速Serdes控制器的复杂性:如何利用高速Serdes接口,使其既满足芯片直连的需求,又可以完成设备交换的功能;

  • 交换算法的扩展性:如何利用已有计算体系,尤其是PCIe体系,实现超大规模CPU-CPU互联;

  • 网络协议的适配性:如何构建覆盖CPU、GPU、存储领域的网络协议,无缝适配已有硬件设备或上层软件系统


正是这些挑战,目前仅有英伟达等少数公司完成了Link+Switch的布局,这为英伟达的AI帝国筑起了厚厚的壁垒,这也是目前国内虽有众多GPU创业企业,却鲜有高速连接类芯片企业的重要原因。根据公开渠道,目前有海外的Enfabrica和国内的国数集联在沿着PCIe/CXL Switch方向在努力,结合CXL协议规范和PCIe接口的通用性,打造CPU-CPU直连交换芯片和系统方案。


关于后者,我们没有看到太多的资料介绍,而Enfabrica则在最近获得了英伟达的投资。


据外媒nextplatform所说,在过去十年左右的时间里,相当多的 IT 供应商都让我们相信,安全功能、网络和存储虚拟化功能,甚至用于划分计算本身的服务器虚拟化管理程序都应该从服务器卸载到类似数据处理单元(DPU)这样的芯片上。但nextplatform也同时指出。如果所有这些东西真的属于网络本身,特别是当分布式计算中需要完成如此多的集体操作时,尤其是内存现在也像计算和存储一样分布在网络上时,就需要新的解决方案,这正是Enfabrica 正在解决的事情。


据了解,Enfabrica用新的架构替换了传统多层网络基础设施。该公司针对AI和加速计算的新型加速计算结构 (ACF) 芯片是一种新的融合解决方案,无需使用不同的传统服务器 I/O 和网络芯片,例如机架级网络交换机、服务器网络接口控制器和 PCIe 交换机,降低数据中心和边缘计算成本。国内的国数集联也采取类似设计原理。


AI的爆发给半导体市场带来了全新机会。除了GPU等大芯片赛道,网络I/O等细分市场也值得关注。


*免责声明:本文由作者原创。文章内容系作者个人观点,半导体行业观察转载仅为了传达一种不同的观点,不代表半导体行业观察对该观点赞同或支持,如果有任何异议,欢迎联系半导体行业观察。


今天是《半导体行业观察》为您分享的第3526期内容,欢迎关注。

推荐阅读


Chiplet,怎么连?

存储,怎么看?

你想要H100吗?


半导体行业观察

半导体第一垂直媒体

实时 专业 原创 深度


识别二维码,回复下方关键词,阅读更多

晶圆|集成电路|设备|汽车芯片|存储|台积电|AI|封装

回复 投稿,看《如何成为“半导体行业观察”的一员 》

回复 搜索,还能轻松找到其他你感兴趣的文章!


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
护城河够深,Booking强势回归亚马逊Review大变革真来了,爆款老品护城河被消解成功在于远见?英伟达CEO称英伟达5年前把一切都押在了AI上利润暴涨 8 倍!英伟达的芯片越贵越好卖黄维的悲欢与重生:他被特赦后,苦等27年的妻子蔡若曙,却跳入护城河护城河得到三重巩固,Shopify这回稳了?黄仁勋是如何管理万亿英伟达的 |【经纬低调分享】英伟达的芯片护城河年度最绝融资:拿英伟达H100抵押贷款165亿,买更多英伟达GPU扩建10个数据中心十年打造智能手表三重护城河,华为如何遥遥领先?哪些A股具备稳固护城河?在美国的日子美团优选有护城河吗?东瀛气象鹧鸪天(3)赛后访友果园傅美女的骑士勋章之充要条件英伟达的显卡,堪比黄金!!!小米的科技护城河在哪里?10元的咖啡,还是攻不破星巴克的护城河如何跨越英伟达的CUDA护城河?长城证券深耕“护城河”:财富管理业务提质增效,“明星投顾团队”成转型利器英伟达特拉维夫AI峰会取消!老黄内部邮件曝出:英伟达员工也被绑架GPU暴增的GenAI时代,AMD正跨越英伟达的CUDA软件护城河哪些A股具备稳固护城河?这份名单,请收藏!创业公司最大的护城河是什么?三大护城河将为苹果保驾护航狂奔的长城,垒起体系化护城河有本事成为“庇护城市”,却没本事养非法移民!洛杉矶等5个庇护城市市长齐聚华盛顿,要求拜登提供50亿美元机构点评汇总:“传奇”品类护城河稳固5117 血壮山河之武汉会战 富金山战役 5券商资管如何构建护城河?中泰证券资管黄文卿:差异化竞争策略优于不扎实的大而全技术优势筑就网安护城河 盛邦安全抢抓发展新机遇ASML:保住了护城河,但还是有点慌Lisa Su采访,谈英伟达CUDA:不相信护城河英伟达护城河深不见底!一文梳理老黄如何成为AI赛道的无冕之王厉害国的厉害英语
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。