Redian新闻
>
GPU服务器AI网络架构设计(上)

GPU服务器AI网络架构设计(上)

公众号新闻

在大规模模型训练的领域中,构建高性能GPU服务器的基础架构通常依托于由单个服务器搭载8块GPU单元所组成的集群系统。这些服务器内部配置了如A100、A800、H100或H800等高性能GPU型号,并且随着技术发展,未来可能还会整合{4, 8} L40S等新型号GPU。下图展示了一个典型的配备了8块A100 GPU的服务器内部GPU计算硬件连接拓扑结构示意图。

本文将依据上述图表,对GPU计算涉及的核心概念与相关术语进行深入剖析和解读。
关于CPU、服务器和存储详细技术,请参考“下载提醒:服务器基础知识全解(终极版)”,“2023年服务器计算机CPU行业报告”、“2023年机架式服务器行业洞察”、“2023~2025服务器CPU路线图”、“2023服务器产业链及市场竞争格局”、“存储系统关键技术全解(终极版)”、“更新下载:存储系统基础知识全解(终极版)”、“存储芯片技术基础知识介绍(2023)”等等。

PCIe交换机芯片

在高性能GPU计算的领域内,关键组件如CPU、内存模块、NVMe存储设备、GPU以及网络适配器等通过PCIe(外设部件互连标准)总线或专门设计的PCIe交换机芯片实现高效顺畅的连接。历经五代技术革新,目前最新的Gen5版本确保了设备间极为高效的互连性能。这一持续演进充分彰显了PCIe在构建高性能计算系统中的核心地位,显著提升了数据传输速度,并有力地促进了现代计算集群中各互联设备间的无缝协同工作。

NVLink概述

NVLink定义

NVLink是英伟达(NVIDIA)开发并推出的一种总线及其通信协议。NVLink采用点对点结构、串列传输,用于中央处理器(CPU)与图形处理器(GPU)之间的连接,也可用于多个图形处理器之间的相互连接。与PCI Express不同,一个设备可以包含多个NVLink,并且设备之间采用网格网络而非中心集线器方式进行通信。该协议于2014年3月首次发布,采用专有的高速信号互连技术(NVHS)。

该技术支持同一节点上GPU之间的全互联,并经过多代演进,提高了高性能计算应用中的双向带宽性能。

NVLink的发展历程:从NVLink 1.0到NVLink 4.0

NVLink技术在高性能GPU服务器中的演进如下图所示:

NVLink 1.0

  • 连接方式:采用4通道连接。
  • 总带宽:实现高达160 GB/s的双向总带宽。
  • 用途:主要用于加速GPU之间的数据传输,提升协同计算性能。

NVLink 2.0

  • 连接方式:基于6通道连接。

  • 总带宽:将双向总带宽提升至300 GB/s。
  • 性能提升:提供更高的数据传输速率,改善GPU间通信效率。

NVLink 3.0

  • 连接方式:采用12通道连接。
  • 总带宽:达到双向总带宽600 GB/s。

  • 新增特性:引入新技术和协议,提高通信带宽和效率。

NVLink 4.0

  • 连接方式:使用18通道连接。
  • 总带宽:进一步增加至双向总带宽900 GB/s。

  • 性能改进:通过增加通道数量,NVLink 4.0能更好地满足高性能计算和人工智能应用对更大带宽的需求。

NVLink 1.0、2.0、3.0和4.0之间的关键区别主要在于连接通道数目的增加、所支持的总带宽以及由此带来的性能改进。随着版本迭代,NVLink不断优化GPU间的数据传输能力,以适应日益复杂且要求严苛的应用场景。

NVSwitch

NVSwitch是NVIDIA专为满足高性能计算和人工智能应用需求而研发的一款交换芯片,其核心作用在于实现同一主机内部多颗GPU之间的高速、低延迟通信。
下图呈现了一台典型配置8块A100 GPU的主机硬件连接拓扑结构。

下图展示的是浪潮NF5488A5 NVIDIA HGX A100 8 GPU组装侧视图。在该图中,我们可以清楚地看到,在右侧六个大型散热器下方隐蔽着一块NVSwitch芯片,它紧密围绕并服务于周围的八片A100 GPU,以确保GPU间的高效数据传输。

NVLink交换机

NVLink交换机是一种由NVIDIA专为在分布式计算环境中的不同主机间实现GPU设备间高性能通信而设计制造的独立交换设备。不同于集成于单个主机内部GPU模块上的NVSwitch,NVLink交换机旨在解决跨主机连接问题。可能有人会混淆NVLink交换机和NVSwitch的概念,但实际上早期提及的“NVLink交换机”是指安装在GPU模块上的切换芯片。直至2022年,NVIDIA将此芯片技术发展为一款独立型交换机产品,并正式命名为NVLink交换机。

HBM(高带宽内存)

传统上,GPU内存与常见的DDR(双倍数据速率)内存相似,通过物理插槽插入主板并通过PCIe接口与CPU或GPU进行连接。然而,这种配置在PCIe总线中造成了带宽瓶颈,其中Gen4版本提供64GB/s的带宽,Gen5版本则将其提升至128GB/s。

为了突破这一限制,包括但不限于NVIDIA在内的多家GPU制造商采取了创新手段,即将多个DDR芯片堆叠整合,形成了所谓的高带宽内存(HBM)。例如,在探讨H100时所展现的设计,GPU直接与其搭载的HBM内存相连,无需再经过PCIe交换芯片,从而极大地提高了数据传输速度,理论上可实现显著的数量级性能提升。因此,“高带宽内存”(HBM)这一术语精准地描述了这种先进的内存架构。

HBM的发展历程:从HBM1到HBM3e

带宽单位解析

在大规模GPU计算训练领域,系统性能与数据传输速度密切相关,涉及到的关键通道包括PCIe带宽、内存带宽、NVLink带宽、HBM带宽以及网络带宽等。在衡量这些不同的数据传输速率时,需注意使用的带宽单位有所不同。

在网络通信场景下,数据速率通常以每秒比特数(bit/s)表示,且为了区分发送(TX)和接收(RX),常采用单向传输速率来衡量。而在诸如PCIe、内存、NVLink及HBM等其他硬件组件中,带宽指标则通常使用每秒字节数(Byte/s)或每秒事务数(T/s)来衡量,并且这些测量值一般代表双向总的带宽容量,涵盖了上行和下行两个方向的数据流。

因此,在比较评估不同组件之间的带宽时,准确识别并转换相应的带宽单位至关重要,这有助于我们全面理解影响大规模GPU训练性能的数据传输能力。

文章来源:

https://community.fs.com/cn/article/unveiling-the-foundations-of-gpu-computing1.html
相关阅读:

转载申明:转载本号文章请注明作者来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。

推荐阅读
更多架构相关技术知识总结请参考“架构师全店铺技术资料打包(全)”相关电子书(41本技术资料打包汇总详情可通过“阅读原文”获取)。

全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”一起发送“服务器基础知识全解(终极版)和“存储系统基础知识全解(终极版)pdf及ppt版本,后续可享全店内容更新“免费”赠阅,价格仅收249元(原总价399元)。


温馨提示:

扫描二维码关注公众号,点击阅读原文链接获取架构师技术全店资料打包汇总(全)电子书资料详情


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
数据中心网络架构设计与挑战【The Human Factor】成人墙采访(上)实践总结|前端架构设计的一点考究顶刊TPAMI 2024!北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法CVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNetAI在用 | 一个超级提示,用Claude 3生成神经网络架构动画订单中心架构设计与实践新零售SaaS架构:线上商城系统架构设计2024超级课表4月(上)·7场精彩活动一网打尽!新零售SaaS架构:客户管理系统架构设计(万字图文总结)全新神经网络架构KAN一夜爆火!200参数顶30万,MIT华人一作,轻松复现Nature封面AI数学研究干掉MLP!KAN:全新神经网络架构爆火!网友:发论文"新坑"来了渡十娘|体验美国“底层”生活:初中生送外卖筹款买iPhone(上)华盛顿大学,在樱花环绕下学习(上) | 学校心理学/ABA/学习科学与人类发展/公共卫生硕博介绍MLP一夜被干掉,全新神经网络架构KAN破纪录!MIT华人一作,轻松复现Nature封面AI数学研究AMD 多款服务器 CPU 现身 eBay,含 3D V-Cache 版 EPYC 4004证券核心交易系统的平台架构设计图解:多租户系统架构设计一阶优化算法启发,北大林宙辰团队提出具有万有逼近性质的神经网络架构设计方法23、长篇家庭伦理小说《嫁接 下》第七章 咫尺天涯(3)《南来北往》中的铁路警察服装(上)图解Transformer架构设计从电影看文学城现状,及一剑飘尘的众筹厉害了!阿里云提出新一代AI网络架构HPN7.0GPU服务器AI网络架构设计(下)Linux服务器CPU持续飙高原因排查离不开这几步!《每天刻下你的名字》&《等春来》轻松配置NFS服务:CentOS7服务器与客户端自动挂载指南从电视剧《长相思》,看剧作中人物“悲剧性”的塑造(上)AI数据中心网络架构需求:400/800G光模块和自己较劲的兔崽子微软打破Decoder-Only架构!大幅降低GPU内存需求,网友:把Llama3 70B弄20GB GPU上运行再回首 (十八)“最先进”不一定“最佳”——配电通信网需要安全灵活智能的网络架构从1000元到8000万,类《完蛋》游戏是致富新路吗?(上)
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。