Redian新闻
>
智算在网 | 锐捷网络AIGC网络方案深度解读

智算在网 | 锐捷网络AIGC网络方案深度解读

2022年底ChatGPT的突然爆火,点燃了全球AIGC的应用热潮,生成式AI技术正在帮助各类应用持续进行产业升级。在这些百花齐放的业态背后,离不开大语言训练模型的技术赋能。

随着大语言模型的发展迭代,所有参数都在不断扩增。以GPT模型为例,不管是上下文长度、层数、头数以及模型的参数量,包括训练数据的规模都在不断提升,尤其是模型的参数量提升比例非常大。据相关信息爆料GPT-4的模型参数量可以达到1万亿,是GPT-3的十多倍,这个模型参数量非常巨大

图1:GPT模型发展趋势

随着大模型参数量的提升,对算力的消耗也在显著增加。大模型训练对于算力的需求也符合类似“摩尔定律”的特征,从每3~4个月算力消耗翻倍到每2个月算力消耗翻倍。随着模型迭代速度越来越快,对算力的需求也愈发紧迫。算力一般指一颗GPU芯片的峰值算力,GPU利用率指的是一次迭代过程中,GPU的有效使用率。那么可以理解不断提升GPU利用率接近100%,才能达到GPU芯片本身的性能峰值,实现物尽其用。

图2:训练大模型参数量及算力消耗变化






机内通信



GPU通信分成两个关键部分,分别是机内通信和机间通信。以GPT-3训练模型为例,我们做了理论建模并分析了1K12K规模下A800H800两种GPU卡不同机内互联带宽对GPU利用率的影响。如图所示,随着机内互联带宽的提升,GPU利用率在持续增加,相对的训练完成时间也在逐渐缩短,因此机内互联带宽是提升GPU利用率的关键指标之一

3:AI服务器机内互联带宽对GPU利用率的影响关系

但从图上也不难看出,机内互联带宽对GPU利用率的影响趋势在逐渐变缓,单靠这种手段对GPU利用率的提升也存在一定限度。







机间通信



随着大模型训练的参数量逐步增大,MoE(Mixture of Experts,混合专家系统)被引入以扩大参数量。MoE是在神经网络领域发展起来的一种集成学习(Ensemble Learning) 技术。传统的深度学习模型在训练时,对于每个输入样本,整个网络都会参与计算。随着模型越来越大,训练使用的样本数据越来越多,训练的开销越来越难以承受。而MoE可以动态激活部分神经网络,将专家分布到不同的机器上并通过机间All to All通信进行数据交互,实现在不明显增加计算量的前提下大幅度增加模型参数量。机间All to All通信是依靠交换机转发进行传输的,因此网络通信对GPU利用率的影响越发明显。

图4:MoE混合专家系统原理

从GPT-4模型的理论分析中,我们也可以得到这个结论:GPT-4与GPT-3最关键的差异就是把 MLP 层扩展到 16 个MoE 的专家层,因此实现了参数量的10倍增长。

5:GPT-4模型变化

从下表中可以看到GPT-4扩展MoE引入了大量的All to all通信,使机内和机间通信的比例几乎达到了1:1,因此机间通信对GPU利用率的影响同样重要。

图6:GPT-4通信数据量占比

由于GPU-4没有公开数据,因此我们在GPT-3模型基础上尝试引入MoE并对训练数据进行分析。如图所示,网络接入带宽从200G升到400G翻一倍,GPU利用率提升近5%。带宽利用率从 70%升到80%,GPU利用率提升了2%。因此,网络接入带宽以及网络中的带宽利用率对GPU利用率影响较大。

7:网络接入带宽与带宽利用率对Moe训练效率的影响

以上是对GPT-3引入MoE模型后的理论分析。那么对于GPT-4来说,本身模型参数量就是GPT-3的十多倍,且扩展了16MoE专家层,引入了大量的机间all to all的流量,所以会大幅增加机间通信的数据量,机内和机间通信量占比几乎达到1: 1。机间通信占比越高,网络的重要性就越大。所以从理论分析,GPT-4模型中,网络接入带宽和网络中的带宽利用率对GPU利用率的影响会比GPT-3大很多倍

8:大模型发展趋势及需求总结

从大模型发展趋势上来看,多元化的行业应用背后是多样化的大模型在提供技术基础,行业应用对大模型训练也提出了更高的需求,即需要更多的训练参数量及更高的算力。而日益扩增的模型参数量需要更大规模的训练集群来承载,随着类似MoE训练方式的应用,机间网络通信的重要性愈发明显,机间网络通信在总体通信中的占比也在持续提升。







AIGC智算中心网络

整体方案



AIGC智算中心的网络整体框架包括了算力网络,存储网络,通用计算网络,带外管理网络以及DCN核心区域网络。随着大模型训练对于算力需求的不断提升,GPU算力网络越发重要。聚焦算力网络,能支撑更大规模的训练集群的大规模智算中心网络是基础,规模之上是两个关键的性能指标:网络接入带宽越大越好;带宽利用率越高越好。这三点构成了AIGC业务对智算中心网络建设的核心需求。

图9: AIGC智算中心网络方案整体框架

针对以上三点诉求,锐捷网络推出AIGC智算中心网络方案,囊括高性能以太网络解决方案以及AI-Fabric智算中心网络解决方案。







高性能以太网络

解决方案



针对万卡以上集群规模的建设需求,高性能以太网络解决方案将整体网络分为三个层级,服务器采用多轨组网的接入方式,让GPU服务器内8块GPU卡对应的8张网卡连到8个Server Pod中的Tor设备上,实现同号卡在同一台Tor上通信。为了确保网络高速转发,各层级按照1: 1的收敛比做设计。Tor与leaf设备的端口分配均为64口上行,64口下行。对于Spine平面,128口全做下行用于Server Pod中的设备互联。基于这样的端口规划,整体网络规模可以做到64个平面,8个 Server Pod,服务器侧覆盖64个Server block。整体GPU卡的接入规模就可以做到32768块。

10:高性能以太网络解决方案

为了匹配下一代的网卡(如CX7的单口400G以及双口200G的接入需求),锐捷网络发布的RG-S6980-64QC数据中心交换机可以同时应用在TORLeafSpine三个层级,该设备已经批量交付了很多互联网的客户。此外,为了提升端口接入能力,锐捷网络还开发了下一代数据中心核心交换机,具备128400G的接入能力。这一代的产品升级到了112GSerdes,同时也具备更强大的芯片功能,支Connective routing等新特性,能更好地解决拥塞丢包以及负载均衡的问题。

图11: 数据中心核心交换机 RG-S6980-64QC

高性能以太网络解决方案从架构规划、部署实施以及运维优化三个层面进行带宽利用率的提升。

从架构规划来看,采用多轨网络的接入方式来匹配流量模型,设计各层级 1:1 的低收敛比来优化机间通信,并通过端网协同、在网计算等技术来规划整体的网络。

在部署实施阶段,目前更多业务还是会部署RDMA应用,为了确保业务的吞吐效率,网络需要实现无损转发,类似PFC、ECN、QoS 等水线的调优就显得尤为重要,另外对于网络中负载的均衡性也需要考虑模式和算法的优化。

最后考虑运维方面,在网络部署后的运行当中,方案实时关注网络关键指标的监控,以及对丢包重传等周期性事件的订阅和告警上报,并且结合智能运维平台去做流控水线的动态调优,来保证网络宽用率更大化。







AI-Fabric智算中心

网络解决方案



毋庸置疑,高性能以太网络解决方案是性价比高的选择。如果客户追求良好的无损机制和负载均衡,锐捷网络还推出了AI-Fabric智算中心网络解决方案。

图12:AI-Fabric网络架构

从规模上来看,方案采用三级组网(如图),可支持17k到32k个400G的端口。锐捷网络在国内首发了400G的NCP和NCF设备,以支持AIGC网络的大接入带宽。NCP设备RG-S6930-18QC40F1,支持18口400G的业务口,并支持40口200G的Fabric内联口,用于和NCP之间的互联。NCF设备RG-X56-96F1,支持96口200G的Fabric内联口。

图13: NCP-RG-S6930-18QC40F1

图14: NCF-RG-X56-96F1

AI-Fabric智算中心网络解决方案运用了三个关键技术,来提升带宽利用率:

1.基于AI fabric的架构设计,NCP层面采用1. 1 : 1的超速比缓解网络中Incast的问题规避拥塞,基于Cell的高效路由可以加速互联链路的故障收敛时间,不需要部署复杂低效的BGP路由。

2.基于Cell的切片技术,优化链路的负载均衡效果提升网络带宽利用率,缩短业务的流完成时间FCT 。

3.基于VoQ缓存和Credit的拥塞控制机制实现Fabric网络中的数据无损转发,彻底解决丢包重传的问题确保业务持续高吞吐地转发,进而来提升整个算力集群的GPU利用率。

更多AI-Fabric解决方案的细节,可以参考《锐捷网络高性能网络方案,为AIGC打通 “任督二脉”》。




在全球互联网流量不断增长和数据应用需求日益多样化的背景下,锐捷网络致力于推动网络技术的进步和发展,AIGC智算中心网络整体方案的推出正是其不断探索和创新的有力证明。通过持续的技术研发和产品创新,锐捷网络将继续为全球的数据中心提供更加高效、可靠、智能的网络解决方案,在AIGC时代,助力互联网企业及各行各业的快速发展。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
深度解读,观点碰撞!“CDQI-同道心衰”学术交流及病例研讨会精彩报道1个月完成1000家门店网络升级 “对症”老百姓大药房规模化门店网改痛点 锐捷网络出“奇药”锐捷网络荣获“2023年度科技行业上市公司卓越表现奖”使能算力:锐捷网络发布AIGC智算中心网络整体方案北汽研究总院数字化研究院(蓝谷信息)与锐捷网络深化业务合作,共创数字化办公新方案特别关注 | 锐捷网络亮相2023中国算力大会创新成果展拥抱AI变革,锐捷网络抢占“智算网络建设”高台,多项业务硕果夯实根基邀请函|锐捷网络与您相约2023中国国际数字经济博览会地中海邮轮行之十四我的精算生涯(三)吹尽黄沙不见金(六十): 大流士华为Mate 60拆出了什么?央视首次深度解读,芯片跑出中国速度,卫星通话很惊艳吹尽黄沙不见金(五十八): 零距离?深度解读2023物理诺奖:为何与沃尔沃奖相差一人?广东省国家级示范性学校带你探索适配中小学新建校的校园网络方案深度解读!英国乡村旅游的发展之路聚焦ESC,巅峰论道丨霍勇教授深度解读2023ESC糖尿病患者心血管疾病管理指南苹果的怪兽芯片,M2 Ultra深度解读【深度解读】预后分析:临床科研中的关键工具锐捷网络新能源电场风光无线解决方案!为智能化安全生产保驾护航助力亚运会,锐捷网络为五大场景全面护航十年如一日,锐捷网络为全国职业院校技能大赛“网络系统管理”赛项保驾护航吹尽黄沙不见金(五十九): 谁是朋友,谁是敌人相聚银川|锐捷网络诚邀您参加2023中国算力大会!央视深度解读华为Mate60拆机!中芯7nm工艺实锤,卫星通话超越马斯克国产硬件仿真混合验证平台,深度解读深度解读阿里换帅:敢于放下过去,是为了不停留在原地深度解读重磅利好“四连炸”!有多大用?投资者该怎么办?锐捷网络股份有限公司关于预防求职诈骗的声明简析SEC网络安全风险披露新规利好AI芯片开发和AIGC应用,《开放加速规范AI服务器设计指南》深度解读深度解读首份大模型报告:技术只是门槛,落地才是赛点聚焦政务云|锐捷网络再次亮相2023年政务外网CIO高级研修班走“晋”看!锐捷网络亮相第十三届农村金融机构信息化发展创新座谈会锐捷网络亮相2023山东教育装备展,“三大”创新方案备受瞩目!
logo
联系我们隐私协议©2025 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。