使能算力:锐捷网络发布AIGC智算中心网络整体方案
9月13日至14日,2023开放数据中心大会在北京市隆重开幕。锐捷网络在网络分论坛上发布了AIGC智算中心网络整体方案,为AIGC大模型的发展提供了全方位的网络解法。
大模型发展趋势以及网络通信诉求
随着AIGC技术赋能产业持续升级,业务对大模型的需求也日益旺盛,更多的训练参数量以及更高的算力成为大语言模型的迭代目标。为了支撑多元化的行业应用,数据中心需要更大规模的集群来承载大语言模型的分布式训练。大语言模型运算效率与网络转发带宽存在密不可分的联系,网络带宽接入能力与网络带宽利用率是影响GPU利用率的关键指标。
基于以上需求和痛点,锐捷网络解决方案经理刘洋在2023开放数据中心大会(ODCC 2023)上,通过主题演讲《面向AIGC的智算中心网络建设思考》,阐述了AIGC大模型的发展趋势及关键诉求,正式发布了AIGC智算中心网络整体方案。方案采用统一标准化的以太网络技术,具体提出两种AIGC智算中心网络解决方案。
锐捷网络解决方案经理刘洋
高性能以太网络
解决方案
高性能以太网络解决方案通过三级组网的方式可以满足3.2万个400G端口接入需求,支撑32K块GPU卡的集群规模。在网络性能层面,部署实施时关注RDMA无损网络中PFC、ECN等水线的设置,进行负载均衡模式及算法优化提升网络的带宽利用率(详细技术可参考文章《解决数据中心网络拥塞,锐捷RALB负载均衡技术助力高效数据传输》)。运维优化阶段,该方案强调对网络关键指标的实时监控,应用智能运维平台根据现网状况进行动态调整以实现更佳的网络性能,该解决方案已获得市场的广泛认可。
高性能以太网络解决方案
网络宽带接入层面,
AI-Fabric智算中心
网络解决方案
AI-Fabric智算中心网络解决方案是锐捷网络针对AIGC业务场景发布的另一套解决方案。采用NCP+NCF为基础模块横向扩展的三级网络架构,可以支撑17K~32K的大规模GPU卡集群。基于高性能芯片技术,通过将数据流切分成等长的Cell并负载到所有链路,提升网络带宽利用率;基于VOQ+Credit的端到端流控机制实现与业务无关的无损自闭环网络,助力业务算力提升。(详细技术可参考文章《锐捷网络高性能网络方案,为AIGC打通 “任督二脉”》)
AI-Fabric方案组网架构
网络宽带接入层面,AI-Fabric智算中心网络解决方案由400G NCP 交换机和200G NCF 交换机组成。NCP设备为RG-S6930-18QC40F1,支持18口400G的业务口,并支持40口200G的Fabric内联口。NCF设备为RG-X56-96F1,支持96口200G的Fabric内联口。该解决方案可满足不同业务需求,具有可扩展性和灵活性。
AI-Fabric 400G高带宽产品接入方案
在全球互联网流量不断增长和数据应用需求日益多样化的背景下,锐捷网络致力于推动网络技术的进步和发展,AIGC智算中心网络整体方案的推出正是其不断探索和创新的有力证明。通过持续的技术研发和产品创新,锐捷网络将继续为全球的数据中心提供更加高效、可靠、智能的网络解决方案,在AIGC时代,助力互联网企业及各行各业的快速发展。
微信扫码关注该文公众号作者