Redian新闻
>
技术盛宴 | 多维度对比分析AIGC网络网卡双上联技术架构

技术盛宴 | 多维度对比分析AIGC网络网卡双上联技术架构

公众号新闻

AIGC(Artificial Intelligence Generated Content,生成式人工智能)技术利用训练有素的生成式模型来生成自然语言文本、图像、音频等多样化内容。在其网络架构中,网卡(Network Interface Card,NIC)扮演着至关重要的角色,作为连接计算机和网络的关键设备。其主要职责包括将计算机产生的数据有效地发送到网络中,并负责接收来自网络的数据。网卡设备对于确保 AIGC 网络的高性能和可靠性具有重要意义,为数据传输和网络连接提供了可靠的基础支持。




网卡双上联的产生原因



网卡双上联是一种架构,它将服务器或网络设备的两个物理网卡同时连接到不同的网络上级设备或交换机上。

在传统的网卡单上联架构下,无论是光纤还是交换机出现异常,都会导致AIGC训练任务中断,因训练中断将造成训练成本增加和客户品牌的负面影响。此外,交换机升级期间,AIGC训练业务也需要提前迁移。这对用户体验、系统稳定性以及网络运维都带来了很多问题。

相比之下,网卡双上联架构中,服务器上的所有网卡的两个端口分别连接到不同的交换机,并通过绑定这两个端口形成一个bond端口来提供服务。这样,当一个上联链路或对应的接入层交换机出现故障时,流量可以切换到另一个端口,确保训练任务不会中断。

双上联架构设计避免了网卡单上联接入交换机带来的单点故障风险,极大提高了整体系统互联的鲁棒性。此外,这也为集群系统的交换机热升级创造了条件,使得整体网络运维和功能迭代变得更加方便。



网卡双上联架构网络解决方案



以下是当前交换机支持的几种网卡双上联架构解决方案:

网卡双IP



网卡的每个端口分别配置2个不同的IP地址,通过网卡配置将流量分散不同的路径。网卡对外虚拟为2个不同的网卡,天然复用交换机当前成熟的IP转发特性。当其中1个端口或IP地址失效时,另一个端口/IP地址也可以继续工作。

网卡双IP是一种灵活且高效的网络配置方案,适用于多种应用场景。但部分集合通信库对于双IP的支持度较差,且出现多QP性能下降的情况;此外该方案需要为网卡多分配1倍的IP地址,IP地址资源存在浪费。

去堆叠



去堆叠方案为我司提出的创新性解决方案。去堆叠方案是指网卡和交换机之间通过bond绑定为聚合口,网卡侧对于ARP/ND实现broadcast,即2个端口同时发送ARP/ND报文,使得2台接入的交换机可以同时学习到网卡的ARP/ND,2台接入交换机将ARP/ND转换为BGP路由,向其他设备通告BGP路由。

去堆叠可以保持业务接入方式不变,同时2台交换机之间无需物理关联,并且能很好适配网卡双上联接入。

去堆叠+双平面



去堆叠+双平面是在去堆叠方案的基础上,将交换机划分为不同的转发平面,每个网卡双上联的不同端口映射至不同的网络平面。即2个网卡端口分别接入到不同的交换机,这2台交换机分别接入到不同的平面。

采用去堆叠+双平面的方案,网卡发送端在bond端口发送流量时只要保证流量均分至发送侧的两个端口,那么在接收侧的接入层交换机也一定会收到均匀的网络流量,大幅度降低了哈希极化的发生概率。

同时,基于双上联和双平面接入的设计,使2层CLOS网络的单集群最大拓展规模翻倍,获得整集群通信拓扑简化、降低时延、降低成本等收益。

M-LAG



M-LAG(Multichassis Link Aggregation Group,跨设备链路聚合)是一种跨设备链路聚合技术,通过2台设备连接组成双活系统,控制平面互相独立,交换机之间通过peer-link链路进行通信和同步。M-LAG组的2台设备对外等效为1台设备,该等效设备和下联设备之间通过聚合口互联。

M-LAG架构具有高可靠性,如果一个交换机或链路发生故障,流量可以自动切换到其他正常工作的链路或交换机,从而确保网络的高可靠性和冗余;此外还能使网络拓扑更加简洁,多个物理链路在逻辑上看作一个链路,简化了网络配置和管理。但是M-LAG是私有实现,同组M-LAG只能是相同厂商的设备,跨组M-LAG设备不存在此限制。

E-AP


E-AP ( Enhanced Aggregation Port )是一种跨设备链路聚合技术,它是由多台支持链路聚合的独立设备组成的系统。该系统可以等效成一台设备,与下联设备进行链路聚合,从而将链路可靠性提高到设备级,以满足高可用性场景的要求。当某条链路故障或者设备故障时, E-AP将自动切换数据业务至E-AP组中其他可用的链路或设备上,从而实现设备级的可靠性。

E-AP通过私有协议通信,无需额外增加设备之间的互联链路,就能支持网卡双上联架构。E-AP架构同样具有高可靠性,能支持物理链路的冗余备份,降低单点故障的风险。

VXLAN Multihoming



VXLAN Multihoming是指在VXLAN网络中,一个VXLAN实例(通常是一个租户或一个虚拟网络)通过多个物理网络接口或多个不同的网络路径连接到VXLAN网络,视为相同EVI接入,VXLAN实例表项通过BGP EVPN进行同步。利用VXLAN Multihoming架构技术,在网络中部署VXLAN虚拟网络,从而实现网卡双上联到不同交换机。

VXLAN Multihoming是RFC标准实现,为网络提供冗余连接,支持网卡双上联。VXLAN Multihoming允许网络流量在多个链路之间进行分配,从而提高网络的吞吐量和效率;此外,VXLAN Multihoming具有较高的灵活性和扩展性。




方案比较



我们对不同方案进行了评估,综合考虑了资源占用情况、支持网卡规模、流量均衡、部署难度和运维难度等多个维度,每个方案都有其独特的优势和局限性,选择时应根据具体需求和现有资源进行权衡。

选择最合适的网卡双上联方案需要综合考虑网络架构的当前和未来需求,以及对性能、可靠性和成本的影响。通过仔细评估每个方案的优劣,可以为AIGC网络设计一个既高效又可靠的网络环境



锐捷网络,作为GenAI时代的全栈服务专家,致力于为企业提供覆盖IaaS到PaaS的全栈产品及解决方案。我们的产品覆盖高性能网络与GPU算力优化调度,旨在通过创新技术解决方案,帮助客户实现生产效率的飞跃与运营成本的优化。我们坚信,通过我们的努力,能够为客户打造一个更加智能、高效和可靠的未来。让我们携手,共同探索GenAI时代的每一个机遇。

相关阅读


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AI智算网络两大主流架构及差异分析京东被曝严查考勤,中对美采取反制措施,淘宝PC网页版升级,谷歌将在AI搜索结果中加入广告,这就是今天的其他大新闻!新零售SaaS架构:客户管理系统架构设计(万字图文总结)《原神》《鸣潮》手牵手、双双上演全球屠榜,二者都有美好的未来!UC网盘称不限速,我国医生将基因编辑猪肝植入人体,B站用户平均年龄达24岁,元梦之星回应被起诉,这就是今天的其他大新闻!一双上千,年入80亿!被猛男捧红的网红鞋王,越贵越火如何从多维度、多领域关注“新质生产力”之量子计算发展态势?新零售SaaS架构:开放平台架构设计欧文23+6+3断!绞肉战半场16分价值连城!独行侠扳平总比分!美国婚姻移民深度对比:K1与CR1怎么选蕞合适?推动后摩尔芯片元器件突破:清华学者多维度探索芯片基础问题,基于新材料研发全适配器件加元汇率跌穿地心!央行等不了要先降息!预计今年房价和销量双上涨!电费燃气费双双上涨!新加坡政府又要发钱了网飞版《三体》是不是一个失败InfiniBand与RoCE对比分析:AI数据中心网络选择指南新零售SaaS架构:线上商城系统架构设计蜂窝架构:一种云端高可用性架构技术盛宴 | 浅谈LLM推理性能的影响因子——HBD Size敏捷架构、精益架构,还是两者兼而有之?Luke 23:44-56武汉大学回应开设雷军班;苹果获得可拆卸电池专利;UC网盘宣布不限速看电视连续剧《小满生活》北极光盛宴 汇聚全美多地区极光 色彩斑斓 视觉盛宴大模型压缩量化方案怎么选?无问芯穹Qllm-Eval量化方案全面评估:多模型、多参数、多维度没有完美架构,AI时代架构师如何找到成本与性能的平衡点?InfoQ 中国技术力量之【AIGC 先锋榜单】正式启动征集,洞见 AIGC 产业未来Linux系统多网卡环境下的路由配置Linux 网卡带宽全球低轨卫星通信产业研究:现状与产业发展、布局分析、典型等多维度分析苏纳克凶多吉少,民调显示工党将大比分获胜?!|中国巨头Shein计划赴伦敦上市!荷包又要遭殃!这两种税下月预计双双上调,澳洲政府将获超$10亿税收,澳人大喊“不公平”全民娱乐年代游哈尔滨夏日美景,襄ICOCN学术盛宴3月收盘很强,不知道什么时候回调。2024MWC上海|锐捷网络邀您共赴通信盛宴,倒计时3天!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。