数据中心规模的提升直接导致组网复杂度的跨越式升级。而在新基建大潮之下,企业和社会对各类数字基础设施的需求则有增无减。要让数据和业务在数据中心内畅行无阻,一张能够与数据中心规模相匹配的高效网络是关键。而组建高效网络的第一步便是选对网络架构。伴随数字化转型的深入,“场景化”一度成为近两年的热词。而就在计算和存储设备还在为不同场景的需求和设计绞尽脑汁时,网络的场景化却早已在业内成为共识。正如面对不同的通行需求人们会修建不同等级的公路,工程师们也早已根据数据中心的不同规模和应用规划了匹配的组网方案。两级Clos架构是应用应用较早、较普遍的网络架构,现如今依然是很多行业客户的首选。对于规模总体有限的中小型数据中心来说,借由规格不断提升的交换机,我们仍能以这种简单结构组成可靠的网络。而这也正是两级Clos架构能够在中小型数据中心内大行其道的主要原因。典型的两级Clos架构:AD-DC应用驱动数据中心解决方案在两级Clos架构中,整网设备只有两种角色,此种架构的优点是数据转发路径短,跨Leaf一跳可达,路径和时延具有很强的一致性。统一的接入方式也给上线部署和水平扩展带来了很大的便利条件,例如BGP协议的部署,策略的控制,日常维护和问题排查等。两级Clos架构对Spine交换机的性能和可靠性要求很高,一般采用数据中心框式核心交换机产品。框式核心交换机有独立的控制平面、转发平面和支撑系统,而且采用冗余设计,这使得整个系统在可靠性上远高于盒式交换机。数据中心框式核心交换机从576*10G到576*400G的性能演进两级Clos架构在和商用SDN控制器方案的适配上更成熟,结合SDN控制器可快速构建基于EVPN的网络Overlay方案,降低东西向和南北向服务链的部署难度,满足云场景下网络对VM、裸金属、容器等全形态计算资源联动的需求。另外,该架构也同样适用于大型企业在各地部署的汇聚机房和边缘机房,用于构建边缘计算网络,缓解主干网络压力和降低访问时延。两级Clos架构所支撑的服务器规模一般小于20000台,三级Clos架构的引入解决了两级Clos架构在网络规模上的瓶颈。三级Clos架构在两级Clos架构的中间增加了一级汇聚交换机(Pod Spine),由一组Pod Spine交换机和其下连的所有Leaf交换机一起组成一个Pod,通过Spine层交换机将多个Pod互连组成整个网络。增加Pod的数量即可实现网络的水平扩展,大幅提升了网络的扩展能力。同时,以Pod为单位进行业务部署,在适配多种业务需求、提供差异化服务等方面,三级Clos架构更具灵活性。此外由于高密汇聚交换机Pod Spine的引入,Spine层的框式核心交换机突破了个位数限制,可以部署数十台,Spine层框式核心交换机提供的总端口数可用于连接数十个Pod,整个网络可以支撑服务器规模超过10万台。高密汇聚交换机从32*100G到64*400G的性能演进另外,通过调整Pod内Pod Spine交换机的上、下行端口比例,可以灵活定义每个Pod的收敛比,在满足不同业务需求的同时还有助于降低成本,避免不必要的浪费。互联网企业总是能刷新人们对“海量”一词的认知,无论是在商业模式层面还是在基础架构层面都是如此。每分钟几亿乃至几十亿的业务对数据中心的规模提出了更高的要求,而这也带动了网络结构的再一次进化。基于盒式设备的多平面组网架构,是当前头部互联网公司采用的新架构,用于组建大规模和超大规模的数据中心网络。不同于三级Clos架构中每台Pod Spine都需要和所有Spine层交换机全互联;新架构中的Spine层交换机被分成多组(组数与每个Pod中Pod Spine交换机数量一致),每组中的Spine交换机均可构成一个独立平面,而每个Pod中的Pod Spine交换机只需和对应平面中的Spine交换机全互联即可。这样,整个Spine层便可连接更多的Pod,构建出支撑数十万级别服务器的超大规模网络。并且,随着盒式交换机性能的提升,该架构还可以持续的提升容量空间。同时,由于Spine和Pod Spine使用的设备相同,整个网络在功能性、转发延迟等方面均具备高度一致性。这就为业务部署和网络调优创造了巨大的优势。并且,整个网络从100G组网向200G、400G组网以及后续更高速组网的演进上能保持同步。从以上三种不同规模的数据中心组网方案中我们可以发现,无论何种架构,管理都是一个不可不谈的核心问题。那么,问题接踵而至:如何以更低的成本,实现更高效的网络管理?看得到交通情况,我们才能更好地管理公路;网络的可视化也是高效管理的前提。在实际应用中,网络可视化技术不但能够完成端到端的流量监控、风险预警、协助故障排查;更可以通过数据积累和分析,实现数据中心网络架构的优化设计。交换机+SmartNIC+UniServer服务器的端到端解决方案智能网卡将是DCN网络中重要的组成部分,具备可编程能力的智能网卡在释放CPU资源、实现高性能转发的同时,还拥有隧道封装/解封装、虚拟交换、加解密、RDMA等功能,随着业务场景和需求的增加,越来越多的数据平面功能将由智能网卡来完成,打破了基于服务器或交换机各自实现的局限性,有望做到性能、功能和灵活性的完美平衡。为什么会产生超融合数据数据中心网?
现状:数据中心内有三张网络
数据中心内部有三类典型的业务:通用计算(一般业务)、高性能计算(HPC)业务和存储业务。每类业务对于网络有不同的诉求,比如:HPC业务的多节点进程间通信,对于时延要求非常高;而存储业务对可靠性诉求非常高,要求网络0丢包;通用计算业务规模大,扩展性强,要求网络低成本、易扩展。由于上述业务对网络的要求不同,当前数据中心内部一般会部署三张不同的网络:- 由IB(InfiniBand)网络来承载HPC业务
- 由FC(Fiber Channel)网络来承载存储网络
数据中心内的三张网络AI时代的变化1:存储和计算能力大幅提升,网络成为瓶颈
企业数字化过程中将产生大量的数据,这些数据正在成为企业核心资产。通过AI技术从海量数据中挖掘价值成为AI时代不变的主题。通过AI机器学习利用各种数据辅助实时决策,已经成为企业经营的核心任务之一。与云计算时代相比,AI时代企业数据中心的使命正在从聚焦业务快速发放向聚焦数据高效处理转变。
数据中心正在从云计算时代走向AI时代为了提升海量AI数据处理的效率,存储和计算领域正在发生革命性的变化:- 存储介质从机械硬盘(HDD)演进到闪存盘(SSD),来满足数据的实时存取要求,存储介质时延降低了不止100倍。
- 为了满足数据高效计算的诉求,业界已经在采用GPU甚至专用的AI芯片,处理数据的能力提升了100倍以上。
随着存储介质和计算能力的大幅提升,在高性能的数据中心集群系统中,当前网络通信的时延成为应用整体性能进一步提升的瓶颈,通信时延在整个端到端时延中占比从10%上升到60%以上,也就是说,宝贵的存储或计算资源有一半以上的时间是在等待网络通信。总的来说,随着存储介质和计算处理器的演进,网络的低效阻碍了计算和存储性能的发挥;只有将通信时长降低到与计算和存储接近,才能消除木桶原理中的“短板”,提升应用整体的性能。AI时代的变化2:RDMA替代TCP/IP成为大势所趋,但RDMA的网络承载方案存在不足
如下图所示,在服务器内部,由于TCP协议栈在接收/发送报文,以及对报文进行内部处理时,会产生数十微秒的固定时延,这使得在AI数据运算和SSD分布式存储这些微秒级系统中,TCP协议栈时延成为最明显的瓶颈。另外,随着网络规模的扩大和带宽的提高,宝贵的CPU资源越来越地多被用于传输数据。RDMA(Remote Direct Memory Access)允许应用与网卡之间的直接数据读写,将服务器内的数据传输时延降低到接近1us。同时,RDMA允许接收端直接从发送端的内存读取数据,极大减少了CPU的负担。
RDMA与TCP的对比根据业务的测试数据, 采用RDMA可以将计算的效率同比提升6~8倍;而服务器内1us的传输时延也使得SSD分布式存储的时延从ms级降低到us级成为可能,所以在最新的NVMe(Non-Volatile Memory express)接口协议中,RDMA成为主流的默认网络通信协议栈。因此,RDMA替换TCP/IP成为大势所趋。在服务器之间的互联网络中,当前有两种方案来承载RDMA:专用InfiniBand网络和传统IP以太网络,然而,它们都存在不足:- InfiniBand网络:架构封闭,采用私有协议,难以与现网大规模的IP网络实现很好的兼容互通;运维复杂,专人运维,OPEX居高不下。
- 传统IP以太网:对于RDMA来说,大于10-3的丢包率,将导致网络有效吞吐急剧下降,2%的丢包则使得RDMA的吞吐率下降为0。要使得RDMA吞吐不受影响,丢包率必须保证在十万分之一以下,最好为无丢包。而拥塞丢包是传统IP以太网络的基本机制,传统IP以太网中会使用PFC和ECN机制来避免丢包,但其基本原理是通过反压降低发送端速度来保证不丢包,实际上并没有达到提升吞吐率的效果。
因此,RDMA的高效运行,离不开一个0丢包、高吞吐的开放以太网作为承载。AI时代的变化3:分布式架构成为趋势,加剧网络拥塞,驱动网络变革
在企业的数字化转型中,以金融和互联网企业为代表,大量的应用系统迁移到分布式系统上:通过海量的PC平台替代传统小型机,带来了成本低廉、易扩展、自主可控等优势,同时也给网络互联带来了挑战:- Incast型流量(多点对一点的流量)会在接收端造成流量突发,瞬间超过接收端接口能力,造成拥塞丢包。
分布式架构流量模型示意- 随着分布式系统应用复杂度的增加,服务器之间交互的消息长度越来越大,即流量具备“大包”特征,进一步加剧了网络拥塞。
什么是超融合网数据中心网络的核心指标?
从上一节来看,为了满足AI时代的数据高效处理诉求、应对分布式架构挑战,0丢包、低时延、高吞吐成为下一代数据中心网络的三个核心指标。这三个核心指标是互相影响,有跷跷板效应,同时达到最优有很大的挑战。
三个核心指标相互影响同时满足0丢包、低时延、高吞吐,背后的核心技术是拥塞控制算法。通用的无损网络的拥塞控制算法DCQCN(Data Center Quantized Congestion Notification),需要网卡和网络进行协作,每个节点需要配置数十个参数,全网的参数组合达到几十万;为了简化配置,只能采用通用的配置,导致针对不同的流量模型,常常无法同时满足这三个核心指标。超融合数据中心网络与HCI有什么异同?
HCI(Hyper-Converged Infrastructure,超融合基础架构)是指在同一套单元设备中不但具备了计算、网络、存储和服务器虚拟化等资源和技术,而且多套单元设备可以通过网络聚合起来,实现模块化的无缝横向扩展(Scale—Out),形成统一的资源池。HCI将虚拟化计算和存储整合到同一个系统平台。简单地说就是物理服务器上运行虚拟化软件(Hypervisor),通过在虚拟化软件上运行分布式存储服务供虚拟机使用。分布式存储可以运行在虚拟化软件上的虚拟机里也可以是与虚拟化软件整合的模块。广义上说,HCI既可以整合计算和存储资源,还可以整合网络以及其它更多的平台和服务。目前业界普遍认为,软件定义的分布式存储层和虚拟化计算是HCI架构的最小集。与HCI不同,超融合数据中心网络只专注于网络层面,提供全新的计算、存储互联的网络层方案。使用超融合数据中心网络,不需像HCI那样对计算资源、存储资源进行改造和融合,并且基于以太网很容易实现成低成本的快速扩容。的超融合数据中心网络,基于开放以太网,通过独特的AI算法,可以使以太网络同时满足低成本,0丢包和低时延的诉求。超融合数据中心网络成为AI时代的数据中心构建统一融合的网络架构的最佳选择。
从独立组网到统一融合的组网超融合数据数据中心网络有什么价值?
传统的FC专网和IB专网,价格昂贵,生态封闭,且需要专人运维,也不支持SDN,无法满足云网协同等自动化部署的诉求。- 提升端到端业务性能使用华为超融合数据中心网络,据权威第三方测试EANTC测试结论,可以在HPC场景下最高降低44.3%的计算时延,在分布式存储场景下提升25%的IOPS能力,且所有场景保证网络0丢包。使用华为超融合数据中心网络,可提供25G/100G/400G组网,满足AI时代海量数据对网络大带宽的需求。
- 数据中心投资中网络占比仅10%左右,相对服务器/存储的投资(占比85%),有10倍的杠杆效应,撬动服务器和存储投资的大幅降低;华为超融合数据数据中心网络可以带来25%的存储性能提升,40%的计算效率提升,将带来数十倍的ROI(Return On Investment)能力。
- 华为超融合数据中心网络支持SDN云网协同的全生命周期业务自动化,OPEX降低至少60%以上。另外,由于华为超融合数据中心网络本质上是以太网,因此传统以太网运维人员就可以管理,且可以依托华为智能分析平台iMaster NCE-FabricInsight,多维度地、可视化地对网络进行运维。
上文提到,使用以太网来承载RDMA流量,目前使用的协议为RoCE(RDMA over Converged Ethernet)v2。华为超融合数据中心网络,使用iLossless智能无损算法构建无损以太网络,是一系列技术的合集,通过以下三个方面技术的相互配合,真正解决传统以太网络拥塞丢包的问题,为RoCEv2流量提供“无丢包、低时延、高吞吐”的网络环境,满足RoCEv2应用的高性能需求。
来源:H3C、数据中心场景,三种组网模型
多模态AI研究框架(2023)
大模型算力需求驱动AI服务器行业高景气(2023)
“机器人+” 系列:机器人研究框架(2023)
获取全店资料打包,后续免费获取全店所有新增和更新。
全店铺技术资料打包(全)
转载申明:转载本号文章请注明作者和来源,本号发布文章若存在版权等问题,请留言联系处理,谢谢。
推荐阅读
更多架构相关技术知识总结请参考“架构师全店铺技术资料打包”相关电子书(37本技术资料打包汇总详情可通过“阅读原文”获取)。
全店内容持续更新,现下单“架构师技术全店资料打包汇总(全)”,后续可享全店内容更新“免费”赠阅,价格仅收198元(原总价350元)。
温馨提示:
扫描二维码关注公众号,点击阅读原文链接获取“IT技术全店资料打包汇总(全)”电子书资料详情。