一文带你了解阿里云云网络的十年演进之路
阿里妹导读
一、业务需求驱动网络变革
二、从经典网络到专有网络
安全隔离不足:由于是大二层的网络,虽然默认配置下安全组的策略是禁止互访,但会出现客户自主配置的安全策略范围较大导致的非预期的安全事件。
物理网络强耦合:经典网络机器的ARP(Address Resolution Protocol)信息的获取需要依赖物理交换机,灵活性较差。
地址空间不足:阿里云经典消耗大量私网IP地址,因为经典网络服务器均分配在一个地址空间内,当虚拟机呈规模增长时,会出现地址耗尽无法扩容的问题。
虚拟机迁移域受限问题:云服务弹性可伸缩是衡量云厂商产品和服务优劣的重要指标,这一切都依赖于热迁移。迁移域指的是虚拟机在私网、公网IP地址不变的前提下可以迁移的范围,而经典网络中由于和物理网络强耦合,私网和公网的配置依赖物理网络设备的配置,导致虚拟机无法灵活跨集群迁移和故障快速恢复。
自主规划:经典网络场景下由于IP地址是购买时候已经分配好,客户无法自主选择,客户无法按照自身的实际业务规划和需求进行网络规划,无法有效支持大型企业上云。
三、业务模型带动专有网络底层持续演进
更大的表项:更大分为两个方面:
1. 云网络一个虚拟网关集群上面通常会承载上百万的流表信息,流表包含路由表、虚拟机与物理机对应关系表,转发表,地址映射表,QOS限速表等,假如1个VPC对应最基础的三个表,每个表项内有三条信息,那么上百万个VPC就至少包含了300万个表,900万条信息,而通常一台大型物理路由设备的路由表项在几十万,云网络的控制面流表信息已经远远大于基础的物理网络。
2. 伴随着客户自身业务的增长一个虚拟网络VPC中往往会有持续的虚拟机增长,一个VPC里面甚至会超过5000台VM的规格,这样需要一个流表中能支持更多的表项。
更广的流表:相应的云网络的控制面不仅仅只存在于网关设备上,每一台虚拟机都存在相应的流表信息在物理机上,那么假如一台物理机上有10个虚拟机,一个计算集群有5千台设备的话,一个数据中心内可能存在6个集群那么对应的控制面板需要管理在10*5000*6个单元
更快的生效:云网络中虚拟网络控制面需要支持超过10W VM的虚拟网络,批量变更生效时间的200ms内(一次RTO)。一个用户操作自身的VPC变更,不会对其他虚拟网络造成影响,对于云网络而言客户层面的操作是无序的且不可预预期。
四、内部服务去网关:业务潮汐,南北向流量下沉东西向
五、边界网关硬件化:硬件破局,二八效应下的大象流难题
交换能力:3.2T可编程交换芯片,32*100GE QSFP28网络接口
计算资源:最大支持2个CPU,26 cores per CPU,128GB DRAM
6*PCIE,同时支持FPGA扩展
六、全面拥抱智能网卡:带宽再提升,从软件卸载到硬件卸载
七、业务网元虚拟化:效能与成本,网元全面拥抱云原生
八、小结
经典网络由于安全隔离不足、与物理网络强耦合、地址空间不足、故障域、不满足客户自足规划的特点,促使阿里云演进到专有网络VPC。
VPC控制器的演进的核心目标是满足超大规模网络组网,提供极致弹性的网络管理能力。
内部服务去网元,通过首包查找流表的方式将部分虚拟机之间互访的流量,卸载到东西向,解决了集中化网关的瓶颈。
20%的客户贡献了80%的流量,并且大多数流量是单一五元组的大象流,促使阿里云云网关演进,从x86 DPDK云网关转向可编程的硬件化网关。
单台虚拟机的流量通过智能网卡再突破,阿里云智能网卡也采用快慢转分离的模型。
业务网元NFV化,通过NFV平台的能力实现阿里云业务网元弹性能力,有效节约成本。
阿里云NFV平台的快慢转分离能力使得业务逻辑的开发简化。
附录:
阿里云开发者社区,千万开发者的选择
阿里云开发者社区,百万精品技术内容、千节免费系统课程、丰富的体验场景、活跃的社群活动、行业专家分享交流,欢迎点击【阅读原文】加入我们。
微信扫码关注该文公众号作者