面对频变的企业需求,云基础设施的性能可以拉升到什么样子?
随着云计算技术的高速发展,如今企业对于上云的态度似乎已经非常明确——必须要上。但当我们放眼全球市场,相关报告称,“云”在企业的渗透率可能只有 10%,而在国内,这个数字或许还到不了 10%。这个数字向我们传达出来的信息是,企业对于上云这个事情,虽认可但执行力不足,而这背后的原因值得我们深入探究。
4 月 18 日,2023 春季火山引擎 FORCE 原动力大会在上海外滩圆满落地,这是一场云计算和数字化领域的盛会。火山引擎在行业实践基础上再次进化,本次大会围绕“敏捷迭代”、“数据驱动”、“体验创新”三大增长要素,重磅发布了在云计算领域的最新技术和产品。作为每年的行业标志事件,本届大会火山引擎释放出了许多行业信号——企业在获取数字化转型原动力时,对“云”又提出了哪些新要求?火山引擎的敏捷迭代历程映射出了企业哪些需求变化?
首先可以肯定的是,多云环境是企业的刚需,只是需求各有不同。在上云后,对于传统企业来说,业务已经普遍趋于成熟,爆发式增长不再是核心目标,稳定是业务侧的第一诉求,可能还会保持单云架构,对于这种情况,云厂商的主要任务就是维持老架构平稳运行,实现降本增效。对于有明确增长需求或者比较新型的业务,企业肯定会布局新的技术领域,这就对云厂商的“弹性”和快速迭代的敏捷性提出了挑战。
“敏捷迭代”并不是个新概念,2010 年后,它就成为了技术圈的“热词”——也难怪,企业若想跟得上互联网行业日新月异的变化,就必须在技术、业务层面通盘贯彻“敏捷迭代”的思想。十余年来,随着行业及相关方法论的成熟,“敏捷迭代”也成为了企业最核心的诉求。
作为“敏捷迭代”思想的坚定支持者,火山引擎主要围绕两个策略展开——“云”和“增长”,而这也是当前所有云厂商必须要解决的事情。企业上云后不一定所有业务都是持续增长的,这就需要做好“弹性”来应对企业需求,同时“云”代表着资源,如何在已有资源上去做好增长是企业最关心的事情。我们当前能看到的,火山引擎为了应对市场需求,很早就已经开始做一些增长类的产品,而依托字节跳动天然的数据优势,火山引擎数据产品确实做到了将自己的能力转化为赋能企业业务发展的能力。
具象一点讲,从云基础方面,火山引擎自 2021 年底正式发布第一代产品起,平均一年就会进行一次迭代升级,这个速度在业内是非常快的。据了解,火山引擎的第一代产品在还没发布前就经历了三次大迭代。最初他们通过开源方案来搭建技术体系并支撑架构的快速迭代,后来随着业务的发展,开源方案已经无法满足字节跳动的需求,团队便基于开源的调度方案,在软件层面做了许多重构,比如将许多底层软件的调度引擎换成自研引擎,在 IaaS 层将整个虚拟网络的引擎换成自研引擎等。
至 2021 年正式发布时,火山引擎已经基本完成了对公有云初代软硬结合架构的自研。到今年,该架构已经经历了三次大迭代,第一代主要是基于英特尔的 Cascade Lake 处理器;第二代是基于英特尔的 Ice Lake 处理器;第三代基于英特尔第四代英特尔® 至强® 可扩展处理器。其中比较有代表性的就是火山引擎 DPU ,DPU 是其自研的一个硬件,同时火山引擎还开发了与其配套的存储软件、网络软件、调度软件及网元网关,力求做到“自研适配”。而在本届火山引擎 FORCE 原动力大会上,火山引擎又在公有云方面围绕稳定可靠、弹性灵活、性能优越、操作便捷的弹性计算发布了多个实例——基于火山引擎自研 DPU 的弹性计算实例及 SPOT 实例。
在整个敏捷迭代的过程中,我们可以清晰地看到火山引擎为了满足企业不断变化的需求而做出的敏捷响应。比如面对企业对云原生能力的需求,火山引擎的 PaaS 层产品结合 ECS,帮助企业将原有的云原生能力实现快速迁移;针对企业对 AIGC、ChatGPT 的应用需求,火山引擎基于“云”快速迭代自己的 AI 能力,快速赋能自动驾驶相关企业发展。
新网银行和晶泰科技便是火山引擎的两大典型实践。火山引擎帮新网银行在线下部署了混合云方案,使其在满足安全合规的要求下,体验到公有云弹性的同时还达到了降本增效的目标。而晶泰科技作为算力需求比较多的一家企业,火山引擎作为其多云环境的供给商,从引擎等方面给了多方面支持,晶泰科技得到了高性价比及与传统调度相同的用户体验。
火山引擎总裁谭待曾指出,“现在中国处于高速发展中,尤其在移动互联网,我们已经走在了世界前列,现在能做的就是不断快速试错,找到创新的方向,唯快不破。”那企业问谁要这个效率?答案其实很简单——云厂商。
企业的需求一直在随着业务的发展不断变化,追求敏捷的主要表现其实就是性能的不断拉升以满足业务需求。在赋能更多企业上云,做数智转型这件事上,我们看到火山引擎下了不少功夫,比如从 2023 火山引擎原动力大会的新实例发布中,我们就能看到很多东西。
先说基于火山引擎自研 DPU 的弹性技术实例,其真正做到了软硬结合的同时追求极致性能。在百万服务器的规模下,每 1% 的性能提升都是巨大的成本优化,火山引擎自研的硬件 DPU 实现计算存储网络的全组件卸载,释放更多资源给业务负载,提升算力基础设施效率,性能拉满——全面加速计算、存储、网络云化,网络性能业界领先,整机包量 5000 万 pps,时延低至 20us 。
因为有自研 DPU 的支持,使得存储、网络性能实现上由原先的软转逐步切换至硬转,核心价值是能突破之前软转的性能瓶颈并且节约服务器 Host 上的 CPU 以及内存资源,解决了企业对服务器该方面性能要求越来越高的行业痛点。在实例中,火山引擎使用字节跳动自研的虚拟交换机 BVS 配合自研 DPU,其主要是针对自研 DPU 做了一个适配,使 DPU 做到了更高的转发效率和转发带宽的同时,还有更低的网络时延。
其次,火山引擎在本届大会上发布了基于 DPU 的裸金属实例,该实例更加适用于大模型等大规模集群分布式训练场景,其可以提高集群并行效率,相较于上一代实例集群性能最高提升 3 倍以上。事实上,火山引擎在弹性裸金属实例的研发方面早就有一定的经验,此次结合高性能 RDMA 网络的新实例开发,主要是针对业务场景做的“性能”、“可靠性”、“故障处理”等专项优化开发。比如在 RDMA 网络的性能调优、整机的带内外监控、故障 & 亚健康感知以及冷迁移等能力,以满足大模型训练场景对于性能和稳定性的极致追求。据悉,当前异构计算 GPU 实例已交付多个客户,规模已达到数百台。
此外,火山引擎还发布了 DPU+Intel 全新一代 SPR CPU 平台的计算实例,整机性能最高提升 93%,单核性能最高提升 13%,小规格实例性能最高提升 6 倍以上。我们可以从本届火山引擎 FORCE 大会上发布的弹性计算实例中发现,火山引擎软硬结合追求极致性能,英特尔提供了不少支持。
通过采用最新第四代英特尔® 至强® 可扩展处理器,火山引擎弹性计算在整个的单核能力、网络转发能力、加解密、视频和 AI 推理训练能力上都有了大幅提升。从内外部整体来看,火山引擎与字节跳动也会在新一代产品中采用比较激进的策略,转至到更具性价比的产品上来,这一策略从 4 月 12 日刚刚在官网上线邀请测试的火山引擎 g3i 产品中体现得淋漓尽致。
g3i 是火山引擎 ecs 最新一代 Intel 通用计算实例产品,其拥有火山引擎全新自研的智能网卡架构、自研网络 / 存储虚拟化技术,大幅提升了实例 I/O 吞吐能力。从机房建设、物理网络等基础设施层面,其采用高可用设计,采用丰富的故障规避手段,使该产品表现出了较高的稳定性。该实例产品搭载第四代英特尔®至强® 可扩展处理器,整机性能最高提升了 93%,英特尔从四个方面帮助其实现了性能突破:
工艺:第四代英特尔® 至强® 可扩展处理器采用了英特尔最新的 Intel 7 制程技术,从 14 纳米走向了 10 纳米,整个晶体管的密度增加了 2. 7 倍,算力进一步增强的同时,带来了更高的能耗比。
系统架构:全面升级为 DDR5 内存的第四代英特尔® 至强® 可扩展处理器,进一步增加内存带宽,同时通过 PCI-E 5.0 和 Compute Express Link (CXL) 1.1 增加 I/O 接口带宽。
智能计算:第四代英特尔® 至强® 可扩展处理器通过软件定义,硬件加速的方式,将数据加解密,AI 推理,内存数据处理等特定的处理流程通过内置相关加速器来实现,将目标工作负载的平均每瓦性能提升了 2.9 倍,为 g3i 提供了智能计算支持,追求高效的同时降低功耗,确保将 CPU 资源释放出来给最终用户。
软件加持:对基础设施平台进行优化,将底层硬件的加速器以服务 /API 的方式提供给上层应用,同时对上层应用进行优化,充分利用底层的硬件能力,实现底层平台和上层应用端到端的结合,端到端地优化,底层基础设施赋能上层应用,上层应用感知底层设施能力。
而这也验证了火山引擎云基础产品负责人罗浩和英特尔大数据资深首席工程师程从超在接受 InfoQ 采访时说到的——“彼此多年的紧密合作中,英特尔最大的优势就是生态赋能和全栈优化。”有消息称,在当下合作基础上,计算密集型、内存密集型、I/O 密集型以及 HPC 的场景实例,火山引擎未来都会切换到基于第四代英特尔® 至强® 可扩展处理器的引擎上,用以帮助游戏、汽车、医药、金融等行业,在内外部共同释放算力并提升性价比。
目前在国内,云市场是一个非常蓬勃的市场,也是一个充满竞争活力的市场。各家云厂商都有自己的特点,但在这其中,火山引擎这朵新云显得更加与众不同。新云代表着新气象,火山引擎的云没有“历史包袱”,其无论是公有云还是混合云,从最初就是同一个用户体验、同一套架构。无论是从云上资源还是从线下部署方面,用户的使用体验和后面的运维体验几乎都是一模一样的,同时适配了许多新业务场景。
在本届火山引擎 FORCE 原动力大会上,火山引擎除了“敏捷”,提到最多的就是“场景创新”,从企业业务需求出发,火山引擎的新产品发布、版本升级及布局,还向我们传达出了一个新的信号——企业需要更多的“创新”来解决“新需求”。
从网络方面,如果我们想要更好地探讨云的性能,那就一定要谈网络能力。不同业务场景下的网络能力可以分成三类,第一类是普通业务,只要网络能达到通用的水平即可,它的能力主要体现在带宽、时延及并发方面;第二类则涉及到大规模集群类的业务,这类业务对于东西向网络流量和带宽时延都是比较敏感的;第三类便是对南北向网络流量比较敏感的的业务,它会大量消耗带宽。对于云厂商来说,面对以上不同的业务场景,就需要提供不同的解决方案。总结火山引擎在本届火山引擎 FORCE 原动力大会上实例发布中表现出的网络能力势能,主要有以下五点:
全栈自研架构,实现技术自主可控,驱动产品快速迭代,满足企业不同组网场景下对于网络高性能、高可用的诉求;
自研控制器、自研 vSwitch 与自研 DPU 的软硬一体架构,提供业内一流水平的主机网络转发性能,整机包量高达 5000 万 pps,时延低至 20us;
面向大规模云原生场景,单 VPC 可提供 100 万私网 IP 地址,ENI Trunking 可 7 倍提升单 ECS 实例网卡数最高至 120 个,以应对海量容器弹性扩展;
自研通用 NFV 平台,基于快慢速路径分离架构设计,提供具备弹性扩展、故障隔离、极致性能的网元产品,解决了企业网络容量规划痛点;
核心产品矩阵对标一线厂商,全新的中转路由器 TR、私网连接 PrivateLink 产品,满足企业级用户高阶组网诉求,同时提供网络管理策略与安全访问通路。
从云原生基础设施方面,云原生正在成为企业的数字“新基建”,而要用好云原生,不仅仅是支持容器和微服务器这么简单,需要云厂商提供云原生全套构建方案。在这方面,火山引擎做到了在云上可以秒级启动大规模、高密度的容器实例,并且基于火山引擎的自研 DPU 服务器进一步提升性能和运行效率;通过云原生把业务负载和大数据、AI 计算等融合在一起,并通过大规模池化技术,实现存算分离,混合调度,同时针对不同行业进行个性化需求满足;在安全层面,火山引擎的容器网络微隔离技术性能非常优秀,容器安全能力充分适应 DevSecOps 流程,将安全能力嵌入到业务开发的各个环节中。此外,火山引擎通过镜像预热、镜像缓存、P2P 传输等功能,实现超大镜像秒级加载,达到数百节点分钟级自动扩缩容,可以为企业提供高性价比的算力资源。
火山引擎在自研网元、自研 DPU 等技术方面带来的领先性的计算实例性能突破,为企业解决了大规模部署下的性能瓶颈。就媒体视角的长期观察来看,火山引擎云基础技术自研到商业化落地成功的关键,主要还是在于客户价值。从大会上火山引擎推出的第三代实例来看,整体的性能拉升其实都是满足客户技术需求的同时还做到了性价比,火山引擎的云基础能力肉眼可见地一代比一代好。从技术自研到产品化,到客户侧的落地实践,整个过程中火山引擎都表现出了坚定的决心,就像罗浩表示的那样,“我们自己吃自己的'狗粮’,我们推出的产品都是在字节内部的业务上做完实践后,再给其他企业去用。”
微信扫码关注该文公众号作者