从用云焦虑到“深度云化”,新云原生时代带给我们哪些思考?| Q推荐
据 Gartner 预测,到 2025 年,云原生平台将在超过 95% 的新数字计划中作为基础,而此前 2021 年的数据只有不到 40%。这说明,今天的云原生关键词,正从“构建”、“落地”,逐步转变为“协同”、“优化”。“如何深度云化”是大家关注的重点。中国信息通信研究院云计算与大数据研究所副所长栗蔚预测,2023 年我国云计算行业应用将从“资源上云”正式迈入“深度用云”。
2 月 17 日,由 CNCF、中国信通院、华为云联合主办的创原会·云原生技术创新峰会在四川成都举行,超过 150 名云原生领域的专家学者、创新企业和机构代表齐聚一堂,就深度云化的前沿技术趋势、产业机遇和创新实践展开交流。
会上,华为云 CTO 张宇昕发表了主题演讲,并正式提出华为云在云原生领域的核心技术主张——上好云、用好云、管好云,成就新云原生企业。其中“管好云”的概念,首次得到如此重要地阐释。
张宇昕表示,随着越来越多的企业从“搬迁上云”走向“深度云化”阶段,云上的数字化价值将得到真正释放。在这一过程中,“用好云”和“管好云”成为了企业数字化进程中的一体两面,企业不仅要投入于应用现代化、数智融合的“创新”实践,也要关注 IT 治理、云上安全、成本优化、确定性运维等“精益”方面的挑战。
例如,企业在上云前会担心用云的效率、成本、安全等;上云后会担心云上资源怎么管?如何提高利用率?云上和线下的业务资源如何协调?管理体系该怎么建设?应用和数据改造后怎么运维?如何应对无处不在的安全和稳定威胁?一言以蔽之,云原生其实就是企业全方位的数字化变革,在这场“新云原生企业”的蜕变中,企业内所有的部门都将迎来转型。
在这一语境下,“管好云”已不仅仅是字面意义上的管理问题,更是企业对崭新技术体系、数字思维的二次理解问题。云,作为底座支撑起门类繁多的根技术、现代化应用,几乎重构了现代企业的技术基础,让“用好云”与“管好云”成为所有企业跨越数字鸿沟的一次必经考验。
谈到上云,不少企业的首要关切就在于成本。
对云成本的最早担忧,大概来自国外部分企业在发展中的“下云”冲动,他们表示,对于一家增长稳定的中型企业来说,租赁基础设施资源有时候会让管理者承担不少额外的云支出。
对于业内人士而言,这一问题并不难解答,“下云”的冲动,大部分归结于对云原生以及企业隐形成本的理解、估算不足——首先,云原生不是简单的“租赁基础设施资源”;其次, 由于云上的资源是共享的,通常单个集群可以托管多个工作负载和应用,但云厂商的账单并不会体现每个工作负载或应用消耗的资源。这意味着,多个团队如何利用或共享基础设施,往往难以被精准测算出来,因而产生了资源配置策略设置不合理、计量方式不够灵活等问题,从而导致成本浪费。Flexera 的 State of the Cloud Report 显示,部分企业的云上开支浪费明显,超过 30% 的云花费用属于“无效”开支。
此外,云本身也存在“超支挑战”。根据 InfoQ 此前的报道,从 2020 到 2021 ,近 40% 的公司在云计算服务上预算超支,在预算为 200 万~1000 万美元的企业中,近半数(46%)出现了超支。三分之二的已超支受访者预计,新一年内云预算将继续超支。关于超支理由,该报告 29% 受访者给出的理由是内部事项优先级的转换, 21% 的受访者将超支与新冠疫情临时上云联系起来。也就是说,50% 的原因与技术无关。
于是问题开始变得微妙起来——根因越来越复杂模糊,账单上的数字却醒目刺眼。要真正的用好云、管好云,首先就要解决此类云成本问题。
除了云成本挑战,云安全挑战同样是这两年行业关注的焦点。无论是 2021 年底的 Log4j 核弹级漏洞带来的行业震动,还是 Kubernetes 由于自身复杂性导致的人为事故频发,都给全行业敲响了“数字安全”的警钟。
据统计,2022 年全球勒索软件事件达数千万次、平均每事件的损失达百万美元以上、全球新增安全漏洞超过 23900 例。以华为云为例,每年云上防御超过 1000 亿次的网络攻击,10 亿次 DDOS 攻击、最高攻击流量高达 3T,1 亿次的账号暴力破解。
数字背后反映的是,数字化时代,每家企业可能面临同样的攻击。随着千行百业开始步入数字化转型的“深水区”,如何以云为基础,构建更加安全可靠的数字体系?
云时代也对 IT 运维提出了新的挑战。过去,传统运维工程师只需要面对单个机房或者 IDC,去处理服务器、网络等硬件设备。但是在当前这样一个涵盖了私有云、公有云、虚拟化平台、容器平台的多维度、多云协同环境下,技术迭代、人员技能、产品更新的不确定性,成为了行业面临的共同挑战。
一方面,云上的物理设备不可见,这对运维人员的认知转变提出了较高的要求;另一方面,云原生下的业务系统由单体变成了多个虚拟的微服务,用传统的 IT 思维已难以全面掌握业务整体运行状态。而多云环境则加剧了这一问题,也对运维人员的技术提出了更大的挑战。除此之外,部分企业手工运维导致的效率、安全等问题也层出不穷。
另外,随着企业业务的调整发展,对数字化系统的可靠性、稳定性等方面的需求剧增,传统模式下基础设施运维与应用运维团队割裂,无法有效协同守护 SLA 目标。
资料显示,仅 2022 年一年,IT 领域重大恶性事件超过 40 起,平均恢复时长超过 4 小时,传统的 ITIL 体系已经无法适用于云原生时代,亟需构建一套全新的运维体系。
传统的 IT 管理体系,在云时代的新技术需求下同样面临挑战。相比传统模式,云上的 IT 治理更重视数字转换相关的要素,重点关注整合和治理应用程序、数据和基础架构之间的互动、数字业务流程的协调与打通,以及运营可扩展性、安全性和可操作性等概念。尤其是随着多云、混合云等概念的出现,企业的 IT 治理难度进一步加大。
从企业管理视角来看,当业务发展加快,众多业务单元(如子公司、事业部、部门等)遍布在不同的领域和地域时,一方面要对业务单元进行管理隔离,另一方面又需要进行集中管控,没有建立行之有效的 IT 治理体系,导致云上资源、数据和人员等要素的管理失控,进而很容易导致成本和安全失控。
除此之外,近几年不少企业正逐步从单一应用上云转为全面深度云化,虚拟机数量、存储容量、业务单元数量、应用数量、访问云资源的用户数量等上升了多个数量级。大规模上云的背后,企业如何做好业务多维度管理、数据安全合规和数字治理体系建设,对于 IT 管理团队而言是一次业务“蜕变”挑战。
如今,针对上述伴随“深度云化”涌现出的新挑战,行业内已进行了大量探索。
在精益用云方面,紧随着云成本“不可知”所带来的成本焦虑,FinOps 开始崭露头角。FinOps 本质上是把财务和整个架构技术结合在一起,弄清楚各业务对云服务使用的具体账目,然后提升资源利用率,减少成本消耗。根据信通院发布的《中国 FinOps 产业发展现状研究报告(2022 年)》,IT 资源精细化运营管理已被广泛提及,六成企业已经了解或听说过 FinOps 相关理念,其中两成企业已经实际展开 FinOps 相关实践。
而云厂商们也在不断扩展和增强他们的成本管理服务,帮助他们的客户更好地管理 IT 资源及成本。比如亚马逊云科技推出了 Amazon Billing Conductor,这是其云财务管理解决方案的一部分;谷歌云也推出了计算引擎暂停 / 恢复功能和无人值守项目推荐器;华为云则更进一步,基于 FinOps 理念构建了端到端的、涵盖计划、控制、分析、优化的成本运营能力,帮助企业实现一站式成本管理、多维度成本分析、精准实时成本预测、多样化成本优化。
“企业的CEO、CFO可能会关注,数字化转型能实现这么多创新,有这么多数据化需要变革,那它的成本是不是可控的?未来成本的投入是不是无底洞?”张宇昕指出,针对这一痛点,华为云 FinOps 的出现,就是为了帮助企业提升云化的成本效益,构建完整的云成本运营能力,企业据此可以建立一套云成本运营的机制和流程,持续进行成本优化,不断提升成本效益。
除了 FinOps 外,“多云”架构也正在成为越来越多企业实现 IT 资源精细化运营、节省成本的选择。2022 年,国内外行业领导者们不断围绕“多云”这个话题发起具有前瞻性的讨论。借助多云架构,企业的成熟“现金牛”业务可以部署于自有云原生基础设施之上,从而降低在数据安全性和低延时流水线上的成本;另一方面,企业希望通过借助多个公有云的服务,新产品和业务能够“弹性”地拥抱新技术和生态,并且借助多个公有云也能使企业在满足合规性的同时,低成本快速将业务拓展至别的国家和地区,从而在市场上取得先机。
张宇昕表示,未来,随着云成本管理的精益化加深,FinOps 有可能会与多云管理结合,作为多云管理的一个模块。
在云安全方面,业内也有不少新的探索。比如,在开发阶段,华为云采用 DevSecOps 软件安全开发流程,通过安全左移,结合代码级安全深度测试,提前发现漏洞、修复漏洞,防范于未然;在运营阶段,基于“三分建设、七分运营”理念,华为云通过一个中心 + 七层防线的云原生统一安全架构,构建立体化、智能化、自动化的安全防御机制。华为云以安全云脑为中心,帮助实现一键安全合规、一屏全面感知、一云全局分析、一体全程处置,让企业安全运营效率实现 10 倍提升。
在 IT 运维方面,可观测性和 AIOps 智能运维正发挥越来越大的价值。近两年“可观测性”讨论热度颇高,它为开发人员和运维人员构建了合作的桥梁,Gartner 在 2022 年度的基础设施和运维自动化技术成熟度周期图里,把“可观测性”放在膨胀期波峰最顶端位置,可以说是风头正盛;无独有偶,AIOps 成为了 IT 运维领域另一颗明珠,当企业云化不断加速,应对重复冗杂的运维活动,引入智能算法的 AIOps 则有机会帮助企业进一步解放生产力,提高运维效率,赋能业务创新。
在华为云看来,可观测性、AIOps 都只是工具或手段,对业务而言,最终希望看到的是运维的确定性,由此提出了“确定性运维”的实践方向,希望通过全站可观测性、故障快速恢复、管控变更风险、韧性评估优化、一体化运维管理等方式,帮助企业将不确定性的运维风险变为确定性运维管控。
此外,随着 DevOps 的大热,业内开始出现一些新的观点:DevOps 要求开发运维交付一条龙,当开发者将精力分摊到运维中去后,必然会影响开发周期,同时如今的云原生生态已经覆盖了海量不同类别的工具,这些都大大增加了开发者的认知负担。
基于此,新兴技术“平台工程”(Platform Engineering)越来越受关注和热议。平台工程旨在通过减少现代软件交付的复杂性和不确定性来提高开发人员的生产力。有观点认为,平台工程是云原生软件交付的一个重要转向。Gartner 在其 2022 年 8 月发布的软件工程炒作周期中添加了“平台工程”,并将其列为企业机构 2023 年需要探索的十大战略技术趋势之一。据 Gartner 预测,到 2026 年,80% 的软件工程组织将建立平台团队,其中 75% 将包含开发者自助服务门户。不过当前国内真正在实践平台工程的企业尚属少数。
过去几年,在全球经济换挡和互联网经济转型的大背景下,云原生技术的蓬勃发展对全行业而言都称得上是一个“小确幸”。当然,经济下行等因素也给到了企业更多理性思考的空间,据 InfoQ 的观察和与行业专家的探讨结果来看,接下来无论是云原生技术的演进,还是产业实践,都会往更务实的方向发展,更聚焦于解决具体的问题,从数字化中要到真正的业务价值。
如前文提到的云成本、云安全、确定性运维、IT 治理体系等相关技术实践,都是对于企业场景的需求而思考诞生。这本身就是深度云化的标志性特征,是一件好事。如果行业仍然是上了云就万事大吉,没有针对相关问题推进解决,反而才是一个值得忧虑的问题。
从云原生技术的发展趋势来看,未来可能会更进一步渗透云虚拟化层,成为下一代操作系统层级的基础设施;向上则可能更深层次地融合并赋能开发、运维、数据库等云产品。“服务”的概念会进一步加深,关注云产品本身对业务的友好度、对开发者的友好度,降低软性的研发成本,兼容更多接口和基础设施。这又是“深度云化”的另一条必经之路。
虽然据 Gartner 新兴技术成熟度曲线预估,完成上述技术基础建设和行业普及,至少还需要 2-5 年,但随着数字化转型的进一步深化,会有更多的企业接入云端,这极大可能会加速云服务的进化。
在数字化浪潮技术百花齐放的趋势下,也许极少有行业能如云计算一样,在技术与商业的双轮驱动下,始终将“客户服务”放在第一位,由技术方牵头布道新理念、并在与行业痛点结合下,持续迭代新的解决方案。
从 2020 年首次面向业界提出云原生 2.0 概念,到持续探讨“深度云化”实践,再到 2023 年全面阐释“上好云、用好云、管好云,成就新云原生企业”,华为云正在将云上创新的路径与理念不断清晰化。正如张宇昕所言,上云只是第一步,只有深度云化,上好云,用好云,管好云,以云原生思维践行云原生,才能真正释放出云的价值。相信这样的模式将成为表率,在未来牵引更多企业加快数字化转型,加速产业变革。
微信扫码关注该文公众号作者