Redian新闻
>
数据烟囱亟需打破,云原生融合数据库雪中送炭|解读云原生数据库的 2022

数据烟囱亟需打破,云原生融合数据库雪中送炭|解读云原生数据库的 2022

科技

作者 | 郑思宇
采访嘉宾 | 矩阵起源创始人及 CEO 王龙
据 Gartner 预测,到 2025 年,基于云原生平台的数字化业务比例将达到 95%,将带来云原生数据库市场的快速增长。毫无疑问,云原生数据库即将成为云上数据库使用的标准范式。

云原生数据库使得传统数据库得以充分结合云服务的免运维、高弹性、高可扩展、高可用、高性价比优势,又顺应了云端应用大爆发的历史趋势,在过去几年成为 IT 领域的大热门方向,但总体仍处于高速发展的早期阶段。过去一年中,企业对于云原生数据库的使用有哪些需求?云原生数据库厂商又该如何满足这些需求?我们将带你回顾 2022 年云原生数据库领域的重要动态以及技术进展。在本文写作过程中,特此感谢矩阵起源创始人及 CEO 王龙提供的宝贵观点与洞察。  
云原生数据库领域的挑战和进展
知易行难,数据库从云服务到云原生还有很长的过程

在过去相当长的一段时间里,云服务中被使用最多的是虚拟机,也就是物理服务器在云端的虚拟化服务。IT 用户享受到的好处是最朴素的自服务、免运维、高可用、高弹性、高可扩展性和按使用付费,当然这些都只是在虚拟机和 OS 层面(Infrastructrue as a service)。

为了更好地满足数据库用户的需求,云厂商开始提供数据库服务(Database as a service,DBaas)。为了降低开发成本和用户的学习难度及应用迁移门槛,最早的 DBaaS 大多是基于 IaaS 的数据库运维自动化,本质是传统数据库系统平移到云端的一种全托管服务,用户看到的和使用的数据库,除了在访问 OS 层面有所限制,其他并无二致。

在云计算(IaaS)成为趋势并逐渐成为 IT 行业的标准基础设施之后,上述这种做法导致的问题便浮出水面:

问题一:数据本身的爆炸式增长,数据库无论在物理环境还是云端虚拟环境,都需要具备更高的扩展性和更强悍的性能。传统数据库的架构由于受限于历史原因,本身具有的缺陷和瓶颈在云端则更加明显。例如,进行性能优化和执行调度时,传统数据库在资源有上限的物理环境中更在意资源的使用率,并且需要投入大量精力来考虑 RTO 和 RPO,那么整个系统就会因此增加复杂度。然而,这种复杂度在云端是没必要的,并且会造成巨大的资源浪费和开发投入。

问题二:随着数字化程度的进一步加深,业务敏捷度也成为 IT 系统最关注的核心指标之一,数据库的弹性能力是支撑应用和业务敏捷度最重要的基础能力。基于物理环境设计的传统数据库,即使平移到云端,也无法充分利用云端计算和存储资源的高弹性能力。例如物理环境和云端环境的硬件特性,包括但不限于吞吐量、读写特性、资源部署时间、资源回收时间以及消耗成本,都是不同的。如果没有考虑到这些不同点,就会严重影响数据库实际的弹性能力。

问题三:由于大多数用户在数据库上的预算增长超过其他组件的增长,使其更加看重数据库服务的性价比。然而,多云部署日益流行的今天,每个云厂商的定价策略,计算、存储和网络资源的计价方式和能力表现都有或多或少的差异。如果仅仅将一个传统数据库平移上云,很难基于这些复杂的因素做出最优的判断决策,也无法达到最优性价比。

因此,用户和市场都需要一款能充分利用云端的计算、存储和网络资源特性,具备真正的高弹性、高可用和高性价比优势的数据库,这就是云原生数据库发展的最核心驱动力。要实现这样的目的,一个基于云环境精心设计、打磨的技术架构是不可或缺的。这就需要长期持续的投入,才能对云环境足够的了解并对数据库生态充分适应。

需求多样,云原生数据库需要跟上现代软件应用的步伐

曾经有一种说法是“软件吞噬世界”,暂且不管这种说法是否正确,但物理世界愈发数字化是一个正在发生的事实。过去数十年,数字化的加速催生了数以亿级的软件,包括手机 App、SaaS 等等,这些软件对数据库提出了各种各样的需求,也驱动全球出现了多达数百种不同的数据库。

十几年前,我们就知道数字化进程的一大阻碍就是数据烟囱(Data Silo),其严重制约了企业的智能化和创新能力,并以几何级数提高了企业利用数据的门槛和成本,一直以来都是企业信息化部门最头痛的顽疾之一。然而,随着云计算、软件应用和数据库的蓬勃发展,非但没有使这个顽疾得到缓解,反而变得愈发严重。为了解决这个问题,在过去数年中,IT 从业者做了多种尝试。

第一种,简单粗暴地投入最强硬件,搭载一款数据库支持所有软件应用。目前,这种方式已经越来越少见了,因为纯硬件的纵向扩展能力是有限的,而软件应用的组合和变化是无穷的,大部分客户无法负担成本变成了最主要的阻碍。

第二种,整合多种集中式和分布式数据库系统,使用统一界面给数据和应用开发者提供各种能力和服务,并隐藏其底层管理运维的复杂度,这种方式常常被称作“数据中台”和“数据底座”。

基于过往多年的实践,虽然证明这种形式在某些领域和客户群体中是有其价值的,但在某些场景下便会出现局限性:一方面,当后台需要整合的数据库系统过多,又或者前台的应用变化过快、过于复杂时,它的运维、管理和开发成本增长会陷入失控,且相比第一种方案会带来数据实时处理性能的瓶颈;另一方面,当用户需求相对较小和简单时,使用这种方案又会过于臃肿和复杂,投入产出不成正比。

第三种,一些成熟的数据库厂商退而求其次,如果不能一蹴而就地整合这么多数据库系统,那么可以尝试在现有成熟数据库系统中添加新的能力,来减轻一小部分数据烟囱带来的痛苦。

湖仓一体、批流融合、HTAP 等都是这种思路下的产物,但融合的挑战也是巨大的。拿 HTAP 举例,由于 TP 和 AP 数据库在过去默认就是服务两个不同的应用团队,由不同的数据库管理团队来维护,因此对安全性、资源共享和性能隔离等都有各自的需求。当融合在一起的时候,想要性能完全隔离,就应该使用完全独立的计算和存储资源;想要资源利用最大化,就应该使用共享计算和存储资源;同时想要获得更低的处理时延,就应该只存一份数据;想要各自都有读写极致性能,就应该存多份数据...... 这里有太多矛盾的技术点,要想找到平衡点来解决上述提到的技术矛盾是一件不容易的事情。

当然第三种尝试还有很多其他类型的方案,这里就不一一列举了。在 2022 年,我们也注意到有众多云原生数据库厂商在朝着这个方向演进:

  • Snowflake 在其年度用户大会 Snowflake Summit 2022 上,宣布推出 Unistore 存储引擎,使得用户在 Snowflake 平台上运行 OLAP 的同时也可以确保数据的完整性和一致性,而这是 OLTP 的核心特性之一。

  • 在 2022 re:Invent 大会中,亚马逊云科技发布了一个新服务——“Zero ETL”,其在后台打通了 Aurora 数据库和 Redshift 数据仓库。用户无需自己开发 ETL,就可以轻松地进行数据分析和机器学习,这更像是数据中台和 HTAP 的结合体。

  • 最近刚刚完成 F 轮融资的 SingleStore,也号称其数据库系统能在云上通过结合事务和分析工作负载,消除了性能瓶颈和数据移动,以支持数据密集要求苛刻的工作负载。

  • 国内初创公司矩阵起源提出的“HSTAP”更为彻底, 将 HTAP 进行了重新定义,融入了串联 AP 和 TP 的 Streaming 能力,并完全重新开发了一款云原生的融合性数据库。目标是让企业只用一款数据库,就能覆盖大中小应用系统的的 TP 和 AP 需求,并能用最高性价比的方式建设好数据中台。

放眼未来,云原生数据库还需要关注基础设施和软件应用的新动向

在基础设施层面,其能力也在不断演进。《2021 InfoQ 年度技术盘点与展望》的“架构篇”里提到。在 2021 年,各个云服务商都在不断拓展 Serverless 产品线的能力。在 Web 应用、微服务、事件处理和批处理任务等场景,Serverless 正在成为最流行的架构。在 2022 年,这个趋势依旧在延续,并且还在不断深化,代表企业有亚马逊云科技、阿里云等,这也意味着 Serverless 已经从概念和愿景逐步演进至落地实践。

Serverless 能更好的提供计算资源的弹性和可扩展性,从而提高应用系统的性价比。对于计算成本占比较多的数据库系统来说,是一个不可忽略的重要技术趋势。同时,能否利用好 Serverless 服务也是架构是否云原生的重要指标之一。相比之下,国外企业的上云速度与规模快于国内,其已经累计了大量的云上数据以及应用场景,可以帮助数据库厂商打磨云原生数据库能力。以 Snowflake 为代表的云原生数据库,目前已经到达了收获的阶段,在 Snowflake 公布的 2023 财年第三季度的财务数据显示,Snowflake 第三财季的总营收为 5.57 亿美元,同比增长 67%。而在国内,Serverless 在数据库中还没有得到大规模应用。

离商用化尚有距离的 CXL 也是云厂商关注的热点技术趋势,此外,GPU、FPGA 等异构芯片在云端的使用也在加速增长,这些对数据库的技术演进也会有较大影响。

在软件应用方面,智能制造、机器人、自动驾驶和元宇宙等新应用还在不断成长之中,数据库厂商也需要关注这些领域的需求增长和变化。这些应用场景相关的图数据库、区块链数据库、时序数据库等也在持续迭代。

云原生数据库值得关注的其他方向

虽然云原生数据库所带来的价值不言而喻,但坦白讲,其也很难形成一统天下的局面。

对于金融、政府这类对于合规安全有较高要求或者定制化需求较多的客户来说,私有化数据库部署的需求还是普遍存在的,但这也并不意味着云原生数据库的增长空间会被挤压。随着数字经济时代的到来,金融、政府等机构还有很多个性化的业务依旧需要部署在云上。

那么在这种情况下,混合云架构是很多企业的首选,据 Cisco 发布的报告显示,在全球混合云趋势调查中,82% 的受访者目前使用混合多云架构来支撑其应用程序,并表示混合多云架构能够使组织实现更敏捷和高扩展性的开发环境,同时加速业务敏捷性和创新。

云原生数据库厂商若想帮助这些企业管理好数据,让他们更好地进行降本增效、实现创新,就要求数据库架构既能能兼容不同的公有云,也能够进行私有化部署,并且还要保障云上和云下的用户体验一致,数据可以自由的、低成本流动。这就对云原生数据库提出了更高的要求,既能充分利用云上的资源及其特性,也能高效地利用私有数据中心的资源及其特性。从这个角度来看,数据库云原生的下一步或许会是异构云原生,即数据库无论部署在公有云、私有云、物理服务器上都要有统一的技术架构并且共享调度数据和资源

除此以外,DB 和 AI 的结合也是一些团队正在研究的方向,主要分为 AI for DB 以及 DB for AI 两类。

第一种模式是 AI for DB,即利用 AI 算法帮助 Database 提升产品能力。比如通过分析数据库日志或者视图,得出数据库的性能表现,然后去动态地调整数据库参数,来达到优化数据库性能的目的。此外,还可以在数据库中利用一些 AI 算法来进行内核优化、运维优化等。

另一种模式是 DB for AI,即在非结构化数据日益增多的情况下,为分布式数据库提供 AI 分析的能力。目前来看,由于传统的应用开发工程师、数据分析师与 AI 工程师在企业是分割开的,后者还处于探索阶段。但相信随着数据库人才与 AI 人才的交流,共性的需求会变得越来越多,比如如何对数据做预处理、做初步的建模等等,待这些知识融合到一定程度时,必然会出现一个系统来满足他们的需求。

云原生数据库的选型建议

虽然国内数据库的发展相比国外起步得要晚一些,但凭借着后发优势、业务环境等因素,国内数据库市场也逐渐呈现出百花齐放的态势,粗略判断,目前云原生数据库数量已达到几十甚至上百种。

因此,企业在进行选型时,首先要考虑清楚自身选择云原生数据库的驱动力是什么,既要让云原生数据库的特性与自己的业务类型相结合,又要与自己的团队能力进行匹配,是更看重低运维自治,还是更看重资源的弹性扩展,或者更看重性价比,需求不同往往会做出不同的选择。为了避免踩坑,也需要考虑厂商的技术实力和周边生态支持的能力。

其次,企业在选型时还要做好中长期的规划,绝对不要低估数据烟囱对未来业务的影响。随着企业的发展和数据规模的不断攀升,数据库带来的成本增长会远超于业务应用的成本。如果提前做好规划,在数据库的选型与后续建设中就可以做到游刃有余,将来的数字化道路就会事半功倍。比如,由矩阵起源打造的新一代超融合异构云原生数据库 MatrixOne,便可以帮助用户降低数据的使用难度,提供极简的使用体验,让企业可以将精力从繁杂的技术细节中释放出来,最终达到降本增效的目标。

写在最后

回顾这一年,云原生数据库领域依然在稳健高速的发展中。云原生数据库依然还需要时间来达到成熟,但无论是使用创新架构来更好地使用云上资源,还是融合多种能力更好地服务数据应用,各云原生数据库厂商都在沿着帮助客户降本增效的初心,持续进化中。

采访嘉宾:

王龙,矩阵起源(Matrix Origin)创始人及 CEO。曾任职腾讯云副总裁,管理数百人的大数据和人工智能团队,从零构建腾讯云 to B 大数据人工智能产品矩阵和商业化体系,三年内完成产品线从百万到十亿级收入的飞跃。王龙之前在美国硅谷和德国慕尼黑工作过,也在北京上海有过创业经历。他具有多年跨国企业级产品建设和商业化经验,对于云计算、大数据、人工智能和多个行业应用场景有着丰富经验和深刻认识。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
透视华为云云原生数据库的前世今生及未来演进,能给行业带来哪些启发?用云原生思维践行云原生,你做对了吗?数字视网膜芯片,云端实时AI高清视频处理,编解码融合架构,极致降本增效实践哭了! 综述写的太烂被导师骂了一个小时,这份综述教程简直是“雪中送炭”......2023云原生之战吹响号角,All in Serverless的阿里云先行一步腾讯:进入全面云原生时代,云原生到底是个啥?重写 50 万行代码,从 0 自研的云原生 HSTAP 能否成为数据库的未来?| Q推荐【霜降】浅谈季节性抑郁症从 JS 到全生态,云原生时代下的前端成长演进之路 |展望前端工程师的 2023开车去纽约-看不尽的秋色争相上市、抢夺本土市场,未来三五年数据库将迎来大洗牌 | 解读数据库的2022秋冬刚需打底衫来啦,自带Bra,丝滑柔软,内搭外穿都好看Andy教授解读数据库的2022:大规模数据库投资大幅放缓、区块链数据库仍然是一个愚蠢的想法德州车主真牛!18轮卡车冰路被困,越野车队雪中送炭来救援静闲(对联)亟需打通防疫新政的最后一公里数据库“焕然新生”:架构视角下,云原生数据库的创新实践 | Q推荐边缘原生与云原生 协而不同——2022边缘计算产业峰会即将启幕对话甲骨文副总裁谢鹏:全面数智化时代,云和数据库该怎样融合发展?大数据技术演进实录:云原生大数据、湖仓一体、AI for Data,未来“谁主沉浮”?| Q推荐CnosDB 2.0 产品发布会预告:一切为了万物智联,用 Rust 打造云原生时序数据库 | Q推荐re:Invent全球大会全回顾:硬件创新、全面无服务器、云原生数据战略畅游法国(31)-富豪游乐场前沿开源技术领域解读——开源云原生开源“摩尔定律”即将打破,《2022开源大数据热力报告》重磅发布多模数据库、“Serverless 化” | 开源数据库领域解读每年只需打一次!FDA考虑简化新冠疫苗接种直面成本“刺客”、拒绝繁杂技术花样,压力之下云厂商改变方向|解读云原生的 2022说走咱就走,上下羚羊谷 (有照为证)超融合数据中心网络解决方案坐二望一,亚马逊云科技引领云原生数据库大航海时代无需打分的阿省雇主担保移民,助您圆梦枫叶国!2022 年数据库发展总结:中国和海外数据库差距还有多远?阿里云已将 Serverless 数据库大规模落地,这是否代表着数据库的新风向?德检讨错误,给乌雪中送炭?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。