近日,OSCHINA 和 Gitee 联合发布了《2022 中国开源开发者报告》。
其中 “前沿开源技术领域解读” 部分,多位在其领域有所建树的一线开发者和开源商业化公司创始人,对目前国内外流行的前沿开源技术领域过去的发展和未来的趋势进行了深入的洞察,覆盖开源云原生、开源 AI、开源大前端、开源大数据、开源 DevOps、RISC-V、开源操作系统、开源数据库、编程语言九大领域。
本篇为开源数据库领域的解读。
开源数据库在这一年的发展显得异彩纷呈,分析型数据库、图数据库、时序数据库、向量数据库等各细分领域都相继涌现了头部玩家。围绕云原生技术,开源数据库在云化、平台化、一体化、智能化四个方向上全面发展;云数据库在朝着 “Serveless”的方向演进,数据库技术在云资源抽象、封装、归一、统一调度能力上取得了巨大进步。在基础设施全面云化的变革中,开源数据库使得中国基础软件的发展与世界保持同步,甚至起到了部分引领的作用。近年来,随着“碳达峰、碳中和”的目标逐步深化,能源行业的转型已进入了一个全新的阶段。据估计,2025 年,能源 IT 行业规模 1152 亿,全球能源数字化市场规模 640 亿。随着新能源在发电、用电、传输各环节的系统不确定性显著增加以及能源转型趋势从传统的集中式走向分布式,需要智能传感物联网、人工智能、云计算、大数据等各种信息技术数字化赋能能源物联网,以数据和算法为核心生产要素,全方位实现能源产业从实物资产向数字资产的转化。在这其中,数据与算法能够很好地为数字赋能,包括:以传感器技术和嵌入式技术为代表的物联网技术,以机器人、语音识别、图像识别为代表的人工智能技术,以分布式处理、云原生、高可用,同时处理 OLTP 和 OLAP 为特点的分布式数据库技术,以大量、高速、多样、低价值密度、真实性为特征的大数据技术等。目前,数字能源场景下传统的数据库面临着各种挑战,例如:水平扩展能力不足,数据量增加,只能依靠硬件 scale up;技术架构陈旧、复杂,导致性能、可用性、可靠性不佳;运维成本高昂,数据分析能力偏弱,缺乏对当前流行的各种大数据分析接口的支持,缺乏流计算能力,云端部署支持不足,更无法支持 PaaS 等。因此,针对能源产业的现状,未来的数据库需要具备以下特性,才能满足日益增长和不断变化的市场和需求:1. 海量时序数据高吞吐率写入,支持每秒百万级别的单/多指标写入,可增加随时间变化而产生的数据集;3. 统一运管低成本运维:容器部署升级简易快速; 支持在线并发压缩; 支持查看时间序列、标签、指标的定义;4. 认证加密保障数据安全:为不同用户配置不同权限,对接入数据库用户进行身份认证;5. 压缩数据直接加载:数据压缩无需解压缩,降本增效;6. 支持集群部署:集群适用于大数据分析和边缘计算应用程序的高性能平台;7. 类 SQL 查询:支持 SQL 语法、类 SQL 语法、 SQL 写入、多开发语言、多协议兼容。如果未来可以搭建一套多模数据库,统一提供时序、HTAP、消息等各种能力,可能会是解决现实问题的一个有效的选择。
王小虎
王小虎,KaiwuDB 副总经理。曾就职于北航,后受邀加入 IBM,担任大中华区信息产品技术总监、大中华区软件集团渠道方案总监、区域拓展技术总监、架构师总监、首席流程官,IBM 战略部大中华区创新投资总经理等职务,并曾作为 DB2 技术顾问委员会的数据库专家支持了国内多个行业的应用项目;现负责 KaiwuDB 的产品和市场工作。
“ Serverless 化” 即将成为数据库的下一个变革性技术
2022 年全球开源数据库领域最热门的词汇是 Serverless,它将在未来三五年成为云数据库领先性的最重要标志,这一点已经成为产业界的共识。在云数据库厂商中,无论是全球市场领先的亚马逊云科技还是中国市场的阿里云,都把数据库的 “Serverless 化” 作为数据库未来最重要的技术方向。2022 年 11 月,企业级开源分布式数据库厂商 PingCAP 发布了业内首款 Serverless HTAP 数据库(Beta 版),更早一些时候,开源分布式数据库厂商 CockroachDB 也正式发布了 Serverless 版本。那么,什么是数据库的 Serverless 化?为什么数据库会走向 Serverless 化?(1)数据库的 “Serverless 化” 是数据库的变革性技术Serverless 不是个新词了,但数据库的 “Serverless 化” 却刚刚成为 2022 年的热点词汇,Serverless 的正确翻译不是 “无服务器”,而是 “服务器无感化”,就是要让用户在应用开发时不需要操心云端服务器的存在,把所有的底层资源调用工作都交给技术厂商负责;数据库的 “Serverless 化” 是 Serverless 方向最难啃同时也是最具价值的方向。(2)数据库 “Serverless 化” 带给用户的价值是什么?相比于现有以 RDS 为代表的第一代云数据库,Serverless 数据库的几个特点可以概括如下:极致弹性,随时启动:可以在数秒内启动一个数据库集群,并可以根据高峰流量自动地进行伸缩,以适应双十一那种瞬间要求极致弹性的场景,且扩缩容的过程对业务是无感的。
随用随付,随时归零:用户可以按照每次 Query 付费,不用的时候不付费,用户的每一分钱都花在刀刃上,用户只为价值付费。在一般的云服务形态中,知名分析机构认为用户在云上花的钱大概有三分之一都浪费了。有些云数据库只要把集群创建出来,即使不使用,也会按照创建的计算和存储量进行计费,Serverless 带来的随用随付对中小企业和新创公司是个极大的福音。
极低门槛,普惠大众:Serverless 版本的成本控制非常灵活,可以随时启动和回收资源,在动态场景中可以将云数据库服务的使用成本降低 90% 以上。国内外厂商都相继发布 Serverless 版本数据库,例如 CockroachDB 和 PingCAP 都提供了可以让开发者免费拥有的 Serverless 数据库。TiDB Serverless 版本可以让开发者甚至新创的 SaaS 公司从开始就拥有 HTAP 的能力。此前,HTAP 数据库有一定的应用门槛,一般都是中大型企业才能负担得起。现在个人开发者、SaaS 和 Web3 的创业者都可以一开始就在 Serverless 数据库上构建新一代应用,极大地提升新应用构建的时效性,Serverless 数据库和低代码的结合可以让应用的云端构建效率提升一个数量级。
Serverless 数据库有其擅长的场景,尤其适合敏态业务以及动态需求的业务,例如技术开发者和 Startup 公司,也适合 SaaS、Web3 和新一代数据密集型应用(Data Intensive Apps)。Serverless 数据库提供的秒级弹性、随用随付和极低的技术门槛是具备颠覆性的,在很多敏态业务的场景拥有一个数量级的成本优势,这可以让云数据库触达和服务到每一位个人开发者,这将成倍加速数据库云服务的普及和创业应用的诞生速度。领先的云数据库厂商都看到了这个趋势,我们在未来三五年大概率会目睹 “Serverless Everywhere” 在数据库云服务领域的爆发,这也会给新一代业务创新者们打造 “技术无感化” 的全新体验。
刘松
PingCAP 副总裁。拥有超过 20 年的 IT 领域从业经验,曾担任甲骨文大中国区技术战略部总经理,阿里云副总裁等职务,长期服务中国 IT 产业的基础软件解决方案、产品市场、云计算生态发展、产学研智库、数字化转型等领域。对于前沿技术与行业转型的结合有长期深入的观察与咨询经验,在数字化转型、产业互联网领域主导了多个图书研究报告等出版物。曾经担任工业互联网联盟副理事长等社会职务。
作为有着近六十年发展历史的基础软件,开源数据库流行度在 2021 年才首次超过商业数据库,创造了新的历史。2022 年,开源数据库赛道持续引领基于开源项目创业的融资热潮,并且多集中于早期阶段。其中不乏有多家基于开源数据库的创业公司在创业早期就获得巨额融资,包括基于分析型数据库 Apache Doris 的北京飞轮科技获超 3 亿元天使轮融资,基于时序数据库 Apache IoTDB 的天谋科技获近亿元天使轮融资,基于图数据库 NebulaGraph 的杭州悦数科技获数千万美元 A 轮融资,基于向量数据库 Milvus 的 Zilliz 获 6000 万美元 B+ 轮融资。这在过去是难以想象的。一是开源这一软件开发模式更适宜于数据库领域。从用户角度而言,开源数据库天然具备自增长效应,有利于降低沟通和信任成本,更利于在丰富的用户业务场景中得到应用,获取到更加全面的需求覆盖范围。从技术角度而言,开源数据库具备更加快速的问题反馈和更加敏捷的研发节奏,进一步加速了产品的迭代速度。因此开源数据库正成为主流,在越来越多的业务中替换掉过去的商业数据库,这为开源商业化的成功奠定了基础。二是开源数据库细分领域头部玩家有着更强的 “吸金” 能力。上述所列的开源项目,分析型数据库领域的 Apache Doris 、图数据库的 Nebula Graph、时序数据库的 Apache IoTDB 在各自领域均为头部玩家,均有着活跃的开源社区和庞大的用户规模。以 Apache Doris 为例,据其官网公开信息显示,2022 年 6 月成为 Apache 基金会顶级项目、社区用户规模上万、在全球范围内已有上千家企业应用、中国市值或估值前 50 的互联网企业中有超过 80% 在使用,这一系列数字反映出其强大的技术价值和商业潜力。三是云基础设施与数据库结合的产品形态,确立了开源数据库的商业化之路。常见的开源商业化模式有 Open Core、付费支持服务、托管服务等,而云计算和云原生技术的发展补齐了开源数据库商业化的 “最后一公里”,确定了 DBaaS 这一具备时代意义的产品形态。面向云上基础设施对数据库进行设计,充分利用 serverless 架构以及弹性计算存储带来的成本优势,结合开源形成的用户壁垒,在降本增效的行业趋势下更利于赢得市场竞争。
鲁大师
开源爱好者、Apache Doris 社区 Contributor、前百度高级产品经理,一直致力于推广开源项目 Apache Doris。
2022 年,是开源数据库全面拥抱云原生技术的一年。围绕云原生技术,开源数据库在云化、平台化、一体化、智能化四个方向上全面发展,企业级能力持续增强;同时,由于国际形势风云变化,开源数据库国产化生态迎来了历史性的发展机遇,各类主流开源数据库与国产芯片、操作系统、中间件等全面适配,开源数据库成为了基础软件国产化浪潮中的重要力量。过去一年,开源数据库主要发展如下:(1)云原生持续做深。以存算分离、资源解藕、资源池化为主要特征的云原生数据库对开源数据库架构的演进产生了深远的影响。计算集群、存储集群、日志集群、管理集群等各个组件独立部署、独立运行、独立缩扩容成为了云原生数据库的标准架构。此外,云原生架构带来的分布式高性能事务处理、大规模分布式并行处理(MPP)、分布式数据一致性协议等关键技术逐步成为了开源数据库的标配。(2)Serverless 数据库引领趋势。2022 年可以认为是云数据库 Serverless 的元年。在这一年,AWS 首先推出了 Aurora 的 Serverless 形态;阿里云数据库也推出了 RDS MySQL 的 Serverless 形态。云数据库的 Serverless 形态,意味着数据库技术在云资源抽象、封装、归一、统一调度能力上的巨大进步,也离不开高精度弹升技术、智能化技术的发展。(3)一体化能力改善用户体验。一体化体现在两个方面:一是处理分析一体化,HTAP 是处理分析一体化的典型代表;二是集中分布一体化,其本质上是强调开源数据库对于不同规模的数据量和访问量的适配。(4)软硬件协同一体化,性能持续优化。目前来看主要有三大发展趋势:一是如何利用云资源解耦的优势,充分发挥云架构下的数据库弹性优势;二是针对云架构下资源互联效率的性能优化;三是针对国产化硬件的性能优化与提升。(5)企业级能力持续提升。开源数据库开源的不仅仅是内核,开源数据库将越来越关注众多的企业级特性,包括高可用架构、白屏运维、灾备恢复、异地多活、安全可信以及提供各种各样的生态工具,如 DevOps、数据传输、集成开发等。(6)智能化能力持续增强。主要涉及两个方面:一是数据库内部的智能化(AI4DB),利用数据分析、机器学习、预测预警等智能化技术,实现数据库的自感知、自恢复、自优化与自运维;二是利用数据库的数据与计算融合的能力,对外提供机器学习等智能化能力(DB4AI)。(7)生态持续融合。数据库逐渐成为一体化的数据平台,集中体现在兼容更多的数据模型及大数据生态。比如,MySQL、PostgreSQL 都通过插件的模式兼容 Redis、Memcached 等内存数据库。此外,许多开源数据库都将分布式对象存储纳入自己的存储架构中,实现数据冷热分层、数据归档、大数据存储、分析与处理等能力,同时借助各类 connector 和 Catalog,能方便对接大数据相关组件(Hive/Spark/Presto等)。同时,开源数据湖也越来越强调对数据库 CRUD 语义的支持,相信未来大数据数据库一体化、湖仓一体化也将成为发展趋势之一。
王远
阿里云开源 PolarDB 负责人、数据库技术架构部负责人,南京大学博士,资深技术专家。先后在电力、能源、公安、军工等行业从事大数据平台的研发工作,多次获得省部级科技进步奖及国家级荣誉称号。2018 年加入阿里云,负责阿里云 PolarDB 开源、云数据库架构、数据迁云方案及高校合作相关工作。主要研究方向为云原生数据库、实时数仓、大数据与数据湖技术以及一体化数据方案等。
在业务纷纷上云的大背景下,云原生成为当前数据库产品的重要演进方向。云原生数据库 (Cloud Native Database) 是指充分利用了云计算平台以及分布式系统的优势而设计的数据库,提供了按照实际使用资源量来计费的能力,以降低运营成本。此外,它提供了快速开发原型、研发、测试以及部署新的应用的能力,可以大大缩短新的应用从设计开发到进入市场的时间。在传统的业务模式下,数据库的扩容是非常复杂的任务,运维团队要提前做好各项准备工作;随着各项业务模块的上云,水平伸缩已经变得非常简单,这时数据库部分反而成了瓶颈。所以数据库云原生化,以便充分利用云上充足的计算和存储资源,快速伸缩,并实现按使用量付费,就有很强的现实意义了。云原生数据库需要具备几大特点:水平扩展性(Scalability)、弹性(Elasticity)、韧性(Resiliency)、可观测性(Observability)以及运维自动化(Automation)。在这些能力的加持之下,业务开发和运维人员不用再担心数据库如何应对业务的突发流量,也避免了很多手工管理工作。比如,通过分片和分区设计,数据库具备超强的水平扩展能力;通过引入计算节点,实现了计算的弹性;另外还通过元数据的分布式存储,解决了困扰时序数据库的高基数问题。总之,有了云原生数据库,业务的上云可以进一步提速。以 TDengine 为例,2.x 还不能算为云原生数据库,因为它不支持存算分离,而且在云平台的部署和管理还较为欠缺。但 TDengine 3.0 最大的不同就是元数据的管理也变成了完全分布式的,彻底解决了在 2.x 版本中存在的高基数难题,能够支持 10 亿个设备、100 台服务器节点,集群的启动时间直接拉到了一分钟以内。此外,在通用数据库方面,也有多款产品以云原生作为其核心特性,共同为支撑未来业务的海量数据打下了良好的基础。
陶建辉
涛思数据创始人。1994 年到美国留学,1997 年起,先后在芝加哥 Motorola、3Com 等公司从事无线互联网的研发工作。2008 年初回到北京创办和信,后被联发科收购。2013 年初创办快乐妈咪,后被太平洋网络收购。2017 年 5 月创办涛思数据,专注物联网大数据的处理,产品 TDengine 开源后,在 GitHub 全球趋势排行榜上多日排名第一,目前 TDengine 3.0 已经成为一款真正的云原生时序数据库。涛思数据已获红杉、GGV、经纬、明势资本等多家机构的近 7000 万美元的投资。
https://gitee.com/report/china-open-source-2022/