大家知道 2022 年我又创业了,加入以虎哥 Startup 的 Databend 这个公司担任联创,我也从传统的 OLTP 转战到 OLAP,今年也接触了更多大数据用户。趁着元旦假期整理一下思路,从数据角度和大家聊一下 2022 年数据库发展,这里首先声明这篇文章更多只代表个人观点,大家看看就好,有兴趣后面找机会再交流。中国数据库行业随着 2021 年 7 月 PingCAP 完成 3.4亿美元融资,估值达到 30 亿美金。把中国数据库行业引爆了。2022 年 达梦数据库 IPO 12 月 23 日 顺利过会,如果上市成功预计估计在 500 亿人民币,不出意外的话,这将是科创板最大的 IPO 之一。那么你知道中国的数据公司有多少吗?据不完全的统计已经超过 300 +, 那 2023 年数据库市场又是什么变化呢?我这里抛出来 5 个问题和大家讨论一下。Q4. MySQL DBA 和大数据从业者会有什么改变?
也许有很多朋友认为,我们现在国内有 300+ 数据库公司,每家公司的产品都有独到之处,应该全球的数据库上来看,我们是最先进的了吧。例如:2019 年 OB 打榜了 TPCC , 全球开源项目 TiDB, …如果单纯的比中国数据库和海外数据库差多远,其实都比较主观,那么不如通过 OB 打榜 TPCC 来分析一下。其实如果懂行人来看 OB 打榜第一名,感觉说是中国数据库第一次参与了 TPCC 更有意义。首先 2019 年的打榜离 Oracle 上次打榜 2010 年过去了9年,在硬件,系统,软件都有变化的情况下做到和 Oracle 上次打榜基本相同的成绩:tpmC为6.25, Oracle 第二名1.01USD,从成本上来讲几乎相差无几。OB 打榜公布的第一次打榜费用:380,452,842 元(人民币),,通过个事情可以说我们追上了人家 9 年前的实力。也许被行内人指出来了,OB 也觉得需要再次雄起一下,2020 年 OB 再次打榜 TPCC 花费:2,814,509,552 人民币,实现 3.98 元/tpmC 细心的朋友可能对比出来硬件再次提升了,机器规模又翻 7 倍+ 的情况再次打榜。因为每家的 TPCC 压测程序都不开源,大家也基本是压着 tpmC 上限是 12.86 测试, 高于这个值就被视为全内存操作的无效测试。从上面的数据看,测试数据基本上都是贴着 12.86 进行,你懂的。如果通过这个测试来对比中国数据和海外数据库的先进,我的观点是:1. 中国的分布式数据库可以进行 PB 级别的操作
2. 中国的分布式数据可以进行到上十万个+ core 一起工作
3. 中国分布式服务器可以达到上千台一起工作
那我们先进吗?我只能说我目前没看到有项目能运行起来这个环境,毕竟一个数据库项目花 28亿人民币(3年费用),我还没见过。OB 的测试基于是基于云上来评测的。我们也来看看海外的云上的 RDS 及对应的报价。MySQL 单集群 HTAP 解决方案,月成本:2万美金,存储最大支持: 50T 。AWS 的 Aurora 最高配支持 5 PB 存储每月 517,256 美元,其中存储太贵占到:512,000 美元,实际生产中肯定不会这么干,真正的 OLTP 数据不会有这么多,更多的数据可以归档到 Databend ,Snowflake 类在线数仓中来降低成本,这类云数仓每 TB 的成本一个月在 120元左右。这个就成本算我觉得阿里的 PolarDB 价格是优于 Oracle , AWS 的价格。回过头来看:中国的数据库和海外的数据库差距还有多远?从 [DB-engines](DB-Engines Ranking - popularity ranking of relational DBMS[1]DB-Engines Ranking - popularity ranking of relational DBMS[2]) 排名上看到 TiDB 排名 49 位,GBase 排名 79 位, OceanBase 排名 87 位, TDSQL for MySQL 排名 101 位, 阿里云前150名排名中进入 4 位。
我的感觉确是我们部分场景确时超越海外的产品,但海外的产品感觉向着更加务实的方向在发展。反观国内这种超大集群的引导,造成的用户不必要的成本浪费。
海外数据库今年发展方向:
- 云原生方向:CockroachDB(排名 34 位), YougabyteDB (排名 44 位), Snowflake (排名 8 位)- 更加易用的方向发展:更方便维护,例如 PlanetScale 在 OLTP 中对数据引入 git branch 概念- DB Serverless 按使用时间付费,存储按使用空间付费,不再为预留付费从这些方面看来,国内的数据库追赶的很快,国内也有上面类似的产品,但真正 get 到灵魂,这些理念被企业所接受,估计还需要 3-5 年时间。
首先从 TPCC 打榜上来看,数据库厂商对于这个 Benchmark 大都是失去兴趣了,也冷静了,微信群里也没有因为打榜而进行口水,我们也成熟了。因为基本上大家也都明白,在一定成本预算下,选择出来合适的产品就可以。例如:业务对 SQL 响应指标要求 500 ms 以下,支持 3000 QPS 就可以满足业务,支持到 IPO 没啥问题了,在这样的前提下,大家肯定不再是按打榜来选择,因为大家在数据库这个方向上有所积累后,可以选择的开源产品太多了,甚至云的上 RDS 采购一个也够用了。整体上来看现在 OLTP 已经非常成熟,现在 OLTP 卖货,更多是打着安全,有保障,合作联合开发(卖数据库保险一样在卖货) 。大家口水了多年:MySQL ,PostgreSQL 谁更强,争论多年后,也终于有了一个初步的结果。在互联网领域里 MySQL 还是当之无愧的王者, Pg 也在国产化领域中披上各种马甲在冲锋, MySQL 也在披着马甲,还有套着 Pg 往前冲的。基本上也可以说 OLTP 基本是一种成熟状态,最终谁能在这波浪潮中赢下来,就看谁能拥抱一个更加开放的生态,整合更多的合作伙伴,输出更多解决方案,例如:银行系统运行,火车票售票系统, 电力的数据库系统。OLTP 的成熟,但 OLTP 的成本通常比较高,大家也会把 OLTP 的数据慢慢转向 OLAP 对外提供服务,也就意味着 OLAP 可以创造更多的财富?我现在算是从 OLTP 跨入了 OLAP ,给大家分享俩个 2022 年我看到案例。Case1 一个朋友在从事猎头行业,别人找他要人后,他总能很快的找到意向标的人给甲方,并较快的获得到甲方的认可。这个事情,最初我看到觉得他太牛X了,我也非常好奇他怎么做到的?后来熟悉后才知道他就是 OLAP 运用的高手,他获取 gharchive.org 上数据存入 Databend(Databend + COS) , 然后对甲方想要的技术人员画像,这样些人可能对什么 Repo 感兴趣,然后找到对应的 Repo 中的贡献者,联系其中活跃的人,给他们分享机会,获得认可。他是我见过转猎头比较成功的程序员。
Case 2 分析区块链钱包,进行跟投(纯属虚构)我们在炒股中,经常想着可以看看今天谁买了什么,或是大家都在买什么就可以有很多决策了,但这些数据需要去购买,而且非常的贵,还拿不到成交和账户的对关系。在区块链中,这一切都是透明的,谁花了多少钱,买了什么,这一切都在链上。今年看到一些猛人对链上的数据进行解析后,分析出来盈利最多的 Top 1000 然后再找到适合个人风格的进行跟投。这个也可以说 OLAP 的一个应用。
举了俩个个人在使用 OLAP 的场景,其实企业的使用 OLAP 的场景也非常多,也有成熟的套路,只是后续的 OLAP 的成本会越来越低,越有利于用户的使用。目前也可以说是海量的数据时代,在 OLAP 中数据到 PB 级都和玩一样,今年经历了 N 多单天数据量在 100T 以上的项目,也让我对 Databend 这个项目产生了非常大的敬意,这类数据的压缩基本能达 8-20倍的压缩, 同时还能较好的支持计算。新一代的云原生 OLAP 也在替代着传统大数据项目, SQL 成为统一语言,新一代的云原生 OLAP 也会让大数据项目越来越简单。OLAP 让大数据项目也在向着:更便宜,更好用,高性能 的方向发展。
HTAP( Hybrid transaction/analytical processing) 是一个数据库的超融合方案,把事务处理和分析处理都集中在一个系统中对外提供服务。目前这也是 OLTP 方向的数据库在追求的一个重要方向。TiDB
OceanBase
PolarDB (阿里)
TDSQL-H ( 腾讯)
BaikalDB (百度)
MySQL + Heatwave
Snowflake
SingleStore( 前身 MemSQL)
AlloyDB( Google)
Aurora + Redshift
可以说一时间大家把是否支持 HTAP 作为数据库对比的一个重要指标,更夸张的一个论调说:HTAP 是 MySQL 生态的最佳归宿。实质上这里有一个前提在 10TB 以下 HTAP 感觉可以一战,再大一点 HTAP 的方案的成本不是一般用能扛住。以至于很多用户产品演示时上最贵的 HTAP 过关再说,交付时可能挂一个PostgreSQL 也能满足客户实际场景也不少, 同时今年可能是因为行情不好,遇到挺多跑300-400台 HTAP 集群,数据量在 500T 左右的用户抱怨复杂 SQL 影响整体集群处理能力,也不太敢扩容,把数据定期归档到 Databend ,利用 Databend + 对象存储对外分担一部分的查询分析,从而降低成本。我觉得是的。用户最终赚钱的是业务,让业务可以更加简单的可以在数据库上运行起来,把 OLTP 和 OLAP 包装起来对用户透明,绝对是一个非常硬的需求,这估计也是 Snowflake 今年增长特别快的原因之一吧。但 HTAP 也有他的局限性,价格太贵。通常在云环境中,我们认为计算和网络是最贵的,但在 HTAP 数据库系统中,当存储增长到一定量时,你会发现好像计算和网络又是最便宜的,但这些相对于对象存储 1T 一个月只要 110元(国内更便宜)无法相比,这也是我个人感觉 HTAP 适合中小型项目快速 Startup 让业务赚到钱生存下来,再说利用云原生数据库相关技术把成本和运维降下来。
Q4. MySQL DBA 和大数据从业者会有什么改变?
这个时代一切都在变, 我刚工作那会能把 LAMP + Squid 顺利 40 分钟内安装完毕入职 Sina 都没啥问题了,再早一点帮别人安装一个 Oracle RAC 一晚上赚个 IBM T40 也没啥问题,再后来 Oracle OCP 失业了, MySQL 时代来了, 大数据时代来了,AI 时时代来了,一浪接一浪,总有拍死在沙滩上的,当然也有乘风破浪的弄潮儿,其实在这些 IT 大浪中,你能抓住一浪基本生活无优,早期 BAT 的朋友不知道是不是有钱,还看到他们天天加班,但都住着千万以上的房子,开最骚气的车。我说这些想表达什么呢?我想说:选择比努力更重要MySQL DBA 和大数据从业者从业者会有什么挑战呢?首先我们说一下 MySQL DBA 面临什么挑战?MySQL 方面的技术,现在非常成熟,合理的使用基本可以做到按年计算不停机
使用 MySQL 低级错误越来越少,例如早期做 SQL 注入攻击和检测的,基本不存在了
MySQL 在现在开发架构中已经融入 Serverless , 离服务越来越近
更多的用户选择了使用云上 RDS 开局, 传统的 DBA 事情越来越少
研究 MySQL 内核上手的人也越来越多
国内化乙方需要一大波交付的 DBA, 基本大家都招聘 MySQL DBA 为主
k8s + MySQL 的融合需要更多面向 IaC 方面的 DBA
有较强业务能力的 MySQL DBA 会有越来越多的机会
其实早期各个云 RDS 出现后, DBA 圈子里就有一种声音:云平台的 RDS 可能把 MySQL DBA 干掉, RDS 平台的人员还各种掩饰这个问题,现在看来是真正发生了 :) 其实这个也可是可以预见的,一个云平台 RDS 开发通常在百人以上的规模,把 DBA 能想到事情,基本都可以自动化实现了。现在来看 Hadoop 生态,基本要成为历史,笨重的 Mapreduce 编程终会被 SQL 替代
传统的复杂的大数据会趋向越来越简单化,以前看大数据架构中,很多公司在重度依赖 kafka, 存储可能 40 台, 中间的 Kafka + 数据洗清机器可能是 80-100 台
大数据架构师决定把数据存储几种数据库,大数据工程师每天就在应对数据的清洗和不同数据源中数据一致性的比对
业务产出不明显,但部门成本比较高,更多是面抽报表,ad-hoc 查询生活
中心化团队,容易成为瓶颈,整天奔跑在救火线上的工作模式
内心对数据质量有一定的敏感
理解不同数据的使用习惯和资源的空闲
经历过大数据业务系统的磨砺(建立在对业务有理解的基础上)
大数据平台原来那波 Hadoop 生态的的现在可能是 Hive, Hbase, HDFS 为主,HDFS 的成功,也让很多做对象存储创业较为成功,例如 xsky 对象存储,在互联网和传统企业都占据了半壁江山。但 Hive 现在也在被很多产品所替代,如;Doris, Clickhouse, Presto, Trino, Impala, 还有国内很多基于 Greenplum 的二开产品,也有新生代云原生数仓:Databend 都在看着这块市场。那么 MySQL DBA 和大数据从业人员未来在哪里?MySQL DBA 如果不转型现在最好的归宿乙方数据库公司,如果能跟上节奏抓着 MySQL + k8s 或是 熟悉 Terraform , SQL 自动审核类工具,了解 CI 还可以在互联网企业一战(DevOPS 运维时代真的来了,运维代码化,避免了面传口授,无法追录过程的运维时代), 其实也给了互联网 DBA 一个更大的想象空间,例如利用云轻松实现多 IDC 多中心设计,利用 metabase 轻松实现一个 CMDB + 数据控查询系统,利用 terraform 轻松把基础资源管理起来。大数据人员现在分为两类,一个报表展现人员,另一个数据整理人员,比较危险的是数据整理人员,对于 Databend 这类云原生数仓( Snowflake 开源实现)中很多理念如果落地,会大大简化大数据方面人力和资产的投入,把大数据走向一个 case by case 模式,同时又较方便的实现各部门数据的共享,互惠。大数据数据人员最终会变成数据质量,数据血缘方面的专家。
对于数据库创业来讲,我觉得今年可能不是一个好时间,但市场也不缺乏好机会。为什么说现在不是一个好时间呢?2021年资本差不多已经完成了数据软件的布局,很多公司甚至也是高估值拿到了融资,这个过程中也不乏一些摸鱼创业者,其实资本也都不傻,都会看明白的。我们知道对于基础架构创业比较漫长,看海外的产品 10 年都属于正常现象, 第一个 3 年能完成产品开发+打磨迭代到成熟, 然后就是3-4年的生态建设,接下来 3 年才是商业收获的过程,这个过程也可以说是漫长的,对资本来讲是一个收获比较慢的过程。数据库融资方面感觉在 2021 年 10 月份以后,资本忽然集体冷静下来了。2022 年也可以说是市场最不景气的一年,但也不要泄气,看美国成名的数据库公司也都是在经济危机时间创建的,经济危机时不知道做什么,就节衣缩食,专心做个数据库吧。但我们需要明白中国的数据库市场相对还是比较低,据 2021 年的市场评估,全球数据库市场 700 亿美元, 中国市场只有 47 亿美元,仅占 5.2%。这以至于 2022 年大部数据库公司也在忙着社区建设,更多的希望通过开源带动商业发展,以至于现在给我的感觉是全球基础架构开源看中国。国内数据库市场是面对大额采购时,各大公司的 CTO, CIO 可能至少面对 10 家以上(现在数据库估计在 400 家以上) 的数据库公司在清洗, 大公司的 CTO, CIO 也都是经过市场考验的战士,他们也是冷静的决策者,以至于决策过程也变得更加的长。那么现在还是不是数据库公司的创建的好机会,我觉得市场在这个冷静期,以及 2022 年资本市场环境不好, 2023 年估计会有不少数据创业公司离场,但随着达梦 IPO 成功,我估计还会让资本有点小小的冲动。另一个实际情况是 MariaDB 借壳上市直接到现在跌了差不多 70% + 。和我交流过数据创业的人,我通常给的建议是:求差异,利他人,共建生态,这三点来谋发展。2022 年在做 DTCC 规划过程中,我给唐川讲今年也可以搞一个开源秀,让在 DTCC 参考的嘉宾及公司或是想创业的伙伴有更多的爆光机会,最后经过几轮讨论后,很快就把开源小秀场落地,我看现在已经进行了 7 期。这个大家可以想想这个栏目为什么能做起来。我在 2022 年遇到同行问的最多一句话是有没有质量高一点的 meetup 推荐~~~, 甚至有的公司已经开始各种地方碰瓷宣传。实质上你会发现海外真正牛 X 的产品对中国都是禁售的,中国的 IP 不能注册,中国的信用卡不支付,所以自家就不用碰了,真正做事,可以研究一下海外的产品吧, 一个月 3000-4000 元的基本成本投入就可以把一个基础的数仓项目运营起来,这个放到现在国内的所有的数仓项目中都是无法实现的,真的是创业是我辈当自强。现在看来单纯创业上来讲, 做现有数据库的改善或是增强,甚至是数据生库的服务都比从 0 开始做一个数据库比较安全。这块在 Rust 生态有一些不错的参考,如:readyset 用于提升现有数据库的性能和可用性,支持 MySQL, PostgreSQL , 看到这个项目时,也让我想起了内心一直在规划的 update server , 看看别人已经实现了。
Polars 轻量级 DataFrame , 这块今年美团基于 Databend 社区的 databend-meta 也搞了一个类似的工具,感觉也是挺赞的,这块也是 Databend 2023 的规划之一。
我觉得这些是有绝对的生命力,也是对社区和业务是有绝对帮助的。如果你一定要在这个方面创业,你也可以考虑这些方向,例如我现在也比较看好的另外如果对数据库方面创业有较强的执念,可以先想清楚定位,不能只把生意定位在国内还是海外,一定要想清楚做这个事情究竟可以给社会创造什么价值,这才是真正存活的下来的根本。创业的本质就是:忍人之所不能忍,能为人之所不能为。创业没有最好的时间,也没有最差的时间,这只是一种生活的方式,如果你想这一生要做点什么才无悔,就加入进来吧。数据市场上还有多事情可以一起合作,共建这个生态。Dongxu 也是这个方向比较好的天使投资人,如果你想好了就加入进来吧。2023 年一起携手共进。作者:吴炳锡 @ Databend 联合创始人& 架构师
Databend 联合创始人 & 架构师 , 腾讯 TVP 成员, Oracle ACE-A, TGO 成员。专注 Databend 大数据分析及应用, 熟悉 MySQL 生态应用。
[1]
DB-Engines Ranking - popularity ranking of relational DBMS: https://db-engines.com/en/ranking/relational+dbms
[2]
DB-Engines Ranking - popularity ranking of relational DBMS: https://db-engines.com/en/ranking/relational+dbms
[3]
sqlpad: https://github.com/sqlpad/sqlpad
这里有最新开源资讯、软件更新、技术干货等内容
点这里 ↓↓↓ 记得 关注✔ 标星⭐ 哦~