盘点2022年的数据库/数据仓库/数据湖市场(上)。。。
本文首发微信公众号:飞总聊IT
打算盘点一下2022线数据库,数据仓库以及数据湖市场发生的一些事情,分为上下两期。上期重点聊聊OLAP的事情。下期聊OLTP/HTAP。
OLAP市场在2022年相当的火爆。国内创业公司里做数据库相关的,可谓大部分都是冲着OLAP市场去的。
OLTP的市场就要差很多。其实原因也很简单,OLAP来说,用户愿意花钱的可能性比较大。OLAP也不像OLTP那样在核心业务上,替换起来风险相对较低。
做OLAP的人,离不开这么几条线路。第一是从传统数据仓库过来的。有不少是基于几个开源项目来做的。比如说偶数科技,SelectDB等等。
产品和产品之间的异同点,今天就不展开分析了。这些产品的主要特点,看起来比较像Snowflake主要还是要做一个数据仓库,然后跑在云上,最好还能私有部署,性能也还不错,等等。
当然,由于是大数据时代,这些产品也会强调和大数据系统的对接,能够读HCatalog,能够访问Parquet文件等等。总之,这在很多的竞品,尤其是这些年来的竞品里面是主流思路。
当然,也有基于传统的MPP架构开源做出来的产品。这些产品开源里面最著名的可能就是open高斯系列了。总而言之,这算是比较正统的一条路。
另外一条路当然是传统大数据出发,做数据湖的。数据湖到LakeHouse,最积极努力的一直都是Databricks,毕竟它们想赚数据仓库的钱,都想疯了。
但是国内这方面来说就更有意思一点。不能说没有数据湖的产品,但是总的来说,还是数据仓库的产品更受欢迎一些。数据湖,几大云厂商倒是都在积极努力的吹捧。
至于是湖干掉了仓库还是仓库干掉了湖,这个问题,其实按照目前发展趋势来看,还是挺明显的。但是我也不敢瞎说,瞎说容易得罪同行。
还有一类公司,它们既不做数据湖也不做数据仓库,它们更像是给数据湖规整加速的。
比如说在以色列有家公司叫Varada,它的主要产品就是通过创建materialized view,来加速Presto/Trino引擎的查询速度。这个公司后来被starburst给收购了。它的功能也成了Starburst的一部分。Varada底层用的是Presto/Trino。自己并没有自己的计算引擎。
国内也有一家著名的公司Kyligence,背后基于的是Apache 麒麟的开源项目。大体上你也可以理解成为如何通过在开源上创建预先计算好的cube的一部分,来加速OLAP的查询。当然,底层用ClickHouse用Spark等等,也不是自己有底层的引擎。
这类公司遇到的困难,在数据仓库和数据湖越来越向对方发展,日趋完善的时候,挑战就比较大了。如果其业务依然仅仅限于通过预计算来加速OLAP查询的话,显然,面对更好的数仓更快的数据湖,会有点不容易招架。
所以这些公司要转型,要推出新产品也是一种很明显的趋势。Kyligence在努力的推智能中台指标Zen,也是这种转型的一种体现。
总的来说在纯OLAP的方面,我们大体上可以看到这三类企业,而这三类企业现在在国内创业公司里可谓是遍地开花百家争鸣。所以在OLAP市场,肯定未来会有一场相当残酷的洗牌。
微信扫码关注该文公众号作者