Redian新闻
>
国产数据库圈,为啥那么多水货?

国产数据库圈,为啥那么多水货?

公众号新闻

如今,在 “国产化” 的趋势下,国产数据库领域的创业浪潮一浪高过一浪。截至 2023 年底,中国市场上有将近 300 款数据库产品,约有 100 家数据库厂商。知名投资机构如红杉、高瓴、腾讯等纷纷下场,每家手上投资的数据库至少在 3 个以上,可见资本的青睐。

一些数据库凭借自身的实力,拿下了亿元融资,中标多个项目,节节高升,成功上市;可是也有一些数据库,还在经受市场的质疑。在 16 家国产数据库相关上市公司中,盈利的寥寥无几,不禁让人怀疑这种 “亏钱赚吆喝” 的模式能走到几时?

那么,我们国内的市场,真的能容纳下这么多的数据库厂商吗?当下的数据库发展,又面临着哪些问题?究竟什么样的数据库玩家,最终才能突出重围?作为普通的中小型项目,我们又该如何挑选合适的数据库呢?

本期【开源漫谈】,我们邀请到了云原生数据库 ClapDB 创始人李令辉、天谋科技联合创始人 & CTO 乔嘉林、 Infra 工程师马工,一起来探讨一下,如今的数据库市场,究竟存在哪些问题?

分享嘉宾:

李令辉

云原生数据库 ClapDB 创始人,前乘法云 CTO,美洽 CTO,滴滴出行首席架构师。

目前致力于基于云上的基础设施新范式,提供新时代的分析型数据服务。

ClapDB 是一款重头开始基于云原生架构设计和实现的数据库,充分利用现代云原生技术优势。采用 C++ 开发,期望给予更高的性能,让您可以在任意规模的数据下轻松快速得到分析的结果。

 

乔嘉林

天谋科技联合创始人 & CTO、Apache IoTDB PMC 及初创成员、清华大学博士、中国通信学会开源技术专委会委员、学术秘书。

从头参与建设物联网时序数据管理领域的首个 Apache 顶级项目 IoTDB,及第二个顶级项目 TsFile。

获 Apache Member(Apache 基金会委员)、中国开源先锋人物、清华大学水木学者、开放原子基金会银牌讲师,并作为 10 位基础软件的领军人物之一,荣获 2023 优秀软件工程师。相关成果获北京市科技进步奖一等奖。

Apache IoTDB 是一款低成本、高可用的物联网原生时序数据库,采用端边云协同的轻量化结构,支持一体化的物联网时序数据收集、存储、管理与分析。

 

主持人:

马工

北欧 Infra 工程师,公众号《瑞典马工》主理人。《开源漫谈》常驻嘉宾。

 

01 数据库多,并不全是跟风的错

马工:目前的国产数据库市场非常欣欣向荣,有 300 多款数据库产品和有 100 多家厂商,同时也拿了大量的投资,客户也非常支持。但是目前来看,没有多少是算得上成功的、能够有国际影响力的。我们这种巨大的投入和极低的产出,成了一个巨大的反差。我们今天就想探讨一下,为什么形成这个反差,以及我们怎么能够缩小这个反差。

我们先来问问两位数据库的负责人,现在中国已经有 400 个数据库了,全球也就几十家,中国已经严重过剩了,那你们为啥还要做数据库呢?

 

李令辉:现在,国内挂名做数据库的企业,可能有上千家;有点名气的,我了解的可能有 50 家到 100 家。这些数据库,在我看来,就三到四种,即使它们看起来不太一样:

第一种是基于 MySQL 魔改的,第二种是基于 PostgreSQL 魔改的,第三种基于 PostgreSQL 的 Greenplum 魔改的,第四种是基于 Java 的 ES 或者 Hadoop 生态圈包装...... 甚至都不是改的,是打包的。

从解决问题的角度来说,复用开源项目,只要不违反开源协议是没有问题的。但是,对于用户来说,其实并不需要这么多长得一样的选择,那只会增加选择的成本,并且谁也没有提供出别人不具有的功能,虽然他们每个都说自己是不一样的。

我这里要说一下,一个东西一不一样,你最常看到的回答是说:我做了一些创新。我相信没有一个数据库厂商会说自己一点创新都没有,每个都会说我做了一点微末的创新,这个 “微末” 可能是谦词,也可能是真的。

但是在用户的角度,真正能够享受到这一点点改进的用户,我认为是几乎没有的,或者非常少。因为你在另一个场景下可能就裂化,我们做工程的、做科技的都知道,你想走某一个条件下证明你的优越性,基本上任何东西都可以,不可能有一个软件或者有一种项目在任何情况下都没有优势,不可能。

我见过我们国内的竞品,他们为了去评标,把数据的特征直接记录在磁盘文件中,就不用计算了,读出来当取 max 值的时候,我们直接取。你说是不是一种创新?你不能说它不是,至少我没看别人那么做。但是你说它有没有意义?如果你恰好需要 max 那确实有意义,但谁会恰好需要一个不做任何筛选的数据文件中的最大值最小值?

我们的最大不同是,我们站在用户的角度来说,用户需要什么。我们解决的用户是一些在云上很差钱的用户。他们不是大企业,没有什么运维能力,没有 DBA。而且,他们真的不太能够学习一个复杂的上千页的手册去部署使用,这太难了,加上 Snowflake 也不便宜。但是他想用数据分析服务,他有很多复杂的数据分析需求,那我们就去满足这些用户的需求,让这些客户用得舒服用得便宜用得爽!

 

马工:我从数字的角度看,你就是一个更便宜的 Snowflake,然后也不需要专业的 DBA,而是直接服务开发者对吧,这一点确实不一样,因为我知道的很多国产数据库都是要培养自己的 DBA,觉得我们的性能比它更好,我们这个查询平台分数比它更高,但是你这个思路确实就不一样了。那嘉林呢?你们实验室为什么要做数据库?

 

乔嘉林:我来回答这两个问题:第一个是为什么国内有这么多数据库?

首先,我们看看数据库是干啥的?它是管数据的。这个是大家公认的:把数据管起来,查得好,查的快。那我们就看看有多少种类型的数据:有向文档、关系、时序、键值、图、向量。如果我们把数据库当做一个归纳师,那我们要归纳的物体种类其实是蛮多的。在这个基础上进一步,有多少应用场景?像金融,是一个典型的场景,然后物联网它又是一个典型的场景,这每一个场景下面又会有细分的行业,他们对数据的使用方式可能也都不一样。所以这是导致大家在做数据库的时候设计理念和目标不一样的地方,也是现在数据库为什么这么多的一个比较大的原因。

在这个背景下,时序也是其中的一个数据类型,我们做的 IoTDB,就是一个针对物联网场景的数据库,这也决定了我们是针对物联网场景的时序数据管理。这两个点结合起来,如果你是刚好处在这两个点上,那么我们的产品是一个比较好的选择。

那我们为什么要做这样一款数据库呢?

因为我们组叫数据存储组,专门帮企业研究数据管理的高效方法。我们实验室本身也是一个偏工业背景的实验室,所以我们接触到的数据存储也是偏工业和物联网的,一开始就把应用场景给固定下来了。一开始我们也是直接用的开源数据库 Cassandra,在上面做业务的适配。但后面发现,它底层的核心设计,和用户想要的不完全一致。Cassandra 更像一个灵活的键值存储,用户更想要一个偏时序操作的数据库,于是我们就开始尝试在里面去改,改到后面已经合不进原来的开源项目了,跟 Cassandra 的发展目标不一致,于是我们就独立出来了。

 

02 开源闭源,都不好做

马工:我发现一个有趣的问题,就是你们俩的背景几乎是相反的。一个是从学术界来的,你看嘉林就没谈过钱,你都不谈成本!然后令辉是从工业界、从甲方来的,他一开始就谈钱:一次查询几毛钱?

你们这两种策略我看在国内数据库其实也有分,有的是商业数据库,有的是基于开源。你觉得从长期来看,各有什么利弊?

 

乔嘉林:有没有指标压力,对于我们做数据库的选型和设计,是有很大的影响的。要求一年上线的数据库和要求三年上线的数据库,设计肯定不一样。如果你一直有项目的压力,那你的所有设计可能都是围绕着项目的优先级去做的。

但我们最开始在学校做的时候,就没有这个压力,我们可能想的更多是互联网场景到底需要一款什么样的数据库?数据库的架构需要是什么样子的?现在的开源技术有哪些是比较好的?我们可以做更多的选择、更多的技术方案的论证、设计和实现。后面进入 Apache 基金会,又做了商业化公司之后,这里面就涉及到了怎么样用一个开源软件去养活它的开发者,让他能够持续地在里面做贡献。

我们现在基于一个开源的数据库产品去做我的一些企业版,我是不需要把我的企业版开源的。Apache 协议相比于 GPL 协议更强调对软件开发者的权益的保护。也正是因此,现在很多的企业版软件是基于 Apache 的软件去进一步开发的。所以,开源软件它是一种选择,那基于开源软件上的企业版,它又是一种选择。这个企业版,它可能就会给用户提供更多的技术保证。

 

马工:令辉好像对开源协议不是很赞同,要不你来说下?

 

李令辉:我喷的其实是拿 VC 的钱或者拿投资人的钱去做一个商业开源公司。至于清华大学拿钱去做开源,我觉得天经地义,你们花的就是纳税人的钱,开源就是回馈社会,就是把科研成果向社会开放。我觉得这件事情是应该的,学术界就该做这个表率。

我觉得所有的开源项目应该一半以上来自学术界,很多前沿的基础类的项目只有国家那种规模的科研投入才能够做到,因为有一个漫长的实验阶段,而我们做商业的人的时间窗口是非常短的。运营一个公司,不像学生不拿工资开开心心地做科研的状态,我们每个人都是要生活的。对公司来说,没有股东会支持你花十年二十年做这个事情,摆在面前的第一个问题就是如何赚钱。

说回开源,如果这是一个创新的事情,通过这种方式推广到市场,我觉得这是一个正确的手段,因为别人可能还不了解。但一个成熟市场,比如我们的微型数据库,这个市场非常成熟,上市的不上市的几十年的东西。其实开源的很大的卖点是不要钱,可是你看看身边还有 300 个不要钱的兄弟,你怎么脱颖而出?这个是大家要想的问题。从商业竞争的角度来说,本质上我们追求的是一个不可替代性,所有收钱的前提都是这个不可替代性,不论是人还是公司。如何经营自己的不可替代性,是摆在每个创始人面前要考虑的问题。

 

03 好的数据库,需要一点硬气

马工:令辉提到一个问题很有趣,乙方做很多项目,会做成定制化,所以它的版本基本就崩溃了,已经没有版本可以研了,没有版本可以管理,每个项目都是独特的。嘉林做开源,其实也没办法防止你的产品被别人这样定制。

但实际上从甲方来说,甲方也很讨厌这样。我用一个有版本管理的产品,和用一个定制项目,后者的风险太大了。没有哪个甲方说我想就用这一个版本,全世界只有三个工程师知道它怎么玩的,这个配置只有两个人能看懂,对吧?但为什么国内的数据库市场就形成了这么一个定制化的市场?甲方乙方都不想,最终却做成这个样子。为什么会形成这种畸形的状态呢?

 

李令辉:我长期给中国的很多大甲方打过工。当你没有一个足够强大的标准化产品的时候,用户的需求未被满足的时候,你就不得已让用户来帮你想该怎么做,而用户的想象力是不受约束的。他不会从全局考虑,他只从他的需求考虑。我就特别怕我的甲方跟我说这句话:“我有一个特别简单的需求。你们可以这么做......" 一般听到这句话的时候我就想跑路。

他觉得你不懂,他想教你。你确实不懂他们的需求,比如说我们曾经有个用户说:你们的信息自动保存,我受不了,我心里不放心,你给我提供个按键吧,我按键点一下保存。我说,这个按键它没有任何功能,其实它已经保存了。他说那我还是需要。

这种需求你说要不要满足?这个需求说实在的,你满足了,还会有更多的客户会诧异说,你不是自动保存吗?你为什么提供这个按键?这其实是一个博弈的问题:当甲方乙方谁更权威,谁更能代表这个行业的标准答案的时候,谁就硬气。

你看我们同样的甲方,遇到 IBM、微软的时候,他们就没有这么嚣张。所以,当你作为一个弱小的甲方的时候,得到的尊重是不够的。

确实,有的时候也是我们自己不专业,我的客户问过我一个问题:我做了 20 年这个行业,你做了几年?我说做了两年。他说那你凭什么教我怎么做?你也不能说人家说的有错,但是,术业有专攻啊。所以我觉得,创业,特别是做产品,你不能超出自己对问题理解的能力圈。你去做你不懂的事情的时候,你自然会跟着用户的需求跑。

 

马工:你提到的这个问题,其实不在数据库,其他行业也是这样。盲目地满足客户的需求,就把你的产品做死了。这是我看到的一个很常见的产品管理误区:让用户去当你自己的产品经理。

当然,令辉已经解释了:很多乙方的认知水平并没有比甲方更高,那甲方自然就不会听你的。我觉得我比你强,你就应该听我的,我还给你钱,没让你叫爸爸就算仁慈的了。唯一能够对抗这种强势地位的,就是你的认知比他强,你不仅卖的产品,还卖的是一套理念,卖的是一个方案,你让甲方 follow 这个方案去做,甲方觉得这个方案不错,愿意跟你一起探索,是一个平等的关系才好。但大多数产品经理或公司,他是没有这个能力的,如果说谁有这个能力的话,我觉得一个来源肯定是学术界。

像嘉林,你可以说我是清华来的,我们整个课题组研究了十几年,全世界的论文我们都读了,你说的这个方法我们在 10 年前就已经否定了。你们能不能做到,代表一种新生的、更高级的玩法引入业界,而不是让这些老狐狸认为我干了 20 年所以我比你懂?

 

乔嘉林:我导师说得最多的一句话,就是要控制数据库的复杂度,不该数据库做的不用它做。代码的简洁度才是一个数据库长久的生命力来源。如果我们把很多功能都加进去,短期可能收获了一两个用户,但是长期来说,这个代码就不可维护了。

那我们为什么能做到这一点?我觉得可能有前面开源的积累。因为我们经过了大概五年的开源的打磨之后才正式做商业化,我们出去的时候,这个产品基本已经能够满足很多开源用户、包括企业用户的需求了。这个产品它足够标准,用户就不太会给我们提一些稀奇古怪的需求。但是,因为我们做的是工业物联网的数据库,工业这个场景也够复杂,我们想跟工业用户平等交流他的业务场景的需求,确实也是需要多学习的。

 

END


更多直播内容,扫码看看回放吧↓↓↓


【开源漫谈】

OSCHINA 视频号畅聊栏目【开源漫谈】,每期一个技术话题,三五位专家围坐,各抒己见,畅聊开源。给大家带来最新的行业前沿、最热门的技术话题、最有趣的开源项目、最犀利的思想交锋。

如果你手上也有新点子、好项目,想要跟同行交流分享,欢迎联系我们,讲坛随时开放~


热门文章

xz活跃维护者“潜伏”三年——添加恶意代码、植入SSH后门

AI编程语言Mojo正式开源标准库,宣称比Python快9万倍

iOS版Firefox充斥着大量 “屎山代码”

- 谷歌要让Angular再次伟大——正在与内部JS框架Wiz进行合并

- Linus Torvalds:你的代码好恶心

⬇️ 长按二维码,启动!

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
摄影专业为啥要分那么多方向?该怎么选?裸睡的好处那么多,为啥情侣不能一起裸睡呢?【长篇小说】县委副书记(030)百万token上下文窗口也杀不死向量数据库?CPU笑了国产数控机床与国外的差距究竟有多大?数据库的夏天!2024可信数据库发展大会如约而至,邀请你来!| Q推荐看AI+房产数智化营销,如何发挥AI新质生产力实现获客增长?分布式数据库入门:以国产数据库 TDSQL 为例中国这么好,为什么还有那么多人移民?这是真问题吗?历时 5 个月从零到一研发一款数据库产品,这些坑他们已经踩过了 |InfoQ 独家专访百度智能云向量数据库团队开年最高分国产剧,为啥成不了下一个《繁花》?法国超市里奇奇怪怪的蔬菜那么多,为什么就它最贵?!万字带你回顾数据库这激荡三年“糟糕的家庭,总在小事上消耗孩子”:我突然理解为啥那么多孩子躺平了倒计时8天 | 我,看了这么多书,为啥写不出一篇漂亮文章卷起来了!用好这3个常用MR分析数据库,0实验0病例也能发一区!(送免费资料)加拿大破产总数增加23.6% 企业破产数量飙升41%嘉博环球:2024航空经济与管理数据库黄河流域发展数据库报告印度股市为啥那么牛如何识别“水货”创意总监!大反转!某医学生发帖炫耀“1年发3篇生信SCI”,被网友群嘲:水货!结果竟然……摄影欣赏渔歌子(3):珍惜美丽的大自然AI早知道|Figure发布第一个OpenAI大模型加持的机器人demo;零一万物全面开放笛卡尔向量数据库搜索内核看电视连续剧《大江大河3》明确告诉你,现在最真实的房地产数据双林奇案录第三部之天使刺客: 第二十八节加拿大企业破产数量飙升87.2% 创37年来最高增幅日本转机指南(东京成田、羽田机场、大阪关西),联程非联程票,过境免签等【IATA数据库更新】国产数据库,一半都是花架子?三国时期没那么特殊,曹操没那么坏,诸葛亮也没那么神奇 | 专访不消费不让坐?知名品牌回应;定了!周鸿祎换了这辆国产车;刮刮乐大面积缺货?福彩体彩回应丨大公司动态秃鹫碑上的百年战争这些地区企业破产数飙升!失业保险改革瞄准雇主!少年揭露巴黎扒手反遭指责?澳洲迎来企业倒闭潮,破产数量创近10年新高!建筑业、零售业...一片惨状昆汀这片那么「低俗」,为啥还能留名影史?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。