Redian新闻
>
一个技术人“误入歧途”,做了个向量数据库新物种

一个技术人“误入歧途”,做了个向量数据库新物种

科技
【创造者说】 
Created in the name of FOSS.

今年 8 月,向量数据库公司 Zilliz 宣布完成一笔 6000 万美元的 B+ 轮融资,累计融资 1.13 亿美元。这在长于本土的开源创企中,无疑是非常耀眼的一笔。
而时间回到 6 年前,当 Zilliz 的创始人星爵带着 Oracle 出身的背景寻找投资人,说出自己想要造一个新物种时,却不似当下这番光景,更多时候面对的是投资人的不解:
怎么误入歧途呢?
你带着 Oracle 的背景,随随便便做个数据库公司,我肯定给你投钱啊。
这些声音会让星爵开始审视要做的事情本质上对不对?自己和投资人的沟通方式需要如何改进?但有一点非常明确——敢为天下先,要做就要做这个世界上还不存在的东西,即便在短期内不被理解。
所幸,在 2017 年,星爵和他的团队成功拿到了一笔天使轮融资,开始了对新物种的研究。回顾公司发展,星爵将 2017 年的天使轮融资作为第一个里程碑;2019 年将第一款真正意义上的产品 Milvus 开源视作第二个;第三个里程碑则发生在 2020 年下半年至 2021 年上半年,Zilliz 确立了接下来的五年规划,即,把全球化作为核心发展目标。 
在过去的 6 年创业时间里,星爵关注的重点一直只有技术创新,从用户需求中摸索新的方向,然后实现它,并做到极致。商业化、资本市场的认可等要素尚未进入星爵的重点关注地带,但也因为对技术的追求,让 Zilliz 正成为下一个基础软件市场新星。


 “不做”产品做技术


在我们刚成立的那段时间里,我们觉得自己做的是产品,但现在回头去看,我们当时做的是技术。
Zilliz 的成立,来自于星爵对新技术的兴趣和自身事业转型的规划。
读华中科技大学研究生时,身在中国武汉的星爵跟随老师参与网格计算技术相关的研究,这一技术后来被认为是云计算的前身。机缘巧合之下,星爵所在的小组和由芝加哥大学教授主导的网格计算项目 Globus 取得联系,星爵也加入到 Globus 项目中去,学习和研究代码,并且和 Globus 合作,最终建立起中国教育科研网格——中国最大的网格计算项目之一。
这是星爵第一次通过开源协作的模式,深度参与到开源软件的建设,如果不是开源,我很难想象到,一端是在中国武汉,另一端在美国芝加哥大学,相隔这么远的实验室科研人员能够连接起来,这对我来说非常陌生,同时也是打开了去学习全球最新技术的大门。
硕士毕业后,星爵到了美国数据库专业数一数二的威斯康星大学麦迪逊分校就读,2009 年博士毕业进入硅谷 Oracle 工作,参与当时 Oracle 的云数据库研发。2013 年,Oracle 12c 版本发布,主题是为云计算重新设计的数据库,星爵正是核心开发人员之一。到了 2015 年,12c 已经趋向于稳定,星爵萌生了回国创业的想法。
一方面,此时的星爵在技术上有过数据处理和分布式项目经历,也见识到了一个大型数据库软件该怎么去做,希望能在不同维度拓宽自身能力。加之受到硅谷创业文化的影响,星爵想要通过技术创业,完成从工程师到技术创业者的升华。
另一方面,在星爵看来,当时的数据分析走到了一个交叉路口,AI 模型、算法的研究如火如荼。基于 AI 研究,对各种非结构化数据,包括图片、视频、自然语言等的研究也到了一个新的高度,并且取得了一些很好的结果。计算机视觉领域的图片分类水平也首次超过了人类平均水平。在这种 AI 研究与非结构化数据研究的发展之中,星爵的心中隐隐浮现一个念头:在数据处理的基础软件领域,将会有新的技术出现,新的机会正在诞生。
带着对新技术的热情,星爵开始了创业之旅,我们选择了 AI 应用中的数据处理赛道,过去 5- 10 年间,中国的 AI 应用,以及非结构化数据处理是走在全球前列的,无论是数据的总量还是使用场景都领先于世界。秉持着靠近需求源泉的原则,Zilliz 的故事从中国启程。2017 年,Zilliz 拿到天使轮融资,正式出发。
成立之后,Ziliiz 最初的定位是将数据库搬到 GPU 上,基于 GPU 硬件加速做新一代 OLAP 数据库系统,进而希望将性能提高 100 倍。星爵认为,AI 时代出现了一些 GPU、异构计算等新技术,那么便可以尝试将分布式计算和异构计算、数据处理等结合起来。Zilliz 先是做了一个通过 GPU 高效并行算法加速各种数据处理的引擎,将这一想法落地。
我们没有想清楚把这个引擎用到什么地方去,只觉得这个东西性能很好,很创新,很酷!所以要先把它做出来。
接下来,便是拿着这个引擎不断地和用户交流,接收反馈。最终,Zilliz 发现这套技术可以很好地帮用户去加速 AI 应用中向量数据的分析和处理,并且此类用户需求是广泛存在和飞速增长的。在这样边做技术边摸索的过程中,Zilliz 逐渐将向量数据库作为核心产品方向,并坚持到了今天。


开源 + 从用户需求出发


埋头很酷的技术 2 年后,Zilliz  2019 年迎来了技术产品化的关键转折点。
在做数据分析处理引擎期间,Zilliz 陆续接到了用户反馈,看到了向量数据分析与处理的强劲需求。以此需求为依托,2018 年下半年开始,Zilliz 启动了新项目的调研、开发工作,并在 2019 年将成果一口气开源,这个成果便是向量数据库——Milvus
Milvus 架构图
对我们来说,是带着自身积累的,对大规模数据的处理能力、分布式计算能力、异构计算等能力,跨越了从技术到产品的鸿沟,找到了明确的产品方向,即向量数据库。但对于 Milvus 之后的发展,当时的星爵心里也没底:我们看到了用户需求,看到了市场机会,但我们不知道自己提供的产品是不是真的能够完美满足市场需求?
出于这个痛点,再加上团队开放的工程师文化,Milvus 从发布之日起开源,采用 Apache 许可证。开源开放是我们公司长期以来的基本原则,这是一群工程师很质朴的想法,我们希望好的技术可以更快传播出去,帮行业的人取得更好地成功,也通过开源把技术开放出去,获得更广泛地支持。
对于这款开源产品成功与否的考量,标准只有一条:它能不能取得很好的早期用户增长。这个结果直观反映出产品是否真正解决了用户的痛点,是否真的为其他开发者创造了价值。最终,Milvus 在开源的半年内,拥有了约 60 家企业级用户。我记得从有了第一个用户之后,基本上每周都会有捷报,最初是每周一个用户,然后第二周增加了三四个,第三周又增加了七八个。
Milvus 用户图
事实上,Milvus 瞄准的价值市场,在过去基本是一篇空白。
在星爵看来,数据库行业在过去 20 年经历了一场巨大的分化,关系型数据库、分布式数据库、图数据库、文档数据库、时间序列数据库……未来,在 AI 时代,会有更多数据库类型出现,比如我们现在提到量子计算,那很有可能接下来会出现一个面向量子计算的数据库。整体上,这个行业在不断的分工与分化,类似汽车行业,在过去 100 年间,发展出几十上百个细分品类,在数据库领域也是同样,并且有两点是不变的:
第一,人类的需求是不断增加的,第二,人类社会的数字信息化程度在不断提高,那么人们对数据分析和处理的需求必然也是在上升的,因此便会催生出更多数据的应用场景,而在每个新兴的应用场景之下,都会出现一些更加具体、分工更加明确的数据库产品。
那么,再看回 Milvus,它并不需要和其他种类的数据库做比较,而是专注于为 AI 应用处理非结构化数据,比如为金融应用做欺诈分析等等,满足新兴的非结构化数据处理需求即可。
不仅仅是 Milvus,对于所有项目,Zilliz 的判断标准只有需求
2021  9 月,Zilliz 发布 Milvus 的上游软件 Towhee
我们推出新项目只考虑一个问题,那就是解决用户需求。”Zilliz 会从用户需求中提炼出该做一个怎样的产品给到用户。具体到 Towhee,本质是用户在使用 Millvus 的过程中,虽然能很好地解决数据分析问题,但是对于一些中小型公司来说,从各种不同的非结构化数据中提取向量数据本身需要投入很多资源。因此,为了解决这部分用户需求,Zilliz 推出开源的 embedding 框架 Towhee,包含丰富的数据处理算法与神经网络模型,可以帮助用户完成原始数据到向量的转换。
在评估需求方面,Zilliz 的方法非常朴实,通常是在用户群中主动收集或接收需求,然后将用户反馈做汇总、归类、排序,筛选出高频需求,归纳趋同的需求。然后将数据结果放到研发社区做进一步讨论,最终根据讨论结果规划产品的设计与迭代排期。


只在云上挣钱


对于做技术该怎么挣钱的问题,星爵和他的团队很早就有一个标准:在公有云上通过服务赚钱。
落实到具体在什么时候实现商业价值的转换,就变得非常随缘
2019  Milvus 产品开源之后,很长一段时间内,这只队伍都沉浸在如何打造一个全球技术领先的产品的目标之中。回看当时的想法,星爵是抱着如果这个技术和产品能够解决用户的痛点,同时技术上又是全球领先的,那么一定能为公司创造价值,所以前些年我们并没有太去考虑商业模式,而是专注的把产品做好。
对于 Milvus 团队来说,2020 年底,产品开始迈入成熟阶段,Milvus 已经拥有 500 多家企业级用户,产品趋于稳定。他们发现了新的用户核心需求:用户希望能在云上使用。对用户来说,云服务可以省去安装部署的步骤,直接通过 API 调用,那么开发和维护成本也会降低。就这样,Zilliz 启动了公有云产品的研发。
日前,Zilliz Cloud 的测试版本正式上线。Zilliz Cloud 定位于依托公有云的全托管数据库即服务,旨在为向量数据处理、⾮结构化数据分析和企业 AI 应⽤开发提供⼀站式解决⽅案。 
Zilliz Cloud 架构图
Zilliz Cloud 本质是 Database as a service,是将 Zilliz 向量数据库的能力以云上全托管的方式提供给用户,免去用户部署和运维的工作。同时,也帮用户解决云上数据安全的问题,包括数据合规、高可用、容灾等等,为各类在开发 AI 应用的企业,在其开发过程中,极大地简化非结构化数据管理的过程。
在云产品之前,Milvus 开源社区的用户想向 Zilliz 购买服务的,都会遭到拒绝,很早之前我们就决定,云才是我们商业产品的形态,除此之外,不会收用户的钱。
事实上,许多开源的基础软件都和 Milvus 一样,在走一条开源+长时间免费的道路。在星爵看来,基础软件的第一个特质就是技术门槛高,那么在研发阶段,就是一个慢工出细活的活动,需要长期投入,不断总结用户需求,将其做成通用产品。另一大特质则是一旦做出了个全球领先的技术和产品,就会出现赢者通吃的格局。而这也是 Zilliz 长期坚持以技术主导,开源开放的重要原因之一。


谈谈当下


当下,Zilliz 正沿着一年多前定下的策略,走全球化的路子。具体到刚刚起步的云服务业务,北美市场将是接下来一两年关注的重点。
如果我们看全球市场的估量,在基础软件领域,美国市场占全球市场的 30%-40% 左右,是全球第一大单一市场。因此,将全球化作为目标的 Zilliz 将国际化的主战场放到了北美。目前 Zilliz Cloud 已在 7 月支持 AWS,接下来将会进一步扩展能力,形成多云方案,包括支持谷歌云计算平台 GCP,微软的 Azure,实现北美三大公有云的跨云方案。
对于 Zilliz 来说,其与大型公有云厂商之间是竞合关系,一方面 Zilliz Cloud 依托于公有云平台,另一方面,在星爵看来,同台竞技也更能催生技术创新,我们的信心是源于我们是一个创业公司,可以更快速地迭代产品,实现技术创新,所以在和公有云厂商同态竞技的时候,我们会坚持开源开放,唯有产品和技术能保持核心竞争力,才能最终与大象共舞。
谈及 Zilliz Cloud 未来的发展,星爵并没有做过多预测:我不做预测,我们公司也很少做预测,预测容易打脸。而商业化和营收,也依旧不是当下星爵关注的重点。面对在资本市场取得的成绩,星爵将其归因为团队以技术为导向,敢为天下先地去创造了新技术,并将其做到极致,大家都知道稀缺性很重要,但往往在亲身实践的过程中,会发现追求稀缺性是一件很奢侈的事情,稀缺性是孤独的,相当不确定的,高风险的。
同时,在星爵看来,将产品和技术做到极致之后再谈商业化,也会更加容易实现,我们要先打造一个优异的产品,这个产品如果不做到全球领先,我们认为就不应该推向市场,更不应该拿去卖。



【创造者说】



OSCHINA 推出全新开源创企访谈栏目【创造者说】。
开源社区需要创造者,他可以是个人,也可以是由个人组成的公司。开源软件发展 20 余年,来自公司的开源贡献者已经成为中坚力量,更是有一批公司围绕开源软件而创办。本栏目将聚焦开源创企和他们的创始人,探讨当下的开源现状,分享开源商业故事,为开源社区添砖加瓦。
创造者说】专栏面向所有开源创企,欢迎填写下方问卷,向我们推荐那些有创造力的公司:

往期推荐



谷歌推出开源操作系统KataOS,采用Rust和seL4微内核

JetBrains Fleet公测,下一代轻量级全能IDE

到底都有哪些国产的开源操作系统?



这里有最新开源资讯、软件更新、技术干货等内容
点这里 ↓↓↓ 记得 关注✔ 标星⭐ 哦~

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
零售新物种:即时零售改变了什么 | 蔚言大义活动报名 | 【5Y 3Sigma小圆桌】AIGC新物种:生成时代的内容、交互与商业化创新盗得34亿美元!22岁华裔小伙竟成黑客暴富家中堆满现金,误入歧途终被抓!社区餐饮,正诞生新物种糖纸众测 | AI 办公新物种,成者 StarryHub 会议星小体验埃及艳后Kleopatra听头条丨这个汽车新物种,或改变1.1亿人的命运早鸟报|浙江发现全球新物种;马斯克称将亲自打头阵殖民火星;水滴筹创始人称中国以外不会推行996.....我国发现新物种,网友三连问:能吃吗?好吃吗?怎么吃?我国又发现新物种!但不建议吃…我国发现新物种,评论区都在问同一个问题Most Beautiful Duets Ever(四)AIGC新物种:如何用AI实现创意与生产力的释放? | 5Y 3Sigma小圆桌被“羊了个羊”逼疯后,程序员自己做了个“鱼了个鱼”!教育随笔(108)高考文言文备考之九见证市场复苏与进化,新物种诞生与崛起丨2022大消费产业趋势论坛我国海关截获全球新物种!白盖鸡油菌!浙江发现全球新物种湖南发现新物种突发!澳国防部高层陷入其中,黑客袭击8家香格里拉酒店数据库,大量数据泄露广东发现全球新物种、多国爆发禽流感、韩媒称裁判偏袒C罗等丨今日天下秋阳杲杲dbt:数据行业新物种,估值 42 亿美金的数据转换工具我国发现新物种!专家建议:不要吃阿里云已将 Serverless 数据库大规模落地,这是否代表着数据库的新风向?早财经丨上海:抵沪需三天三检否则赋黄码;德国公司下单10万辆比亚迪;我国发现新物种;伯南克等3人获诺贝尔经济学奖我国发现新物种“白盖鸡油菌”,专家建议:不要吃!基因测序确定新物种,心急的网友已经拿起筷子了!专家说......周末愉快 冬瓜全球新物种!在浙江丽水首次发现!「上眼」又「上头」,听说元宇宙新物种要来?我国发现新物种,专家建议先不要吃数据库“焕然新生”:架构视角下,云原生数据库的创新实践 | Q推荐海关截获全球新物种!此地发现全球新物种!网友都在问同一个问题
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。