Redian新闻
>
Zilliz星爵:向量数据库,开创AI原生数据基础软件时代 | GGV OMEGA访谈录

Zilliz星爵:向量数据库,开创AI原生数据基础软件时代 | GGV OMEGA访谈录

其他

当ChatGPT 、AutoGPT等诸多新项目一跃成为科技圈的谈资时,AIGC终于迎来了井喷式发展,而其背后的大语言模型(LLMs)也受到了前所未有的关注。全球开发者仿佛又看到了那个曾经辉煌的移动互联网创业时代,争先涌入这一赛道。

ChatGPT 的出现将会让AI程序开发变得极度简化,掌握 CVP Stack就拥有了AI 开发的未来。其中,C 代表以 ChatGPT 为代表的大模型,它在 AI 程序中充当中央处理器的角色;V 代表 Vector Database,即以 Zilliz和Milvus 为代表的向量数据库,为大模型提供知识存储;P 代表Prompt Engineering,各环节通过 prompt 的方式进行交互。向量数据库站在了AI基础设施的风口浪尖。

有人紧跟趋势,有人重启赛道,也有人彷佛能预知趋势般早早开始布局。早在2017年,中国就诞生了全球第一家向量数据库公司,它就是由星爵创办的Zilliz。

Zilliz身为向量数据库的全球先行者,在创新的道路上披荆斩棘、筚路蓝缕。对于创始人星爵来说,之所以在多年前选择这样一条曾经无人问津的道路,正是因为他看见了AI技术快速发展与传统数据库技术之间青黄不接的痛点,而痛点恰恰意味着可能有机会出现。

如今,在向量数据库这条道路上,Zilliz已然不是孤军奋战,为此星爵的感受并非惶恐不安,而是深感欣慰。当一条道路上出现了更多的竞争者,恰恰意味着 Zilliz 走在一条正确的道路上。百花齐放才能称之为春天,人多了才能形成广阔的市场。Zilliz担忧的从来不是前无古人,而是后无来者。

今天的GGV OMEGA访谈录根据《创业内幕》S4 Vol.42期内容整理而来,我们请到了对AI见解独到的Zilliz创始人——星爵,也欢迎大家收听本期节目。

下面的内容将分享,曾经的星爵为何选择了这样一条人迹罕至的道路,又是出于何因选择了将技术开源;在创业的过程中,他遇到了哪些挑战,又是如何一一克服,走出一条Zilliz独有的道路,迎接属于AI的“iPhone时刻”,答案就在这里。

核心观点:

  • 创业无非就是从看见需求到解决需求。

  • 走得远的创业公司需要公司文化加持。

  • 创业路上有竞争对手并非坏事,那说明方向是对的。

  • 盈利和烧钱并不冲突,创业需要厚积薄发。

  • 全球化布局道路的拦路虎就是用户付费意愿+数据安全和合规挑战。

  • 人才招聘——被动吸引和主动寻找,双管齐下。


创业无非就是从看见需求到解决需求


星爵身为数据库领域的老兵,却选择离开Oracle(甲骨文),投身孤独的创业路。这背后的原因是什么?他何来信心觉得自己能够创业成功呢?


先请星爵介绍一下自己和Zilliz这家公司。


我自己是一个数据库领域的老兵,创业之前在Oracle(甲骨文)的全球总部工作,负责数据库的研发,当时和团队做的是12c的语音数据库。离开 Oracle 后,我就回国创立了Zilliz,也是一家开源的基础软件公司,专注于研发新一代面向于各种AI应用的向量数据库系统。


大家都知道,在AI时代,我们处理的很多数据都是这些新型的非结构化数据(比如像图片视频、用户行为、画像语言、自然语言等等),甚至于在生物化学领域里面,需要研究蛋白质的三维结构、化学分子式的三维结构等等,这些都属于非结构化数据。在此情况下,以 Milvus 为代表的向量数据库提供了一种高效的且能够管理、分析、使用这些非结构化数据的方式,帮助各行各业挖掘非结构化数据后面的价值。所以在过去几年里,我们也有幸把产品通过开源的方式推向整个市场,在全球范围内得到了超过几千家用户的青睐。


咱们目前团队是个什么样的组合?您觉得您为什么可以去做这样一件事?


放到AI时代的大背景中,我们的向量数据库是在AI新的应用场景之下产生的一个新型数据库基础软件,背后有两大背景:一是AI领域发展带来的新场景新应用,二是海量的非结构化数据亟待被管理,而从数量级来说,它们可能比结构化数据还要大上一个数量级。


至于如何去设计一个高效的向量数据库,那就需要具备两方面的能力:


  • 熟练掌握AI的能力

这意味着一定要懂得AI的使用场景、使用方式,甚至要懂得AI的生态运作体系;


  • 需要有传统的数据库技术能力

要管理如此量级的数据,同样需要具备传统的数据库技术能力(包括如何做分布式,怎么做扩收容,如何做数据安全、备份,高可用等能力)。


基于此,我们在组建团队的时候,会特别考虑这两个方面,所以现在团队是兼具AI与数据库传统基础软件的交叉复合型团队。


您一开始创业时就想清楚了要做AI向量数据库吗?


其实不是的,五六年前我回国时,只是有一个很懵懂的想法。首先是我看到了AI时代里面AI的新场景、新需求,这让我坚信,未来5-10年,一定会有一个新型的AI时代的数据库软件出现,但是它具体是什么样的形态,什么样的产品功能,其实当时没有想得特别清楚。所以回国后我和团队做的第一个产品,就是利用AI时代里的新型硬件(有很多GPU、新型的异构计算的芯片),做了一个新型的数据分析引擎,通俗来讲就是GPU数据库跑在GPU处理器之上的一个新型的数据分析、处理软件。


在那之后,我们觉得找到了新的方向,加上技术过硬,产品本身具备创新性,整个团队都觉得信心满满。于是我们把它拿到市场上进行检验,但是在检验过程中发现,虽然这个产品无论在技术还是想法方面都极具优势,可在实际落地过程中解决的问题仍然比较有限。所以当时我们就一边接触用户,一边在想如何做出一个更好的、能够达到PMF(Product-market fit,产品-市场匹配)的产品。


经过差不多一年的探索后,我们发现市场上的很多用户,对向量的数据管理、计算、分析、比对、查询需求强烈,甚至成为了一个新兴的市场,并且这个市场几乎是每个做深度学习的AI公司的刚需。所以团队在2018年下半年开启了一个新型项目,即研发向量数据库。2019年,我们把这个产品以开源的方式推向整个市场,大概4到5个月之后,我们就拥有了四五十家用户,这也让团队意识到这个赛道背后藏着更大的潜力。事实证明,我们的确解决了很多AI企业在进行AI大规模生产环境部署中的一个痛点,所以后面整个公司就all in向量数据库赛道,一直做到了今天。



推陈出新:

走得远的创业公司需要公司文化加持


从传统数据库到AI向量数据库的转换,是一个推陈出新的过程,刚开始难免不被认可和不被理解,但这些都是创业经历中无法避免的阶段。要想创业成功,要想公司走得更远,公司必须具备自己的文化。


您能不能给我们通俗地解释一下,什么叫“AI向量数据库”,它和我们日常理解的数据库有什么不同?


本质上讲,任何一种管理数据的系统软件,都可以叫作“数据库”。一个数据库的基本功能,是需要提供数据的高效存储、检索、索引,甚至可以做分析查询等等。传统的数据库可能都是一些关系型数据库、分布式数据库,以及近年来出现的图数据库、时间序列数据库等等,这些数据库其实都有一个特点:它们处理的数据是结构化的数据,即像计算机比较容易了解和处理的一些数字、字符串等等。


现在到了AI时代,人机对话讲的是机器和算法如何去理解人的自然语言,我们讲的是计算机视觉,就是整个机器如何像人一样去观察、感知整个世界,包括我们说的生物制药这些领域,类似研究小分子的三维结构、蛋白质的三维结构和它的生化活性之间的关系等,最终达到帮用户找到更好的创新药的目的。


在AI时代,开发者都会用一些AI的深度学习算法模型,并把这些数据转化为高维的数学概念。比较通俗地讲,就是通过一个高维的向量,集成、代表这些非结构化数据,图片也好,视频语言中一些深度的语义也罢,通过向量的查询跟比对和向量数据库的向量计算的能力,可以实现对这些非结构化数据的语义计算、语义理解、语义查询。例如,之前我们做图片检索,可能要用文件名的方式查找,有了这种向量数据库的技术,只要输入一个场景,它就会自动理解哪些图片、视频里面包含你所查询的场景,然后把这些场景找出来。


您说一开始可能大家并不太理解您所做的事情,那您是怎么去向他们澄清这种误解的?又是怎么去说服自己坚持下去的呢?


从对外层面来讲,我觉得能够进行良好的对外沟通是一个创业者需要具备的最基本的能力,所以不管是面对投资人还是潜在工程师,如果希望说服对方加入公司,就需要从行业大势、AI发展等大的层面进行更多沟通。从另一个角度来看,我们不可能说服所有人,所以寻找投资人或者理想中的志同道合创业小伙伴,都是弱水三千只取一瓢饮。因此,我认为对外沟通并不困难。


从对内的角度来看,在一个高度不确定性的环境下,要凝聚大家的力量并向着一个方向努力,可能是一件比对外沟通更加困难的事情。过去几年,因为我们一直走在无人区,基本上所有的技术方向、技术架构还有技术的探索和实验,可能都需要自己去摸索。所以,过去我们内部在研发过程中经历了很多次挑战和失败。


正因如此,我们公司内部形成了一种文化,就是先把产品的商业化摆在一边,优先做一些具有开创性的、困难的事情。再者,作为一个工程师文化特别浓厚的团队,我们是在做一件之前别人没有做过乃至没有解决过的事情,这本身就会让大家觉得很酷,容易激发斗志。另外一方面,我觉得恰恰是因为这种文化,才吸引到了一群极客工程师,他们本身就很愿意去做一些高度不确定性的东西。



创业路上有竞争对手并非坏事,

那说明方向是对的。


孤身独行的创业路固然少了竞争,但也意味着它可能并非一条会柳暗花明的道路。与其害怕竞争,还不如欢迎对手来分一杯羹,让对手帮忙开拓市场,市场大了,才有更多提升的价值空间。


作为一个开源数据库,公司现在有哪些大客户是可以跟我们去分享的吗?它在实际应用中是否已经有了一些成功案例了?


其实,我们的用户分布在各个行业。例如,在互联网和电商行业,盈利基本上靠“搜广推”,即用向量数据库的技术结合深度学习做更好的“搜广推”,改善“搜广推”的质量。所以,我们在个性化搜索、个性化系统推荐引擎、定向定制化广告这些方面的应用场景比较多。海外电商里包括Shopee、eBay都在使用我们的产品,国内很多互联网公司后面的“搜广推”系统,或多或少也都会用到我们的产品。


此外,随着短视频在全球兴起,如何更好地去理解图片、视频里面的内容并基于这些内容做更好的推荐,甚至基于视频进行电商的商业化尝试,成为很多短视频公司的重要挑战。为此像快手、虎牙等头部短视频厂商也会使用我们的产品。


在更大的一个背景里,例如在安全和欺诈检测的很多应用场景,同样有我们的用户。国内几家比较头部的金融机构,都在用我们的产品结合深度学习去做欺诈检测。另外,在计算机安全和网络安全领域,一些做网络安全的公司,会用我们的技术去分析整个网络流量,从而区分正常流量和网络攻击流量。


据我所知,其实AI向量数据库赛道在中国没什么公司布局,那么在全球范围内,您有看到哪些竞争对手/哪些巨头已经在布局该领域了吗?


其实我们在2018年刚起步的时候,还是挺孤独的,就算是跟投资人、业界工程师、专家去探讨,大家也都表示这个东西看不太准,不是特别理解。但是在2020 年至 2022年的时间里,向量数据库赛道经历了一波小爆发,尤其是2021年以来,我们看到国际上的一些巨头纷纷在向量数据库的品类布局,并相继推出了他们的向量数据库的产品。除了大巨头以外,还有一些中型巨头、在创业公司里面做得比较好也比较大的基础软件公司,也都在他们原有能力之外,推出了这种向量数据连锁的扩展。


所以从2021年以后,这个原本有些冷清的市场,突然变得异常热闹,向量数据库也越来越多地进入到 AI工程师、开发工程师的视野,这是让团队尤为欣喜的一点。本来我们预计可能还要孤独地继续探索一两年,但是现在发现整个行业的发展可能要超过我们的预期。



盈利和烧钱并不冲突,

创业需要厚积薄发。


面对烧钱的质疑,Zilliz毫不畏惧。对于Zilliz而言,每一笔钱都花在了刀刃上,因为Zilliz是需要凭借积攒的技术来为将来创收的。商业化的征途,必然是先付出再得到,真金白银打造的优质产品,才更有将来持续盈利的可能性。


目前Zilliz已经盈利了吗?盈利的模式是什么?


其实早在前几年,Zilliz就已经确定好了唯一的商业模式,就是在云上构建向量数据库的云服务。我们已经看到云是未来,尤其对于非结构化数据的处理而言,未来只能是云。因为对于一家公司而言,自行维护AI包括非结构化数据处理、向量数据库的基础架构是相当困难的。在下一个AI时代里,对这种基础软件的用户来说,他们上云的需求可能不是“想与不想”的问题,而是“不得不”的问题,因为相关的模型训练、AI部署、向量数据库的数据管理,大部分已经在云上了。所以,我们坚定地把云作为我们整个公司的一个整体战略,也把整个商业化产品形态,全力投入在向量数据库的云服务之上。


其实从去年开始,Zilliz 就已经开始研发向量数据库的云服务,这是一个在公有云上面的数据库服务,是一个全托管的,能够在云上面提供安全、高效、高可用的向量数据库的云服务。对我们的用户来讲,他们再也不用考虑自己部署向量数据库的系统的问题,也不用管以后如何运维,甚至整个系统的高可用性管理,包括容灾、性能调优等等。总之,我们会帮用户打点好一切。


2个月前,我们发布了向量数据库的云服务,叫作Zilliz Cloud的早期预览版,下个月会发布正式版本。到那个时候,我们公司可能就会进入一个新阶段,从一个开源的技术公司,变成一个开源且面向商业化、拥抱商业化的公司。所以今年年底应该就是我们商业化征途的开始。(本对话的时间为2022年底,Zilliz Cloud 早期预览版实际发布于2022年9月,正式版发布于2023年3月。 )


您怎么看待烧钱的这种模式,烧钱的效率应该怎么提升?



首先我想说明一点,我们公司从来没有在烧钱,花的每一分钱都特别慎重,恨不得把一分钱当两分钱花。过去几年,我们把每一分钱/每一份资源和时间,都用在一个我们认为的最核心的公司竞争力上,就是我们的技术和产品。目前,公司大概有100多人,但是接近80% 的员工都是工程师。我们也没怎么在市面上投放广告、PR投放,绝大部分PR投放都是通过我们的社区、技术分享等这些自然流量去换来的。


之所以会有这样的选择,是因为我们看到,作为一个基础软件公司/数据库公司,技术和产品是最核心的竞争力,对To B公司而言没有太多花活可以选择。另外,作为数据库的一个基础软件,必须要经过长时间的研发,因为基础软件(尤其像数据库这种基础软件)的复杂程度相当高,这本身就需要大量长期研发投入才能做到。与其说我们是故意推迟我们商业化的时间节点,不如说数据库软件本身就极具复杂性,如果没有通过三五年的研发,几乎不可能做出一个可用的产品。


所以,我也要特别感谢过去一路陪我们走来的所有投资人,感谢他们对我们的信任,和我们坚定地认同同一个愿景/理想;也感谢公司里每一位辛勤的工程师,正是因为大家在过去三五年不断地付出和坚持,才有我们今天这样一个比较可用、比较好用的产品,也使得我们有信心能够把公司的产品做成在云上实现商业化的云服务,让公司走入下一个商业化阶段。


其实您当年加入甲骨文的时候,在甲骨文负责的第一款云数据产品就叫12c,您进入这个团队时只有5个人,此后6年时间里,平均每年也只有7-8个人,但是迭代了两个版本。到今天为止,这个团队其实已经有上百人了。四五个人一起去开发一款这样大的产品,对您今天创业有什么特殊的启示/启发吗?


最大的一个影响就是面对复杂后的从容。解释一下,你见过最复杂的系统,和最优秀的一些工程师是如何解决问题的。当你再次遇到比较难的问题时,可能心里就不会慌了,即便有的问题暂时不知道解法,也能保留这一份从容和自信。


从技术层面来讲,我在研究生阶段学到的关于数据库的理论知识、在论文上面读到的知识点,毕业后能够有机会看到它在行业中最领先的数据库系统里搭建,同样受益匪浅。


而当我创业时,因为见过更复杂的系统,在做一些决定的时候,技术层面的风险是比较可控的,整体会觉得充满信心、趋于乐观。



全球化布局道路的拦路虎:

用户付费意愿+数据安全和合规挑战


Zilliz作为涉及数据安全和合规挑战的公司,在全球化布局的道路上,势必面对着许多亟待解决的挑战。提前去考虑和应对这些问题,有助于公司更顺利地进行全球化布局,节省许多金钱和时间成本。


对比海外用户和中国的本土用户,您觉得他们在付费意愿和客单价上有什么不同吗?


我觉得它们的不同还是蛮明显的。国内公司对新技术其实很敏感,包括工程师对技术的追求也是很积极的,但是如果说到商业化付费意愿还有付费能力,和国外的差距就比较大了。尤其是这种基础软件,因为它是跑在整个计算机系统的最底层的软件,很多公司的CTO包括CEO可能是看不到的,同时国内很多公司可能也比较倾向于自己造轮子,不会想说花更少钱去买一个基础软件产品,最为明显的是互联网领域。整体来看,国内公司的付费意识和付费意愿比较低,落后国外一个阶段。


在全球化道路上,咱们需要面对大量关于数据安全和合规的挑战,做好准备了吗?


其实我们已经开始关注合规和数据安全这一方面的一些问题,包括我们今年产品已经通过了SOCII的认证,接下来我们也会去推进像GDPR等更多不同地区和国家的一些数据安全、数据管理的合规认证。


同时,我想给其他创业公司/创业小伙伴一些建议,如果你想做一个国际化生意/国外市场,那么数据安全和合规可能是你在第一天就要考虑的问题,越早把公司内部的管理流程还有产品往合规方向去做,未来就能为你节约越多的时间跟成本。



人才招聘:

被动吸引和主动寻找,双管齐下


Zilliz作为一家提供开源产品的公司,在人才招聘方面,秉持着被动吸引和主动吸引的双全法。专注于产品,打造好的公司氛围,适合公司的人才自然而然会被吸引过来;同时在寻找人才上下足功夫,招贤纳士。


您能不能给我们的创业者一些建议,就是怎么运营一个开源社区,怎么获取organic traffic(自然流量)?对于人才招聘有没有什么好的建议?


其实我们在这一方面属于持续探索的过程中,经验谈不上,但是有一个特别值得去分享的教训:当你做一个开源产品的时候,一定要有一个更开放的心态。在开源的世界里,你做这种me too,甚至做me better,可能都不是一个解决问题的最优选择,最好的方法就是保持专注。


过去几年,我们的社区发展取得了一点成果,这可能就来自于团队当时很克制且很精准地选了向量数据库、向量数据管理。到现在为止,我们也坚定地只做一件事情,不会把自己的能力延伸到其他赛道里。在整个AI生态里,Zilliz希望用一种更开放的心态,跟上下游合作,这就相当于你在利用已有的社区生态能量,去为自己的项目、社区贡献更多合力。


另外,我觉得如果想要做好开源的社区运营,不见得要打造一个全新社区,也可以加入现在已有的成熟社区,利用它成熟的社区治理理念、治理架构,利用他社区里面活跃的生态和活跃的开发者。总之,用一种更开放的心态,分享自己项目的技术能力和产品能力,为这些开发者和社区赋能,为开发者这个大群体本身和开源事业贡献自己的一份力量。


在招聘人才方面,有两个层面值得分享:第一个层面,把你的技术和产品做好,建立一个以技术为主导、研发为主导的工程师文化氛围,这对吸引人才行之有效;另一方面,可能要花更多资源和精力去寻找团队人才,例如,我们在公司内部建了一个小的猎头公司,有5个全职人员专门负责找人。综上,我觉得想要寻找优秀的人才, CEO就要在面试人才上付出更多精力,公司要投入更多资源,掘地三尺把这些人才找到。


你们现在在中国大陆地区还需要招人吗?


我们需要招人,我们现在在全球包括中国大陆地区都在招人。欢迎认同Zilliz价值观的小伙伴,加入我们这个年轻的大家庭,和我们一起在数据库技术探索的道路上,发现更多的可能。


往期回顾
第二季:分秒帧 程刚锐格 邱夏杨神策 刘耀洲 |特赞 范凌
第一季:小牛电动 胡依林 |e签宝 金宏洲 变形积木 张轶然太极图形 胡渊鸣智齿科技 徐懿启元世界 袁泉星辰天合 胥昕擎创科技 杨辰树米科技 刘恩培Treelab 何浚炫小佩 郭维科通用净水 王铁领猫SCM 李应离包小盒 王先锋镁伽 黄瑜清影刀RPA 金礼剑酷家乐 陈航杏树林 张遇升雪诺科技 高雪峰Kong 戴冠兰

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
除了应对美国断供,华为自研基础软件还为什么AI 原生向量数据库 : 大模型的“黄金搭档”, 能提供“记忆海绵”特赞范凌:哈佛建筑学博士的内容科技创业之道 | GGV OMEGA访谈录在线研讨会预告:针对向量计算开发的高性能数据库和云原生开源数据编排技术China Mulls Allowing Single Women to Freeze Eggs腾讯云大模型领域新动向!向量数据库作为独立产品推出,8月正式上架Zilliz创始人兼首席执行官星爵演讲实录 | 向量数据库:大模型的记忆体构筑坚实先进数据底座,加速制造业集群数字化升级——2023华为智能制造数据基础设施高峰论坛在武汉召开@读者朋友,创投圈最__的创业者访谈回归!| GGV OMEGA 访谈录第2季Pinecone:大模型引发爆发增长的向量数据库,AI Agent的海马体腾讯云发布向量数据库产品,AI Native成关键词丨最前线艾客素杜斯我們夜裏的靈魂连代码都没写就敢要融资:被ChatGPT带火的向量数据库,带来了一大波造富神话《白内障手术》究竟能卖多少钱基础软件“三年练兵” ,华为能为软件市场带来什么?深势科技孙伟杰:AI如何革新Science? | GGV OMEGA访谈录与向量数据库Pinecone工程经理聊ChatGPT插件与向量数据库 Pinecone 工程经理聊 ChatGPT 插件对话MAIA ACTIVE王佳音:从线上到线下,我们如何掌握零售流量密码 | GGV OMEGA访谈录神策数据刘耀洲:SaaS公司如何做销售,看完神策的操作就懂了 | GGV OMEGA访谈录锐格邱夏杨:AI当道,但现在新药研发主要还是靠“人” | GGV OMEGA访谈录AI基础软件“突围”星环科技拟定增15.2亿:是国产大数据基础软件第一股【糗事,笑话】童言童语,吓死人的惊语!蘋果花!黄仁勋对话伊尔亚:关于科技 ,企业家和科学家之间最好的访谈|GGView向量数据库再迎新变化!头部公司产品更新引热议,开启大模型落地新范式GGV OMEGA访谈录毕业季特辑| 牛客叶向宇:帮毕业生找工作,我们主打社区+工具+内容向量数据库?不要投资!不要投资!不要投资!2年帮数百万音视频创作者解决协作痛点,这家公司做对了什么 | GGV OMEGA访谈录给大模型持久记忆!GitHub 2万星向量数据库云服务升级,国内云产品7月上线Prompt一键抠图!Meta发布史上首个图像分割基础模型,开创CV新范式腾讯捐赠Java编译器基础软件大模型商用新解法:CVP架构崛起,向量数据库破圈
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。