被黄仁勋和OpenAI接连点名，这家向量数据库公司终迎「iPhone时刻」｜年度AI对话

公众号新闻

2023-08-04 13:08

和Zilliz聊聊大模型时代，向量数据库的增长、破圈和争议。

文｜真梓

来源｜数字时氪（ID：digital36kr）

封面来源｜IC photo

2023年夏天的一个午后，向量数据库公司Zilliz创始人兼CEO星爵的头像准时闪动在视频会议中。

距离36氪上次见到这个头像，恰好过去一年——2022年8月，身在美国的星爵同样通过视频会议的方式和36氪连线。

一切看似毫无变化，但会议室中的每一位都心知肚明，这是完完全全、彻底不同的一年。

今年1月底，ChatGPT上线两月便收割1亿月活用户。随后，百川智能、光年之外等中国大模型创企批量成立，国外Anthropic、Runway、LangChain等拿下知名风投巨额投资。接下来，各企业开始风靡训练行业模型、探索AI应用。

向量数据库——这一曾经小众IT产品的高光时刻同期而至。

催化剂首先出现在3月的英伟达GTC大会中，一身皮衣的黄教主在洗脑般宣告“AI iPhone时刻已至”后，专门讲到向量数据库和英伟达的结合场景。不久后，OpenAI在发布Plugin插件功能时，强调用户可以通过向量数据库，让大模型访问个性化数据。

大模型出现前，向量数据库的使用场景常限于推荐系统、视觉检索等，会被投资者质疑市场天花板不高，空间有限。也正因此，向量数据库的名字很少被非专业从业者听闻——纵观全球，三年前专注于此的创业公司很可能不超过5家。

但随着大模型爆火，向量数据库帮助大模型更新数据、构建知识库、消除幻觉的能力愈发被普及。这个之前一点也不拥挤的领域，短短几月内承载的关注度超出以往任何时刻。

作为全球第一家开源向量数据库产品的公司，成立于2017年的Zilliz，在年初被英伟达、OpenAI分别提及后，立刻迎来用户量的飞速增长。

“我们和英伟达、OpenAI合作得比较早，但某种意义上它们的提及，帮Zilliz破圈了。”星爵对36氪表示。随着大模型和向量数据库的组合方案被认可，今年6月，Zilliz在2019年开源的向量数据库产品Milvus，在GitHub上的star总数达到2万——其中，有近一半star是今年大模型出现后的新增。不止开源，星爵预测，今年年底Zilliz的商业化收入会比年初增长20～30倍。

而在增长、破圈之中，争议随之而来。

当云厂商、大数据公司批量发布相关产品，一级市场水下项目悄然出现，海外同类公司一月内获投5家，向量数据库不再是鲜有人踏足的无人区。于是，关于向量数据库产品门槛不高、不值得投资的说法开始出现。对此星爵直言，“向量数据库技术门槛不高”，是他从业数年里看到的最大误读。

“传统数据库只需要处理一维数据，向量数据库里低则是几百维，多则是几千维的高维数据。它既是一个计算密集型，又是存储密集型的产品，系统设计相当复杂。”星爵觉得，向量数据库恰恰可能是人类历史上最复杂的一个数据库系统。

另一个疑惑是，随着国内外愈发多不同背景的企业入局，作为专业向量数据库厂商的Zilliz，此时又会如何定义自己？

对此星爵首先表示，Zilliz是“长期主义的幸存者”。过去五年，即便各类质疑不断，但他和Zilliz最深的恐惧，却是环顾四周无人同行，“最怕Zilliz做五、六年，还独自站在一个赛道里，那可能是一开始的方向就选错了”。

面对潜在竞争，他眼中的向量数据库分为专业选手和非专业选手，不同选手对应着不同市场。

“对不需要专业产品的场景来说，Faiss等向量检索库，或各类传统数据库的改造方案已能满足需求。但我们这类专业选手，最适合数据量大、查询实时性和吞吐率要求高的场景。”即便已成大模型时代的全球明星企业，星爵依旧以技术人的视角细致分析，“和其他方案相比，专业向量数据库有更快的查询效率，更高的吞吐率，能容纳更大的数据处理规模。最终，用户会看到更合适的性价比。”

以下是36氪和Zilliz创始人兼CEO星爵的对话（经编辑）：

开源社区一年增幅打平过去三年，大模型让向量数据库破圈

36氪：今年大模型火爆，Zilliz作为合作方被英伟达和OpenAI分别提及，当时你的感受是？

星爵：其实Zilliz和英伟达、OpenAI已经合作过比较长的时间。

我们和英伟达的合作从2018年就开始，和OpenAI的合作始于去年。所以其实Zilliz没有特别关注会不会被提及，大家只是在共同解决比较有趣的技术问题。

不过，它们提到Zilliz以后，国内的确引起比较多的反响。我们差不多从5年前就开始做向量数据库，某种意义上它们的提及，帮Zilliz破圈了。

36氪：最近半年Zilliz业务的增长如何？开源和商业化两方面都可以谈谈。

星爵：6月我们的star数量到了2万。而去年6月份，我们star数破1万。从时间来看，Zilliz 2019年开源了向量数据库产品Milvus，三年时间GitHubstar数破1万，后面一年破2万，等于这一年有3倍的增速。而从开源的情况观察，我们现在有70~80%的客户来自于全球。

36氪：那么商业化方面呢？

星爵：我们预计今年年底对比年初，会有20~30倍的增幅。

这种进展，首先来自大模型爆发的推动，大模型对我们来说属于Killer Application。

大模型的应用里，很多企业要建造专有知识库。而知识库的数据要用向量数据库进行处理、检索，再和大模型做整合，这是一个现在看来最高效、最准确、性价比也很高的最优解。

这是一个不分行业的需求。每个企业都有自己的知识库，如果每个企业都需要一个大模型，那么理论上都需要用向量数据库改造知识库。今年对我们来说，这块需求确实长了很多。

我们还看到一个比较有趣的现象，就是大模型的发展也促进了向量数据库在另外一些场景，如多模态，计算机视觉、推荐系统、自动驾驶、生物制药方面的增长。

我觉得大模型是一个特别好的催化剂。它作为首个Killer Application，让向量数据库走入了主流开发者、工程师的视野，让它破圈。

36氪：关于大模型和向量数据库的结合，之前也看到Zilliz从存储、计算成本的方面解释过向量数据库的优势。

星爵：是的。如果从生物学角度，我觉得人脑之所以能进化出海马体，是大脑的区域要分工，让人体更高效。

放到计算机科学里，过去的几十年里，经典的冯·诺依曼架构强调存储与计算分离。存算分离的一个核心原因是，它能达到成本和效率的最佳平衡。存储的价格在历史中远低于计算的价格，计算的价格是很贵的。存储和计算分离以后，如果有些任务我们之前处理过，我们学会了那些东西，那就不用再在计算单元里面重新做处理，直接从存储体里去调用就好。

36氪：那么，模型上下文能力的扩大（比如近期升级的Claude），是否会对向量数据库“海马体”的定位造成些许影响？

星爵：大模型上下文的扩大将更加有利于接受更复杂的上下文信息，这等于扩大了CPU 和存储之间的带宽，本质上更利于向量数据库和大模型的结合。无论大模型的参数达到多大规模，上下文多长，大模型始终只是数据的有损压缩，依然有大量的长尾信息需要通过信息检索的方式补齐。

36氪：另一个大的应用场景——消除幻觉也有不同的方案。你觉得向量数据库在消除幻觉方面的特别之处在于？

星爵：解决幻觉主要有两种方法，一种是向量数据库+Prompt，另外一种是Fine-Tune。我觉得向量数据库和Prompt其实是密不可分的。

消除幻觉的过程是把知识库向量化以后，通过向量数据库找到相关知识点，再把相关的知识点的需求，通过Prompt反馈给大模型。

Fine-Tune是另外一种方式，和向量数据库加上Prompt的方式去比，实施成本更高。主要涉及两个方面，第一，它要对大模型进行更改和训练。完整训练一个大模型，可能需要上万块GPU，成本可能是数千万美金，每次Fine-Tune的成本是非常高的。

第二个点，Fine-Tune对人员的要求很高，AI工程师领域博士人才一将难求，工资也很高。Fine-Tune需要懂AI的专业人员才能去实施，真正具备这样知识技能的人，现在全球不超过100万。

整体来看，现在向量数据库+Prompt的方案，可以使每一个应用开发者，使每一个产品经理都能轻轻松松帮大模型消除幻觉。

36氪：你怎么看纯粹的Prompt？提示词工程也被看作消除幻觉的方式之一。

星爵：它可能是另外一种场景，其实不是消除幻觉。

Prompt可以让大模型有一个更精准的设定，比如说你给大模型的人设是一个有10年工作经验的Java工程师，那么你再问它一个Java相关的问题，它会回答的更精准。我觉得本质上这不是在消除幻觉，而是让你优化自己的问题。

其实大模型本质上已经具备了一个20年工作经验的Java工程师的知识，只是看你能不能用正确的方式引导。但如果今天你发明了一个新的语言，叫Java36。这个语言是36氪内部发明的、对外部没有公开材料的语言，那么大模型肯定是不知道的。这时你需要用向量数据库，把这些关于Java36的私域知识告诉大模型。

未来增量场景：智能体、多模态

36氪：在构建知识库、大模型的海马体之外，你还看到了什么新兴的向量数据库场景？

星爵：我们现在看到的新兴场景是智能体。智能体的外形不重要，是不是人的形状也不重要。本质上来讲，它要具备高度理解能力，能够快速迭代学习。任何一个生物体的智能都需要记忆，向量数据库在智能体里会扮演记忆体这个核心组件的角色。有了记忆体，智能体就可以做迭代。也就是同样一个事情，智能体第二次做要比第一次更好，接下来就可以做更强的思维推导，完成一些更复杂的任务。

这还是因为，大模型不具备很长的上下文，在记忆方面是比较缺失的，所以需要向量数据库帮忙记住上下文，帮它完成更复杂的任务。

36氪：知识库、智能体，都是大模型时代的探索热点。在这些热点场景的加持下，你觉得现在是向量数据库的iPhone时刻吗？还是需要等待多模态大模型？

星爵：我觉得现在是iPhone时刻。因为多模态是离不开大语言模型的。正如我们人类，人类有视觉，有嗅觉，什么感官都有，但是人类所有信息的沟通是语言串起来的。

除了图片视频以外，生物学，新药研制这些领域有很多大模型，而这些大模型其实也和大语言模型结合紧密。一个蛋白质，一个分子结构，最终的功能表达还是用语言去描述。

语言模型是我们出现的第一个大模型。大模型以后也会在多模态、跨模态里扮演很重要的角色。基础模型在未来两三年内会有更大的发展，会和大语言模型一起支持更多模态。就是通过一个比较大的语言模型，把跨模态打通。

大语言模型是向量数据库的第一个杀手级应用，但向量数据库作为一个基础支撑，未来的场景一定是横跨计算机视觉、自动驾驶、推荐系统、AI制药多领域、多模态的。

36氪：推荐系统、AI制药等场景，在大模型出现之前也是向量数据库的应用场景。

星爵：是的。其实在过去的5年，我们在刚才提及的这些领域里也都积累了非常多的用户。

如果简单来讲，大语言模型是第一个让向量数据库拥有100万个企业级用户的产品。之前所有场景加起来，我们可能有1万个企业级用户，现在大语言模型可以让我们有100万个企业级用户的可能。但是接下来，随着计算机视觉、视频多模态的打通，向量数据库可能也会有更多场景，我们的企业用户可能会达到上百万。这也是下一个Killer Application。

最大误读：向量数据库没有门槛

36氪：最近半年向量数据库确实破圈，但火热中也有争议。比如有人说自己不需要专业的向量数据库，用ES加上向量检索引擎就可以。

星爵：场景不一样。用ES做基于倒排索引，不具备模糊查询的能力。

而大语言模型的信息检索、知识库检索其实需要一个近似检索，对于相同的问题，它可能会有不同的答案。对于不同的问题，它也会有类似的答案。ES是解决不了这种近似查询需求的，这是向量数据库独有的能力。

36氪：在这半年里，很多企业想用大模型，但或许对大模型的应用场景、能力有些错位的预期。相应地，你有没有观察到这半年向量数据库也存在一些误解？

星爵：就我自己的观察，过去半年向量数据库突然火起来，导致很多厂商争先恐后进入这一赛道。本质上我觉得有竞争是个好事情，但这反而让一些人感到向量数据库的门槛不高，这是一个最大的误解。

我们做了5年，而且是一个专业的数据库团队在做。我们认为，向量数据库可能是人类历史上最复杂的一个数据库系统。

比如，向量数据库要处理海量的高维数据，传统数据库要处理的是一维数据。一个关系型数据库，它每一列建索引，本质上是在一维的数据上面建。比如说在年龄上面建索引，在工作单位上面建索引，在兴趣爱好上面建索引。

而向量数据库里存储了低则几百维，多则几千维的高维数据。它既是一个计算密集型，又是存储密集型的产品，系统设计其实相当复杂。

36氪：比如，Zilliz之前在产品设计上遇到过怎样的挑战？

星爵：举个例子，在传统数据库里面很多是单机解决方案。数据量大时，数据库做扩展会在业务层做分库分表，再用负载均衡，把请求平均分配到不同的单机版实例上。

2019年左右，我们的1.0版本也采用了这样一个比较简单的架构，就是用一个单机版方案，基于代理的负载均衡支持一定范围的分库分表和扩展。但是接下来，我们发现这里存在很大的问题。第一，向量数据库的向量数据增长很快。第二，很多用户需要数据实时的能力，既要做实时的更新，还要做实时的查询。还有一种特别大的需求，就是用户在处理非结构化的数据时需要一个动态的Schema。

传统的数据库落地场景中，用户可能在电商这个品类里已经自己知道大概有五、六千万个SKU，中间可能有几百个大类，几千个小类。他自己可以基于这种类别进行分库分表。

但非结构化数据的处理场景，变化很快，用户可能随时要多加一个维度的信息进来。他很难从第一天就确定自己的业务逻辑，完全了解未来的业务逻辑，再按照业务逻辑做分库分表。所以，他不能够去做分库分表，反而对动态Schema的要求特别高。看到这样的一些场景以后，我们从2020年开始，果断做了Milvus2.0的设计，是一个完全的分布式解决方案，也支持动态Schema。用户不用在自己的业务逻辑方面去做取舍，可以支持快速变化的业务场景。

对于Zilliz来说，从1.0版本到2.0版本，也付出了很大的研究成本。

36氪：说到壁垒和竞争，确实入局向量数据库的公司越来越多了，比如有些方案是基于ClickHouse改造。在你看来，不同基因的向量数据库是否适用的市场不一样？

星爵：是专业选手和业余选手的区别。如果用户的向量数据量不大，对延时吞吐率的要求也不高，比如只有数百万个向量，能够接受秒级延迟，吞吐率可能在100以内，这类用户可以用基于Redis、ES，甚至你讲的ClickHouse改造的方案去实现。

但如果说用户的数据量比较大，在千万级以上，需要毫秒级的响应。比如，我们就有很多用户需要10毫秒以内的响应，需要一个很高的吞吐率。甚至有些用户最高每秒钟有5万个查询请求，这样的一些场景，必须且只有专业的向量数据库产品才能提供这么好的性能，支持这么高的数据量。

和Faiss等向量检索库，以及一些在传统数据库上魔改出的插件方案对比，专业向量数据库更快、更强、更大，可以有更快的查询效率、更高的吞吐率、能容纳更大的数据处理规模。最终，用户会看到更加合适的性价比。

36氪：所以框定向量数据库最佳客户画像的维度，首先是业务场景，接着是数据规模，和对延时性、吞吐率的需求。

星爵：对，第一个是和大模型结合，另外就是推荐系统、图片检索、视频分类等场景。

具体就是刚才讲的三个维度，第一个是企业的数据量大小，数据量越大就越可能会用一个专业向量数据库，一般来说是千万级的向量是一个门槛。

第二是说它需要查询的实时性，需要秒级甚至秒内的响应。第三个就是吞吐率，吞吐率和使用人数相关。就是看有多少用户要用这个系统，比如一个小团队，可能就20个人，一天都不会有人同时做查询，QPS可能就是1~2，这种情况用其他方案是可以的。但比如，36氪网站上要做所有以前文章的检索和查询，要提供一个用户实时搜索功能，估计每秒钟至少是几十、上百个查询，这种吞吐率的要求，就需要用到向量数据库，而不是Faiss这种检索库、或者插件以及魔改方案。

36氪：另一个现象，近期国内大厂纷纷发布向量数据库和行业模型的组合，会对Zilliz产生怎样的影响？

星爵：向量数据库和大模型之间确实有很紧密的合作关系。但不局限于行业模型，Zilliz更加关注类似于OpenAI的通用模型。基于向量数据库+大模型的 Retrieval Augmented Generation 是我们目前关注的新的开发范式。接下来， Zilliz 也将继续与国内主要的大模型厂商一起合作，围绕向量数据库和大模型构建新的方案。

36氪：互联网大厂也会自己发布向量数据库，和Zilliz的产品会有怎样的差异化？

星爵：一句话总结，Not all Vector databases are born equal。自诞生第一天起，Milvus 和 Zilliz Cloud 就关注于服务企业级用户，面向生产环境，也是全球第一个能够支持百亿规模向量的向量数据库。在我们发布的VectorDB benchmark中，Milvus 的性能也在多个数据集中大幅领先。另外，在Zilliz自己的产品体系里面，Zilliz Cloud 相较于开源的Milvus，更加关注开箱即用的使用体验，不仅提供了Serverless 实例，也提供了数据备份、迁移、导入、主备容灾等一系列服务化的能力。

36氪：现在我们的客户、用户还会提出什么新需求？

星爵：其实大模型这个时代，我觉得向量数据库在底层架构方面不需要做很多更改，基本上可以满足用户需求。但从上层的产品和功能方面来说，用户的确提出了很多要求。

不久前，我们对自己的产品进行面向大模型的升级。大模型时代，很多应用开发者进入到我们的视野。以前，可能向量数据库的使用群体是全球的100万个AI开发者。而过去半年，我们看到全球数千万的应用开发者在接入大模型，开发大语言模型的应用，也开始使用向量数据库。为了提升易用性，我们做了两个比较大的更新，一是基于应用开发者的使用习惯，提供了Restful的API，方便他们调取。第二，由于他们的应用场景更加灵活，变化更快，因此需要灵活的Schema，针对这个需求我们也做了升级。

36氪：海内外用户的需求或许挺有差异？

星爵：我觉得存在一些差异。主要在于，国外的大模型应用落地早于国内，所以国外大语言模型应用的爆发比国内大概早半年。

但国内市场我们也在积极布局，7月我们也发布了面向国内的云产品，支持国内的用户跑在国内的公有云之上。个人认为，今年下半年中国的大模型应用开发会迎来热潮。

36氪：一年前我们谈到，Zilliz的市场化会在海外。大模型出现后，国内企业也很积极，Zilliz的重点依旧会是海外市场吗？整体的商业化策略是？

星爵：接下来我们还是要立足全球市场，但也会兼顾中国市场。商业化层面，我们肯定是立足于开源，发布云原生产品。开源会成为很重要的获客渠道，我们会利用开源去进行用户转化。

另一方面，Zilliz的商业模式会构建在公有云之上。经过近期的更新，我们在公有云上可以提供三个不同系列的产品，第一个面向个人开发者和小团队，第二个是公有云上代理，面向于中小型企业，第三种是对数据的安全性要求更高的大企业，我们提供专有云方案。Zilliz整体的目标是，立足于云计算，在云上为客户提供多种不同类型的产品。

36氪旗下数智公众号

👇🏻 真诚推荐你关注 👇🏻

来个“分享、点赞、在看”👇

向量数据库的增长、破圈和争议

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章