Redian新闻
>
被黄仁勋和OpenAI接连点名,这家向量数据库公司终迎「iPhone时刻」|年度AI对话

被黄仁勋和OpenAI接连点名,这家向量数据库公司终迎「iPhone时刻」|年度AI对话

公众号新闻

和Zilliz聊聊大模型时代,向量数据库的增长、破圈和争议。


真梓

来源|数字时氪(ID:digital36kr)

封面来源IC photo

2023年夏天的一个午后,向量数据库公司Zilliz创始人兼CEO星爵的头像准时闪动在视频会议中。
距离36氪上次见到这个头像,恰好过去一年——2022年8月,身在美国的星爵同样通过视频会议的方式和36氪连线。
一切看似毫无变化,但会议室中的每一位都心知肚明,这是完完全全、彻底不同的一年。
今年1月底,ChatGPT上线两月便收割1亿月活用户。随后,百川智能、光年之外等中国大模型创企批量成立,国外Anthropic、Runway、LangChain等拿下知名风投巨额投资。接下来,各企业开始风靡训练行业模型、探索AI应用。
向量数据库——这一曾经小众IT产品的高光时刻同期而至。
催化剂首先出现在3月的英伟达GTC大会中,一身皮衣的黄教主在洗脑般宣告“AI iPhone时刻已至”后,专门讲到向量数据库和英伟达的结合场景。不久后,OpenAI在发布Plugin插件功能时,强调用户可以通过向量数据库,让大模型访问个性化数据。
大模型出现前,向量数据库的使用场景常限于推荐系统、视觉检索等,会被投资者质疑市场天花板不高,空间有限。也正因此,向量数据库的名字很少被非专业从业者听闻——纵观全球,三年前专注于此的创业公司很可能不超过5家。
但随着大模型爆火,向量数据库帮助大模型更新数据、构建知识库、消除幻觉的能力愈发被普及。这个之前一点也不拥挤的领域,短短几月内承载的关注度超出以往任何时刻。
作为全球第一家开源向量数据库产品的公司,成立于2017年的Zilliz,在年初被英伟达、OpenAI分别提及后,立刻迎来用户量的飞速增长。
“我们和英伟达、OpenAI合作得比较早,但某种意义上它们的提及,帮Zilliz破圈了。”星爵对36氪表示。随着大模型和向量数据库的组合方案被认可,今年6月,Zilliz在2019年开源的向量数据库产品Milvus,在GitHub上的star总数达到2万——其中,有近一半star是今年大模型出现后的新增。不止开源,星爵预测,今年年底Zilliz的商业化收入会比年初增长20~30倍。
而在增长、破圈之中,争议随之而来。
当云厂商、大数据公司批量发布相关产品,一级市场水下项目悄然出现,海外同类公司一月内获投5家,向量数据库不再是鲜有人踏足的无人区。于是,关于向量数据库产品门槛不高、不值得投资的说法开始出现。对此星爵直言,“向量数据库技术门槛不高”,是他从业数年里看到的最大误读。
“传统数据库只需要处理一维数据,向量数据库里低则是几百维,多则是几千维的高维数据。它既是一个计算密集型,又是存储密集型的产品,系统设计相当复杂。”星爵觉得,向量数据库恰恰可能是人类历史上最复杂的一个数据库系统。
另一个疑惑是,随着国内外愈发多不同背景的企业入局,作为专业向量数据库厂商的Zilliz,此时又会如何定义自己?
对此星爵首先表示,Zilliz是“长期主义的幸存者”。过去五年,即便各类质疑不断,但他和Zilliz最深的恐惧,却是环顾四周无人同行,“最怕Zilliz做五、六年,还独自站在一个赛道里,那可能是一开始的方向就选错了”。
面对潜在竞争,他眼中的向量数据库分为专业选手和非专业选手,不同选手对应着不同市场。
“对不需要专业产品的场景来说,Faiss等向量检索库,或各类传统数据库的改造方案已能满足需求。但我们这类专业选手,最适合数据量大、查询实时性和吞吐率要求高的场景。”即便已成大模型时代的全球明星企业,星爵依旧以技术人的视角细致分析,“和其他方案相比,专业向量数据库有更快的查询效率,更高的吞吐率,能容纳更大的数据处理规模。最终,用户会看到更合适的性价比。”

以下是36氪和Zilliz创始人兼CEO星爵的对话(经编辑):

开源社区一年增幅打平过去三年,大模型让向量数据库破圈

36氪:今年大模型火爆,Zilliz作为合作方被英伟达和OpenAI分别提及,当时你的感受是?
星爵:其实Zilliz和英伟达、OpenAI已经合作过比较长的时间。
我们和英伟达的合作从2018年就开始,和OpenAI的合作始于去年。所以其实Zilliz没有特别关注会不会被提及,大家只是在共同解决比较有趣的技术问题。
不过,它们提到Zilliz以后,国内的确引起比较多的反响。我们差不多从5年前就开始做向量数据库,某种意义上它们的提及,帮Zilliz破圈了。
36氪:最近半年Zilliz业务的增长如何?开源和商业化两方面都可以谈谈。
星爵:6月我们的star数量到了2万。而去年6月份,我们star数破1万。从时间来看,Zilliz 2019年开源了向量数据库产品Milvus,三年时间GitHubstar数破1万,后面一年破2万,等于这一年有3倍的增速。而从开源的情况观察,我们现在有70~80%的客户来自于全球。
36氪:那么商业化方面呢?
星爵:我们预计今年年底对比年初,会有20~30倍的增幅。
这种进展,首先来自大模型爆发的推动,大模型对我们来说属于Killer Application。
大模型的应用里,很多企业要建造专有知识库。而知识库的数据要用向量数据库进行处理、检索,再和大模型做整合,这是一个现在看来最高效、最准确、性价比也很高的最优解。
这是一个不分行业的需求。每个企业都有自己的知识库,如果每个企业都需要一个大模型,那么理论上都需要用向量数据库改造知识库。今年对我们来说,这块需求确实长了很多。
我们还看到一个比较有趣的现象,就是大模型的发展也促进了向量数据库在另外一些场景,如多模态,计算机视觉、推荐系统、自动驾驶、生物制药方面的增长。
我觉得大模型是一个特别好的催化剂。它作为首个Killer Application,让向量数据库走入了主流开发者、工程师的视野,让它破圈。
36氪:关于大模型和向量数据库的结合,之前也看到Zilliz从存储、计算成本的方面解释过向量数据库的优势。
星爵:是的。如果从生物学角度,我觉得人脑之所以能进化出海马体,是大脑的区域要分工,让人体更高效。
放到计算机科学里,过去的几十年里,经典的冯·诺依曼架构强调存储与计算分离。存算分离的一个核心原因是,它能达到成本和效率的最佳平衡。存储的价格在历史中远低于计算的价格,计算的价格是很贵的。存储和计算分离以后,如果有些任务我们之前处理过,我们学会了那些东西,那就不用再在计算单元里面重新做处理,直接从存储体里去调用就好。
36氪:那么,模型上下文能力的扩大(比如近期升级的Claude),是否会对向量数据库“海马体”的定位造成些许影响?
星爵:大模型上下文的扩大将更加有利于接受更复杂的上下文信息,这等于扩大了CPU 和存储之间的带宽,本质上更利于向量数据库和大模型的结合。无论大模型的参数达到多大规模,上下文多长,大模型始终只是数据的有损压缩,依然有大量的长尾信息需要通过信息检索的方式补齐。
36氪:另一个大的应用场景——消除幻觉也有不同的方案。你觉得向量数据库在消除幻觉方面的特别之处在于?
星爵:解决幻觉主要有两种方法,一种是向量数据库+Prompt,另外一种是Fine-Tune。我觉得向量数据库和Prompt其实是密不可分的。
消除幻觉的过程是把知识库向量化以后,通过向量数据库找到相关知识点,再把相关的知识点的需求,通过Prompt反馈给大模型。
Fine-Tune是另外一种方式,和向量数据库加上Prompt的方式去比,实施成本更高。主要涉及两个方面,第一,它要对大模型进行更改和训练。完整训练一个大模型,可能需要上万块GPU,成本可能是数千万美金,每次Fine-Tune的成本是非常高的。
第二个点,Fine-Tune对人员的要求很高,AI工程师领域博士人才一将难求,工资也很高。Fine-Tune需要懂AI的专业人员才能去实施,真正具备这样知识技能的人,现在全球不超过100万。
整体来看,现在向量数据库+Prompt的方案,可以使每一个应用开发者,使每一个产品经理都能轻轻松松帮大模型消除幻觉。
36氪:你怎么看纯粹的Prompt?提示词工程也被看作消除幻觉的方式之一。
星爵:它可能是另外一种场景,其实不是消除幻觉。
Prompt可以让大模型有一个更精准的设定,比如说你给大模型的人设是一个有10年工作经验的Java工程师,那么你再问它一个Java相关的问题,它会回答的更精准。我觉得本质上这不是在消除幻觉,而是让你优化自己的问题。
其实大模型本质上已经具备了一个20年工作经验的Java工程师的知识,只是看你能不能用正确的方式引导。但如果今天你发明了一个新的语言,叫Java36。这个语言是36氪内部发明的、对外部没有公开材料的语言,那么大模型肯定是不知道的。这时你需要用向量数据库,把这些关于Java36的私域知识告诉大模型。
未来增量场景:智能体、多模态
36氪:在构建知识库、大模型的海马体之外,你还看到了什么新兴的向量数据库场景?
星爵:我们现在看到的新兴场景是智能体。智能体的外形不重要,是不是人的形状也不重要。本质上来讲,它要具备高度理解能力,能够快速迭代学习。任何一个生物体的智能都需要记忆,向量数据库在智能体里会扮演记忆体这个核心组件的角色。有了记忆体,智能体就可以做迭代。也就是同样一个事情,智能体第二次做要比第一次更好,接下来就可以做更强的思维推导,完成一些更复杂的任务。
这还是因为,大模型不具备很长的上下文,在记忆方面是比较缺失的,所以需要向量数据库帮忙记住上下文,帮它完成更复杂的任务。
36氪:知识库、智能体,都是大模型时代的探索热点。在这些热点场景的加持下,你觉得现在是向量数据库的iPhone时刻吗?还是需要等待多模态大模型?
星爵:我觉得现在是iPhone时刻。因为多模态是离不开大语言模型的。正如我们人类,人类有视觉,有嗅觉,什么感官都有,但是人类所有信息的沟通是语言串起来的。
除了图片视频以外,生物学,新药研制这些领域有很多大模型,而这些大模型其实也和大语言模型结合紧密。一个蛋白质,一个分子结构,最终的功能表达还是用语言去描述。
语言模型是我们出现的第一个大模型。大模型以后也会在多模态、跨模态里扮演很重要的角色。基础模型在未来两三年内会有更大的发展,会和大语言模型一起支持更多模态。就是通过一个比较大的语言模型,把跨模态打通。
大语言模型是向量数据库的第一个杀手级应用,但向量数据库作为一个基础支撑,未来的场景一定是横跨计算机视觉、自动驾驶、推荐系统、AI制药多领域、多模态的。
36氪:推荐系统、AI制药等场景,在大模型出现之前也是向量数据库的应用场景。
星爵:是的。其实在过去的5年,我们在刚才提及的这些领域里也都积累了非常多的用户。

如果简单来讲,大语言模型是第一个让向量数据库拥有100万个企业级用户的产品。之前所有场景加起来,我们可能有1万个企业级用户,现在大语言模型可以让我们有100万个企业级用户的可能。但是接下来,随着计算机视觉、视频多模态的打通,向量数据库可能也会有更多场景,我们的企业用户可能会达到上百万。这也是下一个Killer Application。

最大误读:向量数据库没有门槛
36氪:最近半年向量数据库确实破圈,但火热中也有争议。比如有人说自己不需要专业的向量数据库,用ES加上向量检索引擎就可以。
星爵:场景不一样。用ES做基于倒排索引,不具备模糊查询的能力。
而大语言模型的信息检索、知识库检索其实需要一个近似检索,对于相同的问题,它可能会有不同的答案。对于不同的问题,它也会有类似的答案。ES是解决不了这种近似查询需求的,这是向量数据库独有的能力。
36氪:在这半年里,很多企业想用大模型,但或许对大模型的应用场景、能力有些错位的预期。相应地,你有没有观察到这半年向量数据库也存在一些误解?
星爵:就我自己的观察,过去半年向量数据库突然火起来,导致很多厂商争先恐后进入这一赛道。本质上我觉得有竞争是个好事情,但这反而让一些人感到向量数据库的门槛不高,这是一个最大的误解。
我们做了5年,而且是一个专业的数据库团队在做。我们认为,向量数据库可能是人类历史上最复杂的一个数据库系统。
比如,向量数据库要处理海量的高维数据,传统数据库要处理的是一维数据。一个关系型数据库,它每一列建索引,本质上是在一维的数据上面建。比如说在年龄上面建索引,在工作单位上面建索引,在兴趣爱好上面建索引。
而向量数据库里存储了低则几百维,多则几千维的高维数据。它既是一个计算密集型,又是存储密集型的产品,系统设计其实相当复杂。
36氪:比如,Zilliz之前在产品设计上遇到过怎样的挑战?
星爵:举个例子,在传统数据库里面很多是单机解决方案。数据量大时,数据库做扩展会在业务层做分库分表,再用负载均衡,把请求平均分配到不同的单机版实例上。
2019年左右,我们的1.0版本也采用了这样一个比较简单的架构,就是用一个单机版方案,基于代理的负载均衡支持一定范围的分库分表和扩展。但是接下来,我们发现这里存在很大的问题。第一,向量数据库的向量数据增长很快。第二,很多用户需要数据实时的能力,既要做实时的更新,还要做实时的查询。还有一种特别大的需求,就是用户在处理非结构化的数据时需要一个动态的Schema。
传统的数据库落地场景中,用户可能在电商这个品类里已经自己知道大概有五、六千万个SKU,中间可能有几百个大类,几千个小类。他自己可以基于这种类别进行分库分表。
但非结构化数据的处理场景,变化很快,用户可能随时要多加一个维度的信息进来。他很难从第一天就确定自己的业务逻辑,完全了解未来的业务逻辑,再按照业务逻辑做分库分表。所以,他不能够去做分库分表,反而对动态Schema的要求特别高。看到这样的一些场景以后,我们从2020年开始,果断做了Milvus2.0的设计,是一个完全的分布式解决方案,也支持动态Schema。用户不用在自己的业务逻辑方面去做取舍,可以支持快速变化的业务场景。
对于Zilliz来说,从1.0版本到2.0版本,也付出了很大的研究成本。
36氪:说到壁垒和竞争,确实入局向量数据库的公司越来越多了,比如有些方案是基于ClickHouse改造。在你看来,不同基因的向量数据库是否适用的市场不一样?
星爵:是专业选手和业余选手的区别。如果用户的向量数据量不大,对延时吞吐率的要求也不高,比如只有数百万个向量,能够接受秒级延迟,吞吐率可能在100以内,这类用户可以用基于Redis、ES,甚至你讲的ClickHouse改造的方案去实现。
但如果说用户的数据量比较大,在千万级以上,需要毫秒级的响应。比如,我们就有很多用户需要10毫秒以内的响应,需要一个很高的吞吐率。甚至有些用户最高每秒钟有5万个查询请求,这样的一些场景,必须且只有专业的向量数据库产品才能提供这么好的性能,支持这么高的数据量。
和Faiss等向量检索库,以及一些在传统数据库上魔改出的插件方案对比,专业向量数据库更快、更强、更大,可以有更快的查询效率、更高的吞吐率、能容纳更大的数据处理规模。最终,用户会看到更加合适的性价比。
36氪:所以框定向量数据库最佳客户画像的维度,首先是业务场景,接着是数据规模,和对延时性、吞吐率的需求。
星爵:对,第一个是和大模型结合,另外就是推荐系统、图片检索、视频分类等场景。
具体就是刚才讲的三个维度,第一个是企业的数据量大小,数据量越大就越可能会用一个专业向量数据库,一般来说是千万级的向量是一个门槛。
第二是说它需要查询的实时性,需要秒级甚至秒内的响应。第三个就是吞吐率,吞吐率和使用人数相关。就是看有多少用户要用这个系统,比如一个小团队,可能就20个人,一天都不会有人同时做查询,QPS可能就是1~2,这种情况用其他方案是可以的。但比如,36氪网站上要做所有以前文章的检索和查询,要提供一个用户实时搜索功能,估计每秒钟至少是几十、上百个查询,这种吞吐率的要求,就需要用到向量数据库,而不是Faiss这种检索库、或者插件以及魔改方案。
36氪:另一个现象,近期国内大厂纷纷发布向量数据库和行业模型的组合,会对Zilliz产生怎样的影响?
星爵:向量数据库和大模型之间确实有很紧密的合作关系。但不局限于行业模型,Zilliz更加关注类似于OpenAI的通用模型。基于向量数据库+大模型的 Retrieval Augmented Generation 是我们目前关注的新的开发范式。接下来, Zilliz 也将继续与国内主要的大模型厂商一起合作,围绕向量数据库和大模型构建新的方案。
36氪:互联网大厂也会自己发布向量数据库,和Zilliz的产品会有怎样的差异化?
星爵:一句话总结,Not all Vector databases are born equal。自诞生第一天起,Milvus 和 Zilliz Cloud 就关注于服务企业级用户,面向生产环境,也是全球第一个能够支持百亿规模向量的向量数据库。在我们发布的VectorDB benchmark中,Milvus 的性能也在多个数据集中大幅领先。另外,在Zilliz自己的产品体系里面,Zilliz Cloud 相较于开源的Milvus,更加关注开箱即用的使用体验,不仅提供了Serverless 实例,也提供了数据备份、迁移、导入、主备容灾等一系列服务化的能力。
36氪:现在我们的客户、用户还会提出什么新需求?
星爵:其实大模型这个时代,我觉得向量数据库在底层架构方面不需要做很多更改,基本上可以满足用户需求。但从上层的产品和功能方面来说,用户的确提出了很多要求。
不久前,我们对自己的产品进行面向大模型的升级。大模型时代,很多应用开发者进入到我们的视野。以前,可能向量数据库的使用群体是全球的100万个AI开发者。而过去半年,我们看到全球数千万的应用开发者在接入大模型,开发大语言模型的应用,也开始使用向量数据库。为了提升易用性,我们做了两个比较大的更新,一是基于应用开发者的使用习惯,提供了Restful的API,方便他们调取。第二,由于他们的应用场景更加灵活,变化更快,因此需要灵活的Schema,针对这个需求我们也做了升级。
36氪:海内外用户的需求或许挺有差异?
星爵:我觉得存在一些差异。主要在于,国外的大模型应用落地早于国内,所以国外大语言模型应用的爆发比国内大概早半年。
但国内市场我们也在积极布局,7月我们也发布了面向国内的云产品,支持国内的用户跑在国内的公有云之上。个人认为,今年下半年中国的大模型应用开发会迎来热潮。
36氪:一年前我们谈到,Zilliz的市场化会在海外。大模型出现后,国内企业也很积极,Zilliz的重点依旧会是海外市场吗?整体的商业化策略是?
星爵:接下来我们还是要立足全球市场,但也会兼顾中国市场。商业化层面,我们肯定是立足于开源,发布云原生产品。开源会成为很重要的获客渠道,我们会利用开源去进行用户转化。
另一方面,Zilliz的商业模式会构建在公有云之上。经过近期的更新,我们在公有云上可以提供三个不同系列的产品,第一个面向个人开发者和小团队,第二个是公有云上代理,面向于中小型企业,第三种是对数据的安全性要求更高的大企业,我们提供专有云方案。Zilliz整体的目标是,立足于云计算,在云上为客户提供多种不同类型的产品。


36氪旗下数智公众号

👇🏻 真诚推荐你关注 👇🏻

来个“分享、点赞、在看”👇

向量数据库的增长、破圈和争议

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
苹果下一个“iPhone时刻”,要看库克的刀法ChatGPT 和 OpenAI 都在用的 Redis,是如何从传统数据库升级为向量数据库的?向量数据库再迎新变化!头部公司产品更新引热议,开启大模型落地新范式苹果Vision Pro:欲再造“iPhone时刻”黄仁勋和他的“万亿市值帝国”英伟达ChatGPT 都推荐的向量数据库,不仅仅是向量索引nǚ hóng?nǚ gōng向量数据库内核面临的技术挑战及应对措施AI 原生向量数据库 : 大模型的“黄金搭档”, 能提供“记忆海绵”并非所有向量数据库都生来平等 - 找到属于你的向量数据库老黄深夜炸场,AIGC进入iPhone时刻!Hugging Face接入最强超算,神秘显卡胜过A100训练大模型之前,你要了解下向量数据库、算力集群、高性能网络技术底座吗?向量数据库会是 AI 的“iPhone 时刻”吗?| 《架构师》9月刊开放下载要忘多少次你才承认自己老了与向量数据库 Pinecone 工程经理聊 ChatGPT 插件星环科技向量数据库从 0 到 1 技术实践:提升数据处理的精确度是重中之重两个多月完成全自研:大模型之争,从 GPU 卷到了向量数据库没有 “专业” 的向量数据库,大模型就玩不转了吗?卜算子·缘ChatGPT盛行的当下,向量数据库为大模型配备了一个超级大脑腾讯云发布向量数据库产品,AI Native成关键词丨最前线腾讯云大模型领域新动向!向量数据库作为独立产品推出,8月正式上架北美有的,中国也有了!Zilliz Cloud向量数据库云服务重磅登场大模型商用新解法:CVP架构崛起,向量数据库破圈马斯克的脑机终于要接入人脑,「 iPhone 时刻」什么时候来?仿生机器人大咖谈现状:说iPhone时刻有点早,诺基亚时刻刚刚好人工智能,大陆还能赶上吗?Zilliz创始人兼首席执行官星爵演讲实录 | 向量数据库:大模型的记忆体对话OpenAI科学家:iPhone时刻还没有到来苹果发布MR头显 XR的“iPhone时刻”来了?给大模型持久记忆!GitHub 2万星向量数据库云服务升级,国内云产品7月上线为什么16-24岁的年轻人失业率高达20%?AI下一步已明确!黄仁勋预测的方向,特斯拉和OpenAI疯狂追赶冷却的不止季节(74)— 消息XR的iPhone时刻今晚到来,苹果头显能否重塑元宇宙?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。