今年向量数据库“杀疯了”,但纯向量数据库“凉”了?| 盘点
“InfoQ 年度 技术盘点与展望”是 InfoQ 全年最重要的内容选题之一,将涵盖操作系统、数据库、AI、大数据、云原生、架构、大前端、编程语言、开源安全、数字化十大方向,后续将聚合延展成专题、迷你书、直播周、合集页面,在 InfoQ 媒体矩阵陆续放出,欢迎大家持续关注。
特此感谢 Fabarta 技术团队、胡宗星、简丽荣、李洁、杨志丰(竹翁)(按姓名首字母排序)对本文的贡献,他们的真知灼见,是本文能与大家见面的关键。
2023 年,大模型爆火,也给数据库领域带来了一些新风向。过去一年,中国数据库行业发展迅速,随着数据量与复杂度的提高,行业对分析和查询特性提出了更高的要求,并行化、实时性、湖仓一体等特性成为主流需求。同时,随着 AI 应用的普及,数据库需要提高对向量分析和 AI 应用的支持能力,这一点也成为行业共识,而 AI 应用也带来了库内分析智能化的新机遇。与此同时,向量数据库(Vector Database)“异军突起”。
向量数据库,顾名思义,是一种以向量数据为基础的数据库。在传统的关系型数据库中,数据是以表格的形式存储的,而在向量数据库中,数据则是以向量的形式存储的。这种新型的数据库技术,能够更有效地处理和分析大数据,因此在大数据时代中受到了广泛的关注和应用。
在今年数据库领域所有的技术趋势中,向量数据库无疑成为了最受瞩目的一个。
1 月 10 日,KaiwuDB(原:开务数据库) 发布了 KaiwuDB 1.0 时序数据库,其运用到实时就地运算等核心专利技术,专为工业物联网、数字能源、交通车联网、智慧产业等场景设计。
3 月 31 日,openGauss 5.0.0 里程碑版本发布。openGauss 5.0.0 是 openGauss 发布的第三个 LTS 版本,版本生命周期为 3 年。openGauss 5.0.0 版本与之前的版本功能特性保持兼容,在内核能力、工具链、兼容性方面全面增强。
3 月 25 日,OceanBase 推出 4.1 版本,据称,4.1 版本实现了事务处理(TP)性能提升 40%,数据分析(AP)性能提升 15%,全面兼容开源数据库 MySQL8.0 及相关系统函数、窗口函数等。
4 月 4 日,TiDB 7.0 正式发布。新版本中累计引入新特性 20 余项,优化功能 50 余项。TiDB 7.0 是 TiDB 7 系列首个 DMR 版本,适用于开发、测试和 PoC 等场景。
4 月 21 日,荷兰 AI 原生向量数据库厂商 Weaviate 获得 5000 万美元 B 轮融资。27 日,美国明星向量数据库厂商 Pinecone 宣布筹集了 1 亿美元的 B 轮融资。
6 月 15 日,星环科技分布式向量数据库 Transwarp Hippo 正式发布。
6 月 30 日,九章云极 DataCanvas 将 DingoDB 升级为多模向量数据库,并已于去年开源。
7 月 4 日,腾讯云发布 AI 原生向量数据库。
9 月 19 日,Fabarta 正式发布 ArcNeural 多模态智能引擎,支持图、向量和 AI 推理的一体化融合。
10 月 17 日,柏睿数据在北京证监局办理辅导备案登记,拟首次公开发行股票并上市。
11 月 15 日,中国信通院联合腾讯云计算(北京)有限责任公司、中移(苏州)软件技术有限公司、北京枫清科技有限公司(Fabarta)等多家企业共同编制的、国内首个向量数据库标准正式发布。
人工智能是当前最热门的技术之一,它与数据库的融合将成为数据库领域的一个重要趋势。AI 可以帮助数据库更好地处理和分析数据,提高数据处理的效率和准确性。同时,AI 也可以帮助数据库更好地支持业务决策,提高企业的竞争力。
随着大模型的兴起和向量计算的重要性日益突出,向量数据库的发展也受到了广泛的关注。向量数据库专注于存储和处理向量数据,并提供高效的向量搜索和相似性匹配功能。这种数据库的出现是为了满足越来越多应用场景对于高维度数据和向量计算的需求。
在近年来,一些数据库厂商已经开始原生支持向量嵌入和向量搜索的功能,并提供了相应的向量索引和查询优化技术。这使得开发人员能够更方便地在数据库中存储和查询向量数据,而无需依赖额外的工具或库。
除了大语言模型的推动外,向量数据库在自身技术上也取得了重大突破,特别是在性能优化、数据处理能力和安全性方面。各数据库厂商和研究机构都在致力于改进向量数据库的算法和架构,以提高其处理大规模数据的能力。
英伟达 CEO 为向量数据库“站台”更将向量数据库的关注度推向了最高点。在今年的英伟达 GTC 大会上,英伟达 CEO 黄仁勋三次强调 AI 的“iPhone 时刻”已经到来,他也提及了 GPU 加速的重要性。黄仁勋称,“加速计算并非易事,需要从芯片、系统、网络、加速库到重构应用的全栈发明,每个经过优化的堆栈都会加速对应应用领域。”“加速计算是减少功耗、实现可持续发展和净零排放的最好方式。”
而在加速库部分,黄仁勋提到了向量数据库的重要性。“向量数据库的一个新型重要用例是大型语言模型,在文本生成过程中可用于检索领域特定事实或专有事实。英伟达将推出一个新的库,即 RAFT,用于加速索引、数据加载和近邻检索。我们正在将 RAFT 的加速引入到 Meta 的 AI 向量相似性搜索 FAISS、Milvus 开源向量数据库以及 Redis。”他如是说。
在资本市场,近一年来向量数据库是当之无愧的“资本宠儿”,Qdrant、Chroma、Weaviate 先后获得融资,成立短短几年的 Pinecone 宣布 1 亿美元 B 轮融资,估值达到 7.5 亿美元。
东北证券预测,到 2030 年,全球向量数据库市场规模有望达到 500 亿美元,国内向量数据库市场规模有望超 600 亿人民币。
无论从技术演进还是资本市场来看,向量数据库都是 2023 年度最亮眼的“年度之星”。
在大模型兴起之前,传统数据库已经在不断尝试与 AI 结合,主要涉及以下几个方向:AI for DB、DB for AI 和预测估算。随着大模型的兴起,可以看到在这些方向上,数据库与 AI 间的关联比以往任何时候都要密切。
首先是"AI for DB",即将人工智能(AI)应用于数据库。AI 技术可以嵌入到传统数据库中,使其具备更智能的功能。例如,通过 AI 大模型,数据库可以实现更高级的数据分析、智能搜索和推荐等功能。AI 技术的应用使得数据库能够更好地理解和处理数据,提供更精确的查询结果和分析报告。
其次是"DB for AI",即数据库为 AI 提供支持和服务。传统数据库可以为 AI 大模型提供结构化数据和非结构化数据高效的存储和查询能力。由于 AI 大模型通常需要处理大规模的数据,传统数据库的可伸缩性和性能变得尤为重要。数据库可以通过融合查询和差异化存储等技术,提供快速的数据访问和处理能力,满足 AI 模型对数据的高效需求。
此外,AI 大模型的兴起还为数据库注入了预测估算的能力。AI 模型可以通过学习历史数据和模式,对未来的趋势和结果进行预测和估算。传统数据库可以集成 AI 模型,实现对数据的预测分析。这使得数据库可以不仅提供对历史数据的查询和分析,还能够提供对未来数据的预测和估算结果,帮助用户做出更准确的决策。
总的来说,几乎所有类型的数据库都在积极向 AI 靠拢,比如在数据库中添加向量索引,数据库和 AI 已经密不可分。
此外,AI 也迫切地需要从非结构化数据中创造价值。
各种调查表明,大多数非结构化数据没有被使用或分析来支持业务决策。企业可能缺乏大规模分析计划的资金,但他们也可能缺乏正确的方法来更好地利用他们存储和收集的所有数据。由于存储和分析 PB 级数据或数百万个文件的成本很高,因此利用 AI 技术挖掘数据在经济上的价值至关重要。
但为了推动使用 AI 技术从非结构化数据中提取价值,组织内部需要有一个数据管理框架,使 AI 技术更值得信赖、更易于使用。它需要提供自动化的工作流程,在处理数据时能够自动查找、排序、标记数据以及将数据移入或移出 AI 系统和其他位置。另一个问题是,如今任何组织内部可能没有能够为 AI 提供正确的非结构化数据的完整数据清单,这就要求我们要保留所有数据的可搜索索引,并且无论数据采用何种技术,都能够访问该数据,这对大多数组织而言是个不小的考验。
一体化逐渐成为数据库的主流技术方向。目前,出现了在离线一体化、单机分布式一体化、多模态一体化。一体化技术使得数据库具备更强的适应性,并且能极大地降低用户使用和运维管理的复杂度。此外还能极大降低数据在不同系统之间流转的成本,并提高实时性,使得数据价值展现效率大幅度提升。尤其在多模态技术方向上,通过对非结构数据向量化,也实现了多样性的数据检索管理能力。
数据库的一体化更加符合当前国内和国际上“降本增效”的大环境。
通过整合不同的数据库技术,实现一体化管理,可以大大提高数据处理效率。在传统的数据库系统中,数据分散在不同的数据库中,需要进行多次的查询和转换,耗费大量时间和资源。而通过数据库技术一体化,可以实现对数据的统一管理和处理,减少冗余操作,提高数据处理效率。此外,在传统的数据库系统中,需要投入大量的人力和物力进行维护和管理,而通过数据库技术一体化,可以实现自动化的数据管理和维护,减少人力和物力的投入,降低成本。
从技术角度而言,实现数据库技术一体化需要掌握多种数据库技术的知识和技能,同时还需要解决不同数据库技术之间的兼容性问题。这需要投入大量的人力和物力进行研发和技术攻关。从安全角度而言,组织需要保证数据的安全性和隐私性。这需要对数据进行加密和备份等措施,确保数据的安全性和完整性。
此外,在应用层出不穷的当下,数据库只有与应用结合,才能带来业务上的价值。但目前应用的开发与维护却越来越复杂,这主要是因为应用架构的复杂度往往取决于于数据库能提供的能力。应用希望数据库在保证稳定可靠、极高性能、性价比的同时,提供应用所需的所有数据存储和处理需求。这样一方面可以简化应用架构,提升整个业务系统的可靠性和性能,另一方面保持应用的灵活度,以应对业务的快速变化。一体化数据库,就是在帮助应用解决上述挑战:多模能力(包括向量检索)让应用可以把结构化数据和非结构化数据统一处理;HTAP 能力让应用可以把交易数据实时用于分析决策;原生多租户解决大量数据库实例管理难题;而单机分布式一体化是其他能力融合一体的架构前提。
此外,目前市场上缺乏具备多种数据库技术知识和技能的复合型人才,需要加强人才培养和引进工作,提高人才素质和能力。
正如我们所知,大模型擅长理解和生成类人文本,它们将文本转换为高维向量(也称为嵌入)来捕获文本的语义。这种转换使得对文本执行复杂的操作成为可能,例如查找相似的单词、句子或文档,这些是聊天机器人、推荐引擎等许多应用程序不可或缺的一部分。这些向量表示的性质需要一个有效的存储解决方案来处理索引和查询嵌入。
随着大数据和人工智能的快速发展,越来越多的应用和场景需要处理和分析向量数据,向量数据不仅仅要提供向量的检索能力还要提供向量和关系型数据库的混合检索能力。全面提升结构化数据、以及非结构化向量编码后的索引和查询优化,能够提供更高效的数据检索和分析能力,这就是向量数据库的用武之地。
向量数据库本质上有三种形态:第一种是纯单机向量数据库,它不是分布式的;第二种是在传统数据库上加上一个具备向量检索能力的插件;第三种是独立的、专业的企业级向量数据库。
那么,现阶段我们真正需要的是哪种形态?
在采访了业内多位数据库领域专家后 InfoQ 发现,国内许多在做大模型的企业并没有采用专门的向量数据库,而是在原来传统数据库上增加了一项向量检索能力,也就是上述提到的第二种形态。从表面上看,独立的、专业的向量数据库看起来并不是那么刚需,但事实的确如此吗?
这可以从传统数据库和向量数据库的区别来看,两者的主要区别在于它们的数据存储方式、数据规模、查询方式和计算密集型。
数据存储方式:传统数据库存储的是结构化数据,而向量数据库存储的是向量数据,即将非结构化数据(如图片、音频、文章等)转换为向量方式来存储。
数据规模:传统关系型数据库的管理数据规模通常为千万级,而向量数据库的需求数据规模则以达到千亿级。
查询方式:传统数据库的查询通常是精确查询,即查询结果要么符合条件要么不符合条件。而向量数据库则使用相似性查找,即查找与查询条件最相似的结果,这需要更高的计算能力。
计算密集型:传统数据库的查询主要是事务处理,而向量数据库的查询则是计算密集型,需要进行大量的向量计算和比较。
总而言之,向量数据库的主要特点是能够高效地存储和查询大规模的向量数据。它通常采用基于向量相似度的查询方式,即根据向量之间的相似度来检索数据。这种查询方式可以用于各种应用场景,例如图像搜索、音乐推荐、文本分类等。维度越高、信息量越大,这些特性都是传统数据库很难做到的。
这种专门用于存储、索引和查询嵌入向量的数据库系统,可以让大模型更高效率地存储和读取知识库,并且以更低的成本进行 finetune(模型微调),还将进一步在 AI Native 应用的演进中扮演重要作用。
值得一提的是,AI 应用的兴起,无论对于拓宽数据库的使用场景,还是提高数据库本身的使用效率都带来了新的机遇。数据库产品在调整身位,以更好帮助构建 AI 应用的同时,自身也在变得越来越智能,传统数据库和向量数据库二者之间的边界越来越模糊。
在采访中,多位技术专家认为,向量数据库会弱化为数据库索引特性,通过一体化能力与其他数据库系统集成。造成这种现象的原因有以下几点:
向量数据库的核心是向量索引,其与传统的数据库索引管理能力是同质的。
向量数据库之所以是数据库,其需要解决向量检索需求之外,也需要处理数据安全、权限、数据修改、扩缩容等,这些能力本身就是数据库的特长。
从数据自身来说,现实的数据范围往往是要多源的,而数据过于分散地存储于不同的系统,显著地增加了成本、降低了效率。
因此,从技术和需求来看,传统数据库会快速具备向量特性,从目前的行业发展上,也印证了这个观点,大部分的数据库均已经或者宣布支持向量检索。
关于向量数据库是否是刚需这个问题,业内不只有正向的声音。在今年首届 OpenAI 开发者大会上,OpenAI 就出人意料地给向量数据库泼上了一瓢冷水。
OpenAI 表示将提供一款 Retrieval 检索工具,用户已无需创建或搜索向量。OpenAI 这一举动对行业来讲意味着什么?RAG 和业内专用向量数据库有什么区别?应用场景有什么不一样?
本质来讲,RAG 和业内专用向量数据库在数据规模和普适性上还是有差别的。Retrieval 提供了完整的端到端的工具,在小规模项目上可以快速应用落地。但对大数据规模场景下的数据管理能力缺失,也缺乏细致的调优手段。并且 Retrieval 会受限于 AI 厂商,而向量数据库类是一个独立的底层产品,不会与某一个 AI 产品所绑定,可以同时适配多种 AI 引擎。
与此同时,新技术的出现并不意味着旧技术就会立即被淘汰。向量数据库和 RAG 技术各有其优势和适用场景,时间会证明它们在不同应用场景下的价值和效能。RAG、向量数据库和中间件都可以视为 AI 工具箱中的重要工具,各有其适用的范围和应用场景,而非互相替代的关系。一个真正强大的 AI 技术栈应该是多种工具和技术的集成,使得我们能够根据具体需求选择最适配的工具使用。
此外,RAG 技术是相对较新的,尽管在理论和实验环境中表现出色,但在实际应用中可能还面临着一些挑战,如数据集的质量、系统的可扩展性和可靠性等。已有一些公司和组织开始探索使用 RAG 技术,特别是在需要结合大量信息和生成响应的场景中,例如知识库、智能对话等场景。
综合来讲,RAG 最主要的优势是在生成文本或从大型文本数据库中提取信息时能够提高效率和效果。它集成了信息检索和机器学习生成模型的优势,可以在生成文本的同时考虑其他大量文本信息。这使得 RAG 在前提推理、知识引用、解释生成以及过滤离题信息等方面具有强大的能力。另一个优势是 RAG 更直观、易于使用,对于无需深入理解复杂机器学习算法背后原理的大众用户来说,RAG 是一个理想选择。而向量数据库专注于向量数据的高效存储和检索,适用于大规模向量数据的管理和处理,对于相似性搜索、聚类等任务有着独特优势。RAG 主要应用于自然语言处理领域,若处理其他类型的数据,如图像和音频等,其性能可能会变差。
虽然 RAG 已经在很多应用领域表现出色,但它依然需要训练数据,因此,深度和广度的知识获取仍然受限于训练数据。RAG 最能解决的是自然语言处理中的问题,特别是需要理解和生成文本的问题,例如智能聊天机器人、自动问答系统以及文本摘要生成等,但 对于音频、视频或其他非文本类数据处理的效果不如专门的向量数据库。
最近一年里,向量数据库技术以势不可挡之姿迅猛发展,但想要研发一款向量数据库产品依然面临着诸多挑战。
首先要解决的挑战是扩展性。随着 AIGC 等应用的发展,特别是大模型的兴起,对嵌入(embedding)和向量化这些能力的需求急剧增加。大模型的普及也让向量数据的规模不断增大,从百万级别的数据体量已经变为千万级别,甚至更大。这就需要数据库能够有效地支持大规模向量数据的存储和检索,这对硬件资源提出了更高的要求,特别是在云上部署时成本可能成为一个重要问题。
第二个挑战是成本问题。在向量搜索中,索引的大小和存储是关键因素,而向量索引的成本通常较高。以前在数据量较小的情况下,可能只需要几台机器就足够了,成本并不是关键问题。但随着数据规模的增大,需要更多的资源来支持,这就涉及到成本的考虑。
第三个挑战是易用性问题。与传统的关系型数据库不同,向量搜索涉及到更多维度的考量,包括性能和召回率等。为了平衡性能和召回率,需要调整各种参数,但这可能对用户来说不太友好。因此,简化参数选择,优化用户体验是一个重要的挑战。
最后一个挑战是混合搜索中的路径优化问题。与传统的优化器相比,向量搜索的优化器更加复杂,因为它需要考虑多维度的因素。如何设计一个能够描述向量搜索代价的模型,以实现性能和召回率的平衡,是一个需要解决的难题。
可见,研发一款向量数据库并不轻松,而对于那些对向量数据库有需求的企业来讲,从外购买一款成熟的向量数据库产品远比自己研发要省时省力。
对于向量数据库领域,要实现深度学习技术的最优应用,需要具备 AI、数据库和安全等多方面的能力。数据库内通常会储存一些敏感数据,因此如何保证这些数据的安全性将成为一个极其重要的议题。尤其是随着向量数据库等领域逐渐引入深度学习技术,对 AI 能力和数据安全的需求将变得愈发迫切。
在大模型企业层出不穷的当下,对于向量数据库的需求成为了倒逼向量数据库技术逐步完善的强烈的驱动力,这种驱动力能够快速淘汰那些不合适的技术,同时也会促使新技术的不断涌现,这是一个逐步筛选的过程。从长远来看,向量数据库将不断成熟,同时也会为不同的应用场景提供更加精准的向量搜索结果。
2023 年,全球主流数据库在产业、软硬件和人才生态方面继续快速增长,但市场竞争也日益激烈。国产数据库在产品和技术上与国外顶尖产品仍存在一定差距,但差距正在迅速缩小。不少国产数据库厂商在海外取得了一定的成果。
比如人大金仓近年来积极拓展海外市场,已与多家海外企业合作,实现了在东南亚、欧洲等地区的成功部署和应用。另外,阿里云的分析型数据库 AnalyticDB、华为的 openGauss 数据库、酷克数据的 HashData 云数仓也在国际市场上取得了一定的进展。
这些案例表明,国产数据库产品在技术和市场上已经具备了与国际领先产品相媲美的能力。国产数据库逐渐取代海外老牌数据库不仅仅是国产化诉求,也是自身技术实力使然。
无论是传统数据库还是向量数据库,随着全社会数字化转型进入深水区且大模型不断涌现,未来整个数据库市场的持续扩张是不可避免的,这主要是因为技术的迭代速度非常快,同时技术门槛也在逐渐降低。当前两个市场都存在着大量的需求,这将吸引越来越多的数据库厂商加入竞争。然而,从业界角度看,这种市场扩张对于行业发展有积极的一面。它为用户提供了更多的产品选项,也不断促使数据库厂商迭代研发新的技术与产品,从而在竞争中筛选出更优秀的技术和解决方案,以更好地满足用户需求。
可以肯定的是,所有数据库采用者都希望这个行业有更多可选的方案空间,同时也期待看到哪些技术能够经受住应用的考验,证明自己在实践中的可行性。行业的共识在逐渐形成,只有公平、开放的良性竞争才能真正有利于行业的长期发展。随着技术的成熟,行业格局的不断稳定,贬损竞争对手、抹黑事实、哄抢客户等恶性竞争行为将越来越少,良性竞争将越来越多,这样才能推动整个领域的进步。
采访嘉宾(按姓名首字母排序):
Fabarta 技术团队
胡宗星,九章云极 DataCanvas 高级产品总监
简丽荣,北京酷克数据科技有限公司联合创始人兼 CEO
李洁,北京阿哇科技的创始人
在 2023 年结束之际,InfoQ 编辑部重磅推出“年度技术盘点与展望”专题,聚焦 AIGC 引发的变革,与 50 多位头部专家深度对话,希望能为你揭示架构、前端、运维、大数据、云计算、编程语言、数据库等领域的核心变化和演进逻辑,明晰金融、汽车、制造、零售等行业的数字化、大模型应用思路和路径。
马斯克被“逼疯”、OpenAI 上演连续剧、QQ 选型遭群嘲|InfoQ 年度最受欢迎文章排行榜
发布 Vue3 让尤雨溪吃尽苦头:犯了3个错,每一个都需开发者警惕
阿里被判向京东赔偿10亿;要求销毁 ChatGPT,微软和 OpenAI被起诉;阿里云大调整:混合云部分团队裁员30%|Q资讯
给大家推荐《从 LLM 原理剖析到手写实现 ChatPDF》课程,本课程是由深耕 AI 领域多年的清华大学计算机博士,前 IBM 中国研究院工程师陈旸主讲,从大语言模型的底层原理剖析到 GPT 与文心一言、讯飞星火等国产大模型的对比;最后将上手实战带你使用 LangChain 和 ChatGLM 实现 ChatPDF。让你学会用 LangChain 和 ChatGLM 开发实际应用!
现在扫描下图二维码,即可免费领取内容!课程内容搭配的全套代码资料也都可以一并免费获取!
微信扫码关注该文公众号作者