Redian新闻
>
统一化数据库:为大语言模型垂域应用奠定基础

统一化数据库:为大语言模型垂域应用奠定基础

科技


(本文阅读时间:13分钟)


编者按:检索增强生成(RAG)技术因在减少生成幻觉和虚构信息方面的显著效果,以及对知识及时更新能力的改善,正逐渐成为大语言模型系统的主流架构之一。随着 RAG 技术的广泛应用,其核心组件——向量数据库,也开始受到越来越多的关注,成为大模型中不可或缺的外挂知识库。

然而,向量数据库与传统关系型数据库有着显著区别,这给数据的统一管理、查询和更新带来了诸多不便。为此,微软亚洲研究院开发了 VBase 复杂数据库查询系统,为统一化数据库奠定了基础,并推出了有助于向量索引实时更新的 SPFresh 方案,以及可对稀疏向量索引与稠密向量索引统一化查询的 OneSparse 系统。


如今大语言模型(LLMs)已成为内容创作、语言理解和智能对话等领域中的关键技术,但这些模型都是基于固定训练数据中观察到的规律和模式来生成回答的,可能会产生幻觉和虚构信息,并在实时的知识更新方面存在困难。检索增强生成(RAG)技术可以将最新的外挂知识库与大语言模型有机结合,把相关的精确知识放入上下文中,来引导回答的生产过程,增强大语言模型的性能与可靠性。


然而,RAG 的核心组件之一——向量数据库,在存储、查询等机制上与传统的关系型数据库存在显著区别。这给日益丰富和不同模态知识的统一管理带来了挑战。在这种背景下,微软亚洲研究院系统与网络组的研究员们认为,一种能够有效管理丰富属性和模态的外部知识的统一化数据库,将成为大语言模型广泛应用和可靠性保证的关键。


“随着大模型能力的不断增强,文字、图像、视频等各种形式的数据都可以通过机器学习技术编码成高维向量,将知识的细节属性,如图片的类型、用户的偏好等,转换为不同维度的数据。但是,多样化的知识表示方式给复杂向量数据和标量数据的有效管理带来了挑战,如何在这些混合信息中实现高效且准确的查询也变得更加困难。这就需要一种统一化的数据库来管理这些外部知识,为大语言模型提供更坚实的知识支持。”微软亚洲研究院(温哥华)首席研究员陈琪表示。


以医疗辅助诊断场景为例,医生可能需要在患者记录数据库中进行如下查询:“在60岁以上的患者中,某些X光图像类似的病例,患有不同疾病的概率是多少?”这样的操作不仅需要从标量数据库中查询年龄、性别、诊断结果等标量数据,也需要从向量数据库中查询X光图像和实验室结果等高维向量数据。由于两种数据库的存储和查询机制截然不同,所以只有通过更高级的标量—向量混合数据分析技术,才可以将向量数据库与传统数据库进行有效统一。


图1:未来的统一化数据库


VBase复杂查询系统:为向量索引和标量索引扫描提供统一化基石


向量数据库与标量数据库具有不同的索引扫描模式,缺乏统一的基础,这是构建统一化数据库首先要解决的问题。


标量数据库索引基于数值顺序构建,索引扫描具有严格的单调性(strict monotonicity),这也是关系型数据库能够高效执行查询的原因。例如,在购物平台上搜索价格在100到200元之间的衣服,系统会从价格100元开始扫描,一旦价格超过200元,查询就会终止。显然这种基于单调性的标量查询具有很高的效率。


相比之下,向量索引是基于高维空间中的接近性构建的,索引遍历无法遵循严格的顺序,因此缺乏单调性。向量索引仅为查询提供近似的空间导航,以近似地接近最近的子空间。为了实现提前终止,向量索引扫描过程依赖 TopK 算法来预测 K 值的临时顺序。换言之,由于没有明确的起点,在高维向量空间中寻找与目标距离最近的向量时,尽管可以利用顺序来提前终止执行,但这种方法效率很低。


图2:标量数据库与向量数据库的检索查询


例如,假设用户有一张衣服的图片,想要在购物平台上找到相似且价格低于200元的商品,传统的方法是先进行大规模的相似性查询,然后根据价格进行过滤。比如,为了找到最相似且价格合适的前10个结果,可以先将搜索范围设定为1000个候选项,并通过价格条件逐一筛选,直到找到10个符合条件的结果为止,如果结果不足,则进一步扩大搜索范围到2000或者3000个,直到满足要求。


这种方法的核心思想是将向量数据的检索结果,转换成遵循严格单调性的标量数据库,再进行标量查询。TopK 算法被用于收集 K 个最接近的向量结果,并根据与目标向量的距离进行排序,从而创建一个具有单调性的临时索引,然后对这个临时索引数据库进行过滤。


这种方法的问题在于,无法保证返回的 K 个结果能满足最终的过滤查询需求。因此,为了确保过滤结果满足要求,要么 TopK 需要执行更广泛的相似性查询,返回更多的 K;要么在 K 不足时,重复执行 TopK 查询,但这两种做法都会导致次优的查询性能。


研究员们通过分析大量向量索引发现,向量索引查询提前终止并不需要严格的单调性,而是表现出一种放松单调性(Relaxed Monotonicity),标量索引只是这种放松单调性的特殊情况


基于这一发现,研究员们开发了 VBase 复杂查询系统,该系统为向量索引和标量索引的高效扫描提供了统一化基石,使得各类索引的扫描遵循相同的接口和提前终止条件。这一创新使得向量数据库在执行复杂查询时的性能提升了10至1000倍,同时提高了查询的精确度。


VBase 使得构建能够执行各类复杂关系型向量和标量混合查询的统一化数据库成为可能。目前,基于 VBase 系统,一家开源数据库平台成功构建了自己的多模态向量数据库。


论文链接:


VBASE: Unifying Online Vector Similarity Search and Relational Queries via Relaxed Monotonicity, published in OSDI 2023

https://www.microsoft.com/en-us/research/publication/vbase-unifying-online-vector-similarity-search-and-relational-queries-via-relaxed-monotonicity/





SPFresh:首次实现向量索引的实时就地增量更新


以向量数据库检索为基础的 RAG 技术显著提高了大语言模型生成结果的准确性。但这一优势的实现有一个关键前提:向量数据库中的数据需要保持更新,也就是说向量索引需要即时更新。对于具有成百上千维度的向量来说,更新工作并非易事——重构向量索引的时间成本需要以天来计算。


标量数据库通常使用 B 树或 B+树方法,通过二分查找定位到指定位置后直接插入信息即可完成更新。然而,向量数据库的更新要复杂得多。


以目前流行的细粒度基于图的向量索引和粗粒度基于集群的向量索引为例。在细粒度图向量索引插入或删除向量时,都需要进行大规模的图扫描以找到适当的距离进行插入,这对计算资源的要求非常高,而且删除不当还会导致性能和准确性下降。在粗粒度的集群索引更新中,虽然插入或删除向量只涉及对分区的修改,成本较低,但随着分区更新的累积,数据分布会变得不平衡,从而影响查询延迟和准确性,使索引质量下降。


现有的向量索引更新方法依赖于周期性的全局重建,这种方法速度慢且资源消耗大。尽管重建后性能和准确性会立即得到刷新,但在两次重建之间,性能和准确性会逐渐下降。此外,全局重建成本非常高,其所需的资源是传统索引的10倍以上,甚至超过索引服务的成本。


为解决这些问题,研究员们提出了 SPFresh 解决方案,该方案首次实现了向量索引的实时就地增量更新,为统一化数据库的更新提供了一种高效的方法。SPFresh 的核心是 LIRE——一种轻量级的增量再平衡协议,用于分割向量分区并重新分配分区中的向量以适应数据分布的变化。LIRE 通过仅在分区边界处重新分配向量,实现了低资源消耗的向量更新。


图3:分区分裂需要进行重新分配向量数据


与已有的周期性索引重建方法相比,SPFresh 能够大大减少索引重建所需的资源成本,并且能够始终保持稳定的高召回率,低延迟和高查询吞吐量,及时有效地适应数据分布的动态变化。


论文链接:


SPFresh: Incremental In-Place Update for Billion-Scale Vector Search, published in SOSP 2023

https://www.microsoft.com/en-us/research/publication/spfresh-incremental-in-place-update-for-billion-scale-vector-search/





OneSparse:稀疏向量索引和稠密向量索引的统一化查询


向量数据库广泛应用于自然语言处理、信息检索、推荐系统等领域,为处理非结构化数据提供了高效的解决方案。然而,向量数据的编码方式多种多样,稀疏向量和稠密向量各有优势,适用于不同类型的任务。例如,稀疏向量适用于关键字匹配任务,而稠密向量则更适合提取语义信息。因此,在实际应用中,多索引混合查询被广泛采用,尤其是在混合数据集中,通过结合稀疏和稠密特征的协同过滤技术来查找相似项,这种方法已被证明能够有效提升查询结果的精确度。


然而,由于向量索引的特殊遍历方式,多个向量索引之间的交集无法直接下推,导致多索引联合检索面临挑战。为此,研究员们提出了稀疏向量索引和稠密向量索引统一化技术 OneSparse,它能够执行多索引混合查询,并实时生成最优的表格合并计划,以实现快速的索引间交集和索引内并集。


OneSparse 将稀疏索引和稠密索引统一为一个倒序排列的索引,并根据文档 ID 重新排列所有发布列表,这样即使在执行语义匹配和关键词匹配的复杂查询时,也能保证高效的执行。相关技术已成功应用于微软必应(Bing)网络搜索和推广搜索中。


图4:OneSparse 架构示意图


论文链接:


OneSparse: A Unified System for Multi-index Vector Search, published in ACM WEB 2024

https://www.microsoft.com/en-us/research/publication/onesparse-a-unified-system-for-multi-index-vector-search/





统一化数据库加速大语言模型的发展和硬件创新


早在2018年,微软亚洲研究院就开始了对向量数据系统的深入研究。陈琪表示,“当时,我们意识到向量化将成为深度学习应用的基石。因此,我们陆续开发了 SPTAG 和 SPANN 技术,成功解决了向量索引的泛化和可扩展性问题,并将其应用于微软必应搜索,实现了世界上最大规模的向量语义搜索系统。”


近年来,微软亚洲研究院的研究员们继续深耕向量数据库技术,在放松单调性和 LIRE 协议轻量级更新方法的基础上,构建了一个统一化数据库系统 MSVBASE,并已在 GitHub 上开源。MSVBASE 系统可用于多模态数据的语义分析,为开发人员研究和利用 RAG 机制,设计更复杂的 RAG 检索查询提供了强大的工具。RAG 技术将不仅能够执行基于 TopK 的向量查询,还能够利用更多高维向量数据和属性进行检索,实现更精确的查询结果。


GitHub 链接:

https://github.com/microsoft/MSVBASE





在知识大规模增长的今天,统一化数据库为未来多模态数据在模型的训练和推理之间提供了更好的知识传递,这对于支持万亿级别数据的检索查询至关重要。它为大模型提供了无限流的语料支持,并将推动底层硬件的创新,为未来数据增强型人工智能奠定基础。



相关链接:


  • SPTAG

    https://github.com/microsoft/SPTAG


  • SPANN: Highly-efficient Billion-scale Approximate Nearest Neighbor Search

    https://www.microsoft.com/en-us/research/publication/spann-highly-efficient-billion-scale-approximate-nearest-neighbor-search/
















你也许还想看:




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AI早知道|支付宝灰度测试智能助理;苹果开源推出高效语言模型系列 OpenELM浙美時候在岜沙苗寨的故事AI早知道|商汤发布日日新5.0大模型;微软推出小语言模型Phi-3;腾讯旗下协作SaaS产品全面接入混元大模型使用 IPEX-LLM 加速英特尔®至强®可扩展处理器上的大语言模型推理马斯克宣布正式开源大语言模型Grok;人体避免多个精子使一个卵子受精的机制揭示 | 环球科学要闻为什么说苏联援建的“156项工程”奠定了中国工业化的基础?NAACL 2024 | 阿里提出大语言模型对齐框架Reward Learning on Policy (RLP)Mamba再下一城!Cobra:将Mamba扩展到多模态大语言模型基础模型、长文本、数据库、应用落地……一篇文章读懂今天大模型行业的关键问题丨2024 GDC熵泱——第二十五章《尘封档案》拾遗之046:贺兰山下的枪声简单好用!北大、普林斯顿联合提出即插即用的大语言模型加速方法红杉资本入局,马斯克的AI公司接近达成60亿美元融资;苹果发布基于开源训练和推理框架的语言模型OpenELM丨AIGC日报极长序列、极快速度:面向新一代高效大语言模型的LASP序列并行丘成桐:启蒙教育往往奠定一生事业的基础大模型如何用因果性?最新《大型语言模型与因果推断在协作中的应用》全面综述人物 | 所罗门诺夫:大语言模型的先知今日arXiv最热NLP大模型论文:斯坦福发布法律指令数据集LawInstruct,统一17个辖区24种语言颜水成挂帅,奠定「通用视觉多模态大模型」终极形态!一统理解/生成/分割/编辑超越Llama-2!微软新作Phi-3:手机上能跑的语言模型WWW 2024 | 阿里等提出GraphTranslator,将图模型对齐大语言模型心结 (小说)AI早知道|Kimi智能助手升级;Meta开源推出新一代大语言模型Llama34K图像理解轻松拿捏!IXC2-4KHD:开创性的大型视觉语言模型!微软拟与OpenAI投资1000亿美元建AI超算;Databricks 推出1320亿参数大语言模型 DBRX丨AIGC日报历时 5 个月从零到一研发一款数据库产品,这些坑他们已经踩过了 |InfoQ 独家专访百度智能云向量数据库团队这就是OpenAI神秘的Q*?斯坦福:语言模型就是Q函数LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」华为回应智界 S7 截胡小米 SU7,雷军表态/苹果正在自研设备端大语言模型/「欧洲版OpenAI」洽谈融资5亿用大语言模型控制交通信号灯,有效缓解拥堵!三字经,句句错|聊聊“人之初性本善”这句话苹果发高效语言模型 OpenELM;小米策划 15 万元新车;AI 成功改写人类 DNA | 极客早知道AI早知道|Apple 发布 MM1多模态大语言模型;xAI 是市场上薪酬最高的人工智能公司数据库的夏天!2024可信数据库发展大会如约而至,邀请你来!| Q推荐免费在线体验Meta LIama 3大语言模型!GpuMall狂送10万代金券!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。