Redian新闻
>
矢量数据库:企业数据与大语言模型的链接器

矢量数据库:企业数据与大语言模型的链接器

公众号新闻

作者 | 缪旭
策划 | 凌敏  

随着 ChatGPT 的推出,通用人工智能的时代缓缓拉开序幕。我们第一次看到市场在追求人工智能开发者,而不是以往的开发者寻找市场。每一个企业都有大量的数据:私有的用户数据、自己积累的行业数据、产品数据、生产线数据、市场数据等等。这些数据都不在基础大语言模型的记忆里,如何有效地将这些数据利用起来,是政府和企业在迈向通用人工智能的发展道路上面临的重要课题。

我们可以将私有数据作为微调语料来让大语言模型记住新知识,这种方法虽然可以让大模型更贴近企业应用场景、更高效使用私有数据,但往往难度较大,另外企业数据涵盖了文本、图像、视频、时序、知识库等模态,接入单纯的大语言模型学习效果较差。

我们今天来聊聊另一种更常见的方案,通过矢量数据库提取相关数据,注入到用户 prompt context(提示语境)里,给大语言模型提供充分的背景知识进行有效推理。如图一所示。

矢量数据库:企业数据与大语言模型的链接器

矢量数据库允许任何对象以矢量的形式表达成一组固定维度的数字,可以是一段技术文档,也可以是一幅产品配图。当用户的提示包含了相似语义的信息,我们就可以将提示编码成同样维度的矢量,通过矢量数据库查寻 K-NearestNeighbor(近邻搜索)来获得相关的对象。Approximate Nearest Neighbor(近似近邻搜索)作为矢量数据库的核心技术之一,在过去的十年里获得了长足进步。它可以通过损失一定的准确度在高维空间里快速搜索近邻矢量,比如 NGT 算法可以在接近一千维的矢量空间达到万次查询,而准确度不低于 99%。如图二所示,不同的算法展现了不同的妥协效果。

图二 查询 QPS 和返回准确度(召回)之间的妥协。数据集为 fashion-mnist 采用了 784 维矢量,测试基于单个 CPU 的统一环境,测试时间为 2023 年 4 月。

这种语义搜索的方法起源于大语言模型时代之前,起初是为了降低企业搜索的工程复杂度,提升搜索结果的相关性,因为矢量本身和神经网络高度契合,也成为大语言模型应用的标准配置。甚至出现如 Memorizing Transformer 和 KNN-LM 这样的架构将近邻搜索算法和大语言模型结合来成功构造快速 external memory(外部记忆)。

但是这样的架构依然存在一个重要的问题:从用户的提示生成矢量,通过近邻搜索找到有关数据,这两方面的矢量相似度高并不一定代表语义的相关性也高,因为两方的矢量可能并不在同一语义空间。如果企业数据的语义空间和大语言模型有比较大的区别,图一所示的架构就可能无法有效地关联重要数据而降低了可用性。

这种语义空间差别在处理多模态数据时尤其明显,比如从文本到图像的对齐(如图三),从文本到知识图谱的对齐(如图四)。同时,图像、视频、知识图谱、文档等等都蕴含大量的信息,压缩到单一矢量大大损失颗粒度,从而降低了近邻搜索的有效性。

如果将这些对象碎片化处理,再由大语言模型进行整合,除了复杂的碎片化工程,这种方法大大提高了提示语境的长度要求。尽管大量的研究工作已经从计算效率上解决了语境长度的瓶颈,比如 Linear Transformer,Reformer,到最近的 LongNet,理论上 1B 的 Token 已经是可行的,但实际的效果却显示当前的大语言模型并不能很好地利用长语境来获得相关信息(如图五)。归根结底,将大量背景信息有效高效地投射到文本语义空间从而让后端的大语言模型可以更好发挥依然是目前应用开发的一大难点。

图三 图像文本通过交叉注意力机制对齐。借用 BLIP2 架构图

图四 知识图谱和文本通过交叉注意力机制对齐。借用动态知识图谱融合模型

图五 相关的文档在提示语境中的位置会极大影响大语言模型的能力。来自于最近的研究。

语义空间的投射可以看作是一个 alignment(对齐)任务。在粗颗粒度上,单一矢量的空间对齐可以通过学习投射矩阵来实现(如图六所示)。这个投射空间小,可以用较少的标注数据训练,从而大大提升搜索结果的相关性,也已经成为业界广泛使用的技术。

而细粒度的对齐工作依然是目前技术突破的焦点,从 Perceiver IO,CLIP 到 BLIP2,我们也渐渐看到交叉注意力机制的通用对齐能力(如图三、四),特别是大规模的无监督学习半监督学习大大提升了对齐的泛化能力。把这些对齐算法和矢量数据库结合起来提供快速高效的细粒度对齐将会极大提升大语言模型应用的用户体验,也是值得我们期待的方向。

图六 粗粒度对齐

总体而言,通过矢量数据库将企业内部数据和大语言模型结合起来拥有广泛的应用场景,但技术挑战也仍然很大,我们今天讨论的这些技术点仅仅是诸多挑战中的一两个环节,还有很多没有触碰,后面有机会和大家继续探讨。

参考资料:

https://github.com/erikbern/ann-benchmarks

https://arxiv.org/pdf/1911.00172.pdf

https://arxiv.org/pdf/2307.02486.pdf

https://arxiv.org/pdf/2006.16236.pdf

https://arxiv.org/pdf/2307.02486.pdf

https://arxiv.org/pdf/2301.12597.pdf

https://arxiv.org/pdf/2307.03172.pdf

https://arxiv.org/pdf/2307.03172.pdf

https://arxiv.org/pdf/2307.03172.pdf

https://finetunerplus.jina.ai/

https://github.com/krasserm/perceiver-io

https://arxiv.org/pdf/2103.00020.pdf

https://arxiv.org/pdf/2301.12597.pdf

作者介绍

缪旭,九章云极 DataCanvas 公司首席 AI 科学家。二十余年人工智能研究和管理经验,深耕人工智能的技术实现和应用,发表多篇学术文章,并拥有多项授权发明,专注将可推理可解释的人工智能、大模型、大规模实时机器学习、知识图谱等前沿 AI 技术加速应用于各行各业。

点击底部阅读原文访问 InfoQ 官网,获取更多精彩内容!

今日好文推荐

大模型竞争突然升级!亚马逊 CEO 亲自监督、组建新的核心技术团队,集中优势资源打造“最具野心”的大语言模型

一场 AI 引发的开源革命迫在眉睫?Hugging Face 更改文本推理软件许可证,不再“开源”

“Twitter如今就像疯人院!”睡地板仍被裁女高管爆料:马斯克带来“恐惧文化”,被裁是最大解脱

网传小红书研发因客户端闪退被辞退;OpenAI将推出代号G3PO的开源LLM;9.9元“妙鸭相机”刷屏,官方点名批评 | Q资讯

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成企业怎么才能用上大语言模型?大语言模型(LLM)预训练数据集调研分析月圆之夜比 Spark 快 9 倍,超越 ClickHouse,在大语言模型时代构建全新数据平台BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」博采众长!我全都要!Allen AI推出集成主流大语言模型的LLM-BLENDER框架Data-Copilot: 大语言模型做你最贴心省事的数据助手推广|| 别急!这些衣服项链的链接我都交出来!从感知到理解-融合语言模型的多模态大模型研究外派故事 (33) 同学聚会的暧昧夕阳正西沉UCLA发布SciBench,评估大语言模型的科学问题解决能力大型语言模型专场上线!四位AI新青年直播讲解MiniGPT-4、LLaVA、Gorilla以及大型语言模型Token危机并非所有向量数据库都生来平等 - 找到属于你的向量数据库生成式 AI 与大语言模型时代的 NVIDIA GPU 生态 | NVIDIA 解决方案与架构技术总监张瑞华演讲预告我的小学皇帝玩法與國民崇拜:從來都是兩回事微软发布 Guidance 语言,用于控制大语言模型竹间智能总裁兼COO孙彬:大语言模型如何在企业落地田渊栋团队新作:通过位置插值来扩展大语言模型的上下文窗口ChatGPT 和 OpenAI 都在用的 Redis,是如何从传统数据库升级为向量数据库的?大语言模型做数据助手,浙大Data-Copilot高效调用、处理、可视化数据文档字越多,模型越兴奋!KOSMOS-2.5:阅读「文本密集图像」的多模态大语言模型大语言模型的视觉天赋:GPT也能通过上下文学习解决视觉任务大语言模型会偷懒?新研究:上下文太长,模型会略过中间不看 | 本周论文推荐大语言模型真能“理解”语言吗?学习生成式大语言模型,东北大学自然语言处理实验室有一堂课【广发策略戴康团队】全市场最全策略数据库:八位一体数据库Zilliz创始人兼首席执行官星爵演讲实录 | 向量数据库:大模型的记忆体幻象 or 事实 | HaluEval:大语言模型的幻象评估基准如何更好地蒸馏ChatGPT模型能力:Lion闭源大型语言模型的对抗性蒸馏模型原理及实验工作介绍AI 原生向量数据库 : 大模型的“黄金搭档”, 能提供“记忆海绵”大模型竞争突然升级!亚马逊 CEO 亲自监督、组建新的核心技术团队,集中优势资源打造“最具野心”的大语言模型商汤大模型全面升级!「商量SenseChat 2.0」大语言模型疯狂上分
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。