向量数据库,是大模型原生应用的基石
本文首发微信公众号:飞总聊IT
自从去年以ChatGPT为代表的大语言模型的应用横空出世以来,大语言模型就引起了大家的欢呼,大家都觉得人工智能的新时代到来了。
大语言模型和以往的人工智能技术有一个显著的不同,通俗一点来说,这是第一次让人类觉得AI像人了,它有比较广泛的理解人的自然语言,推理,总结,分析数据等各方面的能力。
这也就意味着基于大语言模型的应用可以做很多以前的应用做不好的事情。举个例子,基于大语言模型的聊天机器人,就可以像真人那样的真的理解客户输入的语义,帮助客户解决问题,而且还能够理解上下文。而以前的聊天机器人,只能做一些简单的文本上面的匹配。
然而,当大语言模型和企业的需求结合的时候,人们发现,事情并没有想象得那么美好。首先,用于大语言模型训练的语料,既有时效性的问题,又有非专属性的问题。
一般来说,大语言模型的语料,都会落后于当前的时间。基于落后的时间训练出来的大语言模型,如果直接去问问题,大语言模型的回答,就是错的。
同样的,企业有很多自己的私有数据,而基于大模型的企业应用,也希望大模型能够基于这些私有的数据来回答。但是大模型的训练,是不可能给予这些数据的。所以大模型也没办法回答。
更严重的问题是,大模型一旦信息缺失的时候,模型并不会说我不知道,而是会开始编造幻觉答案。这种幻觉回答,给客户带来的问题就严重了,如果一个企业基于大语言模型开发了应用,然后用户去用的时候,给出了幻觉的回答,使用体验肯定是非常糟糕的。
在腾讯云的访谈中,腾讯云的客户百川智能,好未来教育,销售易等都表示,基于大语言模型构建应用,就需要解决大语言模型信息滞后性,缺乏企业内部专属信息,幻觉答案等问题。
目前来说,解决问题最好的是借助向量数据库,把企业的私有数据向量化存储在向量数据里面。这样,当需要大语言模型进行解答的时候,先搜索向量数据库,把相对应的相关信息作为问题的一部分提供给大语言模型。
在这种情况下,一个向量数据库好不好用就非常关键了。腾讯云向量数据库就是一个很好的云原生一站式端到端的技术栈。
腾讯云的客户百川智能表示,它们一开始是用一些开源的,比如说向量索引。这些东西都比较简单,等到数据达到一定规模,涉及到分布式系统的问题的时候,就会遇到扩展性和高可用性的问题了。
好未来教育也表示曾经用过Elastic Search,也用过一些小型的基于内存的向量数据库。但是前者不是基于向量来设计的,向量只是附加品,后者无论从性能还是维护性上都有所欠缺。
但是腾讯云向量数据库,就是一个专门为向量数据设计的一站式端到端的技术栈。首先,作为向量数据库最核心的内容,对向量查询的QPS,延迟等各方面都可以做得很好,成本来说也会有很明显的优势。
而其他的方案,比如基于Elastic Search构建的数据库,更多是以一种传统的架构去支持这种传统的数据结构。在上面要去加一种新的数据结构肯定是可以。但因为这种架构,比如说分片方式,或者数据的整个 flow 都是为旧的数据结构所设计的。
传统数据库在用到向量这种数据结构以后,强行把别的数据库就是强行去适应到向量里面去,或者强行去支持向量这个结构,所以一定会导致有一点水土不服,能做,但性能就一定会大打折扣。
当然,一个向量数据库是不是好用,还有其他方面的考虑。腾讯云客户百川智能在用开源项目的时候发现,对于向量的管理,还需要额外耗费工程师去考虑向量数据怎么添加,怎么删除,怎么更新,旧的数据如何淘汰,新的数据如何引进,都不容易。
而用了腾讯云向量数据库以后,系统已经内置支持Embedding了,所以,帮助数据分片,并且提供高可用的保障,这些对用户很重要的功能都一站式解决了。
另外还涉及到数据处理规模的问题,百川智能向腾讯云表示,它们每天的数据大概是2亿条,在没有使用腾讯云向量数据库之前,处理比较慢,因为只能单线程去处理。但是使用了腾讯云向量数据库以后,就不一样了。数据的导入,删除,更新等都可以在高可用环境下通过云原生分布式的架构完成。
腾讯云客户好未来教育也表示自带Embedding在数据的预处理上对他们来说很重要,在数据预处理上起到了很好的作用,对他们有一个开箱即用的流程。
一个好的向量数据库对于拥有大量私有数据的企业来说,在构建基于大语言模型的应用上是非常重要的。腾讯云客户销售易表示是0和1的区别。
有了向量数据库,等于说先把企业的数据库还有支持文档存在向量数据库里,做优先预处理,然后解锁完成后,再和大模型结合回答用户的问题,在这个基础下,企业的应用才能做出,相当于向量数据库是企业级应用数据的根基。
可见一个好的向量数据库,对很多企业来说,才是开发基于大语言模型的基石。腾讯云向量数据库,也因此取得了非常巨大的成功。在腾讯集团内部有40多个业务接入,还有1000多家外部企业接入,目前每天有超过1600亿次请求。
大语言模型去理解数据,有它的局限性,包括数据的实时性,私有化数据缺失,产生幻觉答案等。因此构建基于大语言模型的应用,需要使用向量数据库,存储最新最相关的企业私有信息,才能够构建出靠谱的大模型应用。
而一个好的,能够端到端解决应用需求的向量数据库就成为这些应用的基石。腾讯云向量数据库,是围绕向量为存储主体打造的云原生的技术栈,不仅仅提供了端到端的解决方案,而且在易用性,高可用,分布式等各方面都提供了良好的保障,和其他主流产品比起来,不仅仅效率更高,更方便,也更便宜,已经广泛的被腾讯集团内部和外部客户接入。
这次 Tecno Day 技术开放日将资料和课件都整合成了一份《腾讯云工具指南》,这份资料技术含量很高,可以帮助学习了解向量数据库的技术优势和价值应用。
资料包含数据库的发展趋势和产品价值解读,还有实打实的向量数据库应用案例和解决方案,感兴趣的小伙伴,建议不要错过这个福利!
(长按识别即可下载)
此外,腾讯云向量数据库x百川智能【AGI启航计】正式启动,向量数据库免费实例+ Baichuan2400万免费Tokens限量领取,帮助您快速搭建RAG应用,点击“阅读原文”即可获取,Chat With Your Data!
微信扫码关注该文公众号作者