Redian新闻
>
向量数据库,是大模型原生应用的基石

向量数据库,是大模型原生应用的基石

公众号新闻

本文首发微信公众号:飞总聊IT

自从去年以ChatGPT为代表的大语言模型的应用横空出世以来,大语言模型就引起了大家的欢呼,大家都觉得人工智能的新时代到来了。


大语言模型和以往的人工智能技术有一个显著的不同,通俗一点来说,这是第一次让人类觉得AI像人了,它有比较广泛的理解人的自然语言,推理,总结,分析数据等各方面的能力。


这也就意味着基于大语言模型的应用可以做很多以前的应用做不好的事情。举个例子,基于大语言模型的聊天机器人,就可以像真人那样的真的理解客户输入的语义,帮助客户解决问题,而且还能够理解上下文。而以前的聊天机器人,只能做一些简单的文本上面的匹配。



然而,当大语言模型和企业的需求结合的时候,人们发现,事情并没有想象得那么美好。首先,用于大语言模型训练的语料,既有时效性的问题,又有非专属性的问题。


一般来说,大语言模型的语料,都会落后于当前的时间。基于落后的时间训练出来的大语言模型,如果直接去问问题,大语言模型的回答,就是错的。


同样的,企业有很多自己的私有数据,而基于大模型的企业应用,也希望大模型能够基于这些私有的数据来回答。但是大模型的训练,是不可能给予这些数据的。所以大模型也没办法回答。


更严重的问题是,大模型一旦信息缺失的时候,模型并不会说我不知道,而是会开始编造幻觉答案。这种幻觉回答,给客户带来的问题就严重了,如果一个企业基于大语言模型开发了应用,然后用户去用的时候,给出了幻觉的回答,使用体验肯定是非常糟糕的。


在腾讯云的访谈中,腾讯云的客户百川智能,好未来教育,销售易等都表示,基于大语言模型构建应用,就需要解决大语言模型信息滞后性,缺乏企业内部专属信息,幻觉答案等问题。

目前来说,解决问题最好的是借助向量数据库,把企业的私有数据向量化存储在向量数据里面。这样,当需要大语言模型进行解答的时候,先搜索向量数据库,把相对应的相关信息作为问题的一部分提供给大语言模型。


在这种情况下,一个向量数据库好不好用就非常关键了。腾讯云向量数据库就是一个很好的云原生一站式端到端的技术栈。


腾讯云的客户百川智能表示,它们一开始是用一些开源的,比如说向量索引。这些东西都比较简单,等到数据达到一定规模,涉及到分布式系统的问题的时候,就会遇到扩展性和高可用性的问题了。


好未来教育也表示曾经用过Elastic Search,也用过一些小型的基于内存的向量数据库。但是前者不是基于向量来设计的,向量只是附加品,后者无论从性能还是维护性上都有所欠缺。


但是腾讯云向量数据库,就是一个专门为向量数据设计的一站式端到端的技术栈。首先,作为向量数据库最核心的内容,对向量查询的QPS,延迟等各方面都可以做得很好,成本来说也会有很明显的优势。


而其他的方案,比如基于Elastic Search构建的数据库,更多是以一种传统的架构去支持这种传统的数据结构。在上面要去加一种新的数据结构肯定可以。但因为这种架构,比如说分片方式,或者数据的整个 flow 都是为旧的数据结构所设计的。


统数据库在用到向量这种数据结构以后,强行把别的数据库就是强行去适应到向量里面去,或者强行去支持向量这个结构,所以一定会导致有一点水土不服,能做,但性能就一定会大打折扣。

当然,一个向量数据库是不是好用,还有其他方面的考虑。腾讯云客户百川智能在用开源项目的时候发现,对于向量的管理,还需要额外耗费工程师去考虑向量数据怎么添加,怎么删除,怎么更新,旧的数据如何淘汰,新的数据如何引进,都不容易。


而用了腾讯云向量数据库以后,系统已经内置支持Embedding了,所以,帮助数据分片,并且提供高可用的保障,这些对用户很重要的功能都一站式解决了。


另外还涉及到数据处理规模的问题,百川智能向腾讯云表示,它们每天的数据大概是2亿条,在没有使用腾讯云向量数据库之前,处理比较慢,因为只能单线程去处理。但是使用了腾讯云向量数据库以后,就不一样了。数据的导入,删除,更新等都可以在高可用环境下通过云原生分布式的架构完成。


腾讯云客户好未来教育也表示自带Embedding在数据的预处理上对他们来说很重要,在数据预处理上起到了很好的作用,对他们有一个开箱即用的流程。

一个好的向量数据库对于拥有大量私有数据的企业来说,在构建基于大语言模型的应用上是非常重要的。腾讯云客户销售易表示是0和1的区别。


有了向量数据库,等于说先把企业的数据库还有支持文档存在向量数据库里,做优先预处理,然后解锁完成后,再和大模型结合回答用户的问题,在这个基础下,企业的应用才能做出,相当于向量数据库是企业级应用数据的根基。


可见一个好的向量数据库,对很多企业来说,才是开发基于大语言模型的基石。腾讯云向量数据库,也因此取得了非常巨大的成功。在腾讯集团内部有40多个业务接入,还有1000多家外部企业接入,目前每天有超过1600亿次请求。


大语言模型去理解数据,有它的局限性,包括数据的实时性,私有化数据缺失,产生幻觉答案等。因此构建基于大语言模型的应用,需要使用向量数据库,存储最新最相关的企业私有信息,才能够构建出靠谱的大模型应用。


而一个好的,能够端到端解决应用需求的向量数据库就成为这些应用的基石。腾讯云向量数据库,是围绕向量为存储主体打造的云原生的技术栈,不仅仅提供了端到端的解决方案,而且在易用性,高可用,分布式等各方面都提供了良好的保障,和其他主流产品比起来,不仅仅效率更高,更方便,也更便宜,已经广泛的被腾讯集团内部和外部客户接入。


这次 Tecno Day 技术开放日将资料和课件都整合成了一份《腾讯云工具指南》,这份资料技术含量很高,可以帮助学习了解向量数据库的技术优势和价值应用。


资料包含数据库的发展趋势和产品价值解读,还有实打实的向量数据库应用案例和解决方案,感兴趣的小伙伴,建议不要错过这个福利!

 

(长按识别即可下载)


此外,腾讯云向量数据库x百川智能【AGI启航计】正式启动,向量数据库免费实例+ Baichuan2400万免费Tokens限量领取,帮助您快速搭建RAG应用,点击“阅读原文”即可获取,Chat With Your Data!

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
线上开售!大模型时代的向量数据库 AI 技术论坛圆满收官从文心大模型4.0,到十余款AI原生应用,百度再次抢先一步没必要非得固守纯向量数据库!专访亚马逊云科技数据库负责人低成本快速入局大模型,你需要学下向量数据库AutoGPT 宣布不再使用向量数据库!向量数据库是小题大作的方案?谷歌最强AI大模型Gemini 1.0发布;Touch ID发明人宣布退休;麦当劳中国APP启动鸿蒙原生应用开发|AIoT情报科技双子星掀起AI国潮,李彦宏手把手教你做AI原生应用兵败如山倒系列:我们惨败于推娃大妈向量数据库失宠了?OpenAI 力捧检索增强生成(RAG)技术,对行业来说意味着什么?AIGC底层数据探索——高质量数据助力大模型迭代升级第七章第四节 宗教旧文化在欧洲的衰落大模型落地,向量数据库能做什么?百度智能云千帆官方出品,大模型免费实战教学,百度算法工程师从0-1教你搭建AI原生应用最短 3 天内完成接入!腾讯云向量数据库正式对外全量开放公测科研上新 | 大模型推进科研边界;大模型的道德价值对齐;优化动态稀疏深度学习模型;十亿规模向量搜索的高效更新OpenAI开发者大会后的向量数据库和RAG,一起来这场论坛聊聊太燃了!刘德华现身华为发布会,21999元黄金智能腕表来了!两款重磅新车亮相,鸿蒙原生应用全面启动…百度何俊杰:用大模型构建多元AI原生应用生态,推动产业升级与经济增长|WISE2023商业之王大会vivo将发布自研AI大模型矩阵,C-Eval、CMMLU双榜排名第一;百度上线“千帆AI原生应用商店”丨AIGC日报低成本快速定制大模型,这次我们来深度探讨下RAG 和向量数据库中国自己的数据库CHARLS,2020年数据刚刚更新、开放使用;这里是大数据分析Powder Valley自然保护区一个简单的数据库,竟然发表了这么多SCI论文!大数据分析揭示张向阳教授的分析策略法律 ChatLaw、金融度小满轩辕大模型实战课程来袭!专家教你搭建 AI 原生应用,百度智能云千帆 SDK 加速应用创新四喜烤麸—全素营养美味的家常菜免费大模型实战课|首周聚焦百度智能云千帆大模型平台使用,《大模型应用实践》实训营11月16日开讲!小米:新系统即将曝光,但不叫 MIOS;李彦宏将亲自教大家做「AI 原生应用」;传淘宝内测上线微信支付 | 极客早知道吵了一年,我来下个结论:纯向量数据库和向量插件都没有未来!法律ChatLaw、金融度小满轩辕大模型实战课程来袭!专家教你搭建 AI 原生应用,更有百度智能云千帆 SDK 加速应用创新纯向量数据库和向量插件都有局限,那未来发展有其他方向吗?硬刚GPT-4!百度文心大模型4.0开启邀测,10余款AI原生应用炸场,国家跳水队站台今年向量数据库“杀疯了”,但纯向量数据库“凉”了?| 盘点华为发布旗舰平板、全新高端手机品牌,鸿蒙原生应用全面启动大模型「进化手册」:AI 原生应用该如何落地?红色日记 计划盖房 4.1-30
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。