向量数据库会是 AI 的“iPhone 时刻”吗?| 《架构师》9月刊开放下载
《架构师》月刊是由 InfoQ 中文站针对高级技术开发者和管理人员所推出的电子刊物,是“ InfoQ 中文站每月精选”,可点击“阅读原文”或扫描图片中二维码进行下载~
最近一年,以 ChatGPT、LLaMA 为代表的大语言模型的兴起,将向量数据库的发展推向了新的高度。
向量数据库是一种在机器学习和人工智能领域日益流行的新型数据库,它能够帮助支持基于神经网络而不是关键字的新型搜索引擎。向量数据库不同于传统的关系型数据库,例如 PostgreSQL,其最初设计用于以行和列的形式存储表格数据。它也明显不同于较新的 NoSQL 数据库,例如 MongoDB,其主要是将数据存储在 JSON 文档中。
向量数据库是为存储和检索一种特定类型的数据而设计的:向量嵌入。它们本质上是机器学习过程的推理部分中运行新数据的过滤器。
在大模型部署中,向量数据库可用于存储大模型训练产生的向量嵌入。通过存储代表大模型广泛训练的潜在数十亿个向量嵌入,向量数据库执行最重要的相似性搜索,找到用户提示(他或她提出的问题)和特定向量嵌入之间的最佳匹配。
大模型爆火后,更多企业开始大力投资向量数据库以提升算法准确性和效率。据相关统计,2023 年 4 月的 AI 投资领域呈增长趋势,尤其是向量数据库领域的投资活动颇为活跃,Pinecone、Chroma 和 Weviate 等向量数据库初创公司都在这个月获得了融资。
当前的向量数据库在大模型淘金时代扮演着重要角色,它就像一把好的铲子一样,有助于挖掘出更多更宝贵的资源。
但不能忽视的是,大模型在一定时段内可能无法解决所有问题。虽然有些大模型的创建者相信通用人工智能(AGI)会到来,但不少业内专家认为所谓的 AI 的“iphone”时刻不会这么快到来。在这个阶段,我们需要着手将大模型应用到实际中,让其具备非常智能的能力,可以进行对话,解决问题等。
然而,要做好这件事并不容易,因为首先你需要了解如何挖掘金矿,即了解整个流程。就像采金矿一样,需要一套标准的流程,不能只是做好一把铲子,还需要考虑如何做筛子,如何对资源进行更深入的处理。这是一个复杂的过程,需要对向量数据库和大模型进行更深入的了解和探索。
OpenAI 或于 2024 年底破产?大模型太烧钱了,快把 OpenAI 烧没了!
吵翻了!到底该选 Rust 还是 Go,成 2023 年最大技术分歧
IPv4 开始收费!新的 IT 灾难?
用 Rust 编写,已有 10 万行代码:顶级黑客组织出手,将推出新的反数据收集开源框架 Veilid
平头哥推出首个 RISC-V AI 平台:软硬件深度协同,支持运行 170 余个主流 AI 模型
独家对话 AGI 模型“之父” Marcus Hutter:AI 能完成人类半数的工作,但让人类失业是一件美好的事情
两个多月完成全自研:大模型之争,从 GPU 卷到了向量数据库
QQ NT 全新重构,探寻 24 岁 QQ 大重构背后的思考
Apache Doris 助力中国联通万亿日志数据分析提速 10 倍
处理时延降低 24 倍,联通云粒数据引擎优化实践
解读 Linux 内存管理新特性 Memory folios
大模型颠覆研发模式:字节跳动是如何在单元测试中落地大模型的?
谷歌的反“背锅”文化
生成的代码会出错、质量差?面对 AI 编程工具的老大难问题,华为这群人打算这样做
将 60 多年的 COBOL 语言重构为 Java,IBM 用 AI 工具解决大型机维护难
七年没能将 Python 集成到 Excel,Python 之父加入微软三年后成了!
百亿级向量检索的向量数据库是如何构建的?
解决成本、易用性和扩展性三大挑战,星环科技向量数据库从 0 到 1 技术实践
DingoDB 多模向量数据库正式发布,支持多模态数据统一存储和联合分析
向量数据库内核面临的技术挑战及应对措施
本月,这些视频值得一看!
微信扫码关注该文公众号作者