Redian新闻
>
与向量数据库 Pinecone 工程经理聊 ChatGPT 插件

与向量数据库 Pinecone 工程经理聊 ChatGPT 插件

公众号新闻

作者 | Anthony Alford
译者 | 明知山
策划 | Tina  

OpenAI 最近宣布提供 ChatGPT 插件支持,允许 ChatGPT 访问外部工具和数据库。OpenAI 还开放了数据检索插件的源代码,其他公司可以使用该插件为 ChatGPT 提供对自己文档和数据的访问。

虽然像 ChatGPT 这样的大型语言模型(LLM)可以正确地回答许多问题,但它们的知识可能会过时,因为 LLM 被训练好以后并不会得到更新。此外,模型只能输出文本,这意味着它不能直接代表用户执行操作。

为了解决这个问题,研究人员探索了一些允许 LLM 调用 API 或访问知识库的方法。ChatGPT 的插件系统将允许模型与外部系统集成,如知识库和第三方 API。检索插件允许模型对向量数据库执行语义搜索。由于该插件是自托管的,企业可以将自己的内部文档安全地存储在数据库中,并让他们的用户通过 ChatGPT 的自然语言界面与数据发生交互。

这个插件支持几种商业的和开源的向量数据库,包括一个由 Pinecone 开发的。这家公司也参与了这个插件的开发,InfoQ 采访了 Pinecone 的工程经理 Roy Miara,谈到了他们对这个插件的贡献。

InfoQ:ChatGPT 插件是什么东西,特别是这个检索插件是用来做什么的?

Roy Miara:ChatGPT 插件作为辅助工具,可以帮助 ChatPGT 方便地访问当前的信息、执行计算或集成第三方服务。这个检索插件让 ChatGPT 能够通过语义搜索技术获取外部知识。检索插件有两种流行的使用范例,一种是利用插件访问个人或组织数据,一种是将插件作为 ChatGPT 内部的记忆组件。两者都使用语义搜索作为模型将用户提示词重组为对向量数据库(如 Pinecone、Milvus 或 Weaviate)查询的一种方式。

InfoQ:ChatGPT 插件与其他 LLM 集成(如 LangChain)相比有哪些优势?

Miara:LangChain 通过工具链实现“代理”的体验,但 ChatGPT 插件更适合 AI 应用开发。ChatGPT 插件的优势包括:实现更为复杂和完善,利用了 OpenAI 内部插件能力,而 LangChain 只是将插件信息连接为模型的提示词;支持安全性身份验证,这对 AI 应用程序开发来说是至关重要的,特别是在访问个人数据或代表用户执行操作时。Langchain 当前的产品中并不包含这些特性。

InfoQ:你能描述一下你对这个检索插件的贡献吗?

Miara:Pinecone 的数据存储实现贡献给了这个项目,也包括其他一些测试和文档的内部改进。总体基本实现遵循 Pinecone 的更新 / 查询 / 删除范式,我们目前正在研究混合查询和其他高级查询技术。

InfoQ:你能提供一些典型的关于 ChatGPT 插件工作原理的技术细节吗?

Miara:ChatGPT 插件就是一个向 ChatGPT 公开“指令”清单的 Web 服务器,它将插件的操作描述为提示词,并将 API 引用描述为 OpenAPI 规范。有了这些,ChatGPT 就能够理解不同的 API 调用,以及它应该遵循的指令
Miara:因此,要开发插件,就需要构建应用程序逻辑,实现遵循 OpenAPI 规范的 Web 服务器,并部署服务器,让 ChatGPT 能够访问它。尽管对可实现的应用程序逻辑没有限制,但不建议构造太过复杂的 API 服务器,因为这可能会导致出现不希望看见的行为或混乱等。

我们发现清单中有“description_for_model”,本质上就是在获取上下文之前注入的提示词,它是成功构建插件的关键。OpenAI 提供了一些指南,但归根结底还是要开发者自己找到正确的提示词。

InfoQ:OpenAI 说插件是“以安全为核心原则、专门为语言模型设计的”。在开发插件的过程中都遇到了哪些安全方面的挑战?

Miara:首先,让 ChatGPT 访问个人或组织数据需要实现安全和数据完整性特性。插件需要处理 API 身份验证,确保数据的安全访问。

其次,生成式语言模型一直存在正确性问题。我们发现,早期版本的插件偶尔会提供不正确的响应,但随后的迭代提高了准确性,同时也承认某些问题超出了它们可处理的范围。此外,通过在测试阶段长时间运行插件,OpenAI 可以在将其发布给更多的用户之前更好地对结果做出调整。

此外,插件功能的设计对用户来说是完全透明的。用户显式地选择他们希望启用的插件,ChatGPT 在启用插件时会清楚地向用户表明,同时也使查看插件服务提供给 ChatGPT 上下文的结果变得简单。

查看英文原文:

https://www.infoq.com/news/2023/05/chatgpt-retrieval-plugin/


你也「在看」吗? 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
与向量数据库Pinecone工程经理聊ChatGPT插件【城事】巴黎市长将重修Châtelet 广场以方便行人矢量数据库:企业数据与大语言模型的链接器Zilliz创始人兼首席执行官星爵演讲实录 | 向量数据库:大模型的记忆体抗拒使用 GPT-4 和 Copilot 写代码,拥有 19 年编程经验的老程序员“面试”被淘汰ChatGPT 美国用户人群画像出来了:年轻、富裕、受过良好教育生命中的一缕光和前Timberland中国总经理聊聊营销人的未来出路 | 直播预告被整得灰头土脸向量数据库?不要投资!不要投资!不要投资!Pinecone:大模型引发爆发增长的向量数据库,AI Agent的海马体给大模型持久记忆!GitHub 2万星向量数据库云服务升级,国内云产品7月上线Chatgpt 图片识别能力超越人类了啊,谁第一眼看走眼的举手把心吃甜了,再说话拒绝花架子!盘点ChatGPT最强的七个插件:写提示词、学外语、总结视频,让ChatGPT做你的私人秘书腾讯云发布向量数据库产品,AI Native成关键词丨最前线ChatGPT插件全宇宙爆炸级开放!无需排队,下周可用,GPT-4突然「紫」了8大分类、80+ChatGPT插件一网打尽,最全ChatGPT插件清单来了2023回国 宴会请客1500元的限制行得通吗?(图)ChatGPT盛行的当下,向量数据库为大模型配备了一个超级大脑ChatGPT 突然被 block 了ChatGPT 干倒了补习班股票, CHGG 近乎腰斩Chatgpt 眼中的“马云数钱”,大家看AI绘画靠谱么?向量数据库再迎新变化!头部公司产品更新引热议,开启大模型落地新范式AI 原生向量数据库 : 大模型的“黄金搭档”, 能提供“记忆海绵”两个多月完成全自研:大模型之争,从 GPU 卷到了向量数据库ChatGPT长出狗身子!波士顿动力ChatGPT狗,说话、整理数据超级6训练大模型之前,你要了解下向量数据库、算力集群、高性能网络技术底座吗?大模型商用新解法:CVP架构崛起,向量数据库破圈重回图书馆GPT4通过注册会计师考试/孙燕姿首谈「AI孙燕姿」/微软为Win 11添加ChatGPT插件连代码都没写就敢要融资:被ChatGPT带火的向量数据库,带来了一大波造富神话ChatGPT凌晨重磅更新!GPT-3.5/4双升级:上下文飙升4倍,用API自己造插件巴黎市长将重修Châtelet 广场以方便行人Zilliz星爵:向量数据库,开创AI原生数据基础软件时代 | GGV OMEGA访谈录腾讯云大模型领域新动向!向量数据库作为独立产品推出,8月正式上架8 大分类、80+ ChatGPT 插件一网打尽,最全 ChatGPT 插件清单来了北美有的,中国也有了!Zilliz Cloud向量数据库云服务重磅登场被黄仁勋和OpenAI接连点名,这家向量数据库公司终迎「iPhone时刻」|年度AI对话ChatGPT能写长篇小说了,ETH提出RecurrentGPT实现交互式超长文本生成
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。