Redian新闻
>
ICLR 2023 | 用大语言模型GPT-3直接替代传统搜索引擎

ICLR 2023 | 用大语言模型GPT-3直接替代传统搜索引擎

科技

©PaperWeekly 原创 · 作者 | 于文豪
单位 | 美国圣母大学
研究方向 | 机器学习,自然语言处理


知识密集型任务,例如开放领域问答(QA),需要访问大量的世界或领域知识。解决知识密集型任务的常见方法是使用先检索再阅读的框架,首先从外部语料库(如维基百科)中检索几篇相关的上下文文档,然后根据检索到的文档预测答案。

在本文中,我们提出了一种解决知识密集型任务的新视角,通过用大型语言模型生成器代替文档检索器。我们称之为先生成再阅读(Generate-then-Read),首先向大型语言模型提示(prompt)生成基于给定问题的上下文文档,然后阅读生成的文档以产生最终答案。此外,我们提出了一种基于聚类的提示(prompt)方法,该方法选择不同的提示,以生成涵盖不同视角的不同文档,从而提高接受答案的召回率。

我们对三个不同的知识密集型任务进行了广泛的实验,包括开放领域 QA、事实检查和对话系统。值得注意的是,GENREAD 在 TriviaQA 和 WebQ 上分别获得了 71.6 和 54.4 的精确匹配分数 (Accuracy),明显优于现有 SoTA 技术。

论文标题:

Generate rather than Retrieve: Large Language Models are Strong Context Generators

论文链接:

https://arxiv.org/abs/2209.10063

代码链接:

https://github.com/wyu97/GenRead


总体而言,我们的主要贡献可以总结如下:

1. 我们提出了一种新的先生成再读取框架,用于解决知识密集型任务,即用大型语言模型生成相关上下文文档代替从维基百科检索文档或在 Google 上搜索相关文档的过程;

2. 我们提出了一种新的基于聚类的提示(prompt)方法,用于生成多个不同的上下文文档,增加涵盖正确答案的可能性。我们证明了这种方法可以显著提高端到端问答和其他下游任务的性能;

3. 我们在零样本和监督设置下对三个知识密集型自然语言处理任务进行了广泛的实验。值得注意的是,我们的方法可以与甚至优于从任何外部知识源检索文档的先检索再读取框架方法相匹配。




方法(Generate-then-Read)


核心思路:Generate-then-Read 首先提示大型语言模型生成关于给定查询的上下文文档,然后读取生成的文档以预测最终答案。阅读器可以是一个大型模型(例如 GPT-3),用于 zero-shot 或者 few-shot 的情况,或一个小的可训练的阅读器(例如 FiD),在目标数据集的训练分割上使用生成的文档进行微调。


▲ Figure 1:我们提出的先生成再阅读(Generate-then-Read)的框架可以正确回答图中的问题。GPT-3使用的是text-davinci-002.
Advanced 方法:Clustering-based Prompt

为了增加生成文档中的知识覆盖面,我们提出了一种基于聚类的提示方法。它首先将一组文档的表示聚类成 K 类(图 1 中 K=2),其中类的数量等于最终需要生成的文档数量。接下来,它从每个聚类中随机选择 n 个问题-文档对(图 1 中 n=5)。最后,大型语言模型将不同的 n 个问题-文档对作为上下文演示,以便根据给定问题生成文档。这样,大型语言模型基于不同的示例分布,因此生成的文档涵盖了不同的观点。

我们在图 1 中展示了这一点,并详细说明了每一步的细节:

▲ Figure 2: 基于聚类的提示方法的总体框架。它利用从每个嵌入聚类中抽样的不同问题-文档对作为上下文演示,提示大型语言模型生成多样化的文档,然后阅读文档预测答案。
步骤 1:获得每个问题的一份初始文档。与零点设定类似,我们首先要求大型语言模型为每个问题 q 生成一份上下文文档 d,其中 Q 是训练分裂中的问题集。或者,我们可以使用无监督检索器(例如 BM25)从维基百科获得一份文档。现在我们有一个问题-文档对集 ,其中
步骤 2:对每个文档进行编码,并进行 K-Means 聚类。然后,我们使用大型语言模型(即 GPT-3)对每个问题-文档对进行编码,即,从而每个文档得到 12,288 维向量。然后,我们使用 K-means 将所有嵌入向量 聚类到 K 个集合中,因此每个问题-文档对分配了唯一的聚类 ID
步骤 3:抽样并生成 K 个文档。最后,我们从每个聚类 c 中抽样 n 个问题-文档对,表示为 ,其中 n 是超参数 2。然后,同一聚类中的 n 个抽样问题-文档对作为大型语言模型生成上下文文档的上下文演示。例如,大型语言模型的输入可以是“{ placeholder} { placeholder} ... { placeholder} { placeholder} {input question placeholder}”。
通过枚举这 K 个聚类中的抽样文档,我们最终可以得到 K 个生成的文档。通过对不同聚类收集的不同抽样上下文演示进行调整,大型语言模型已经偏向了不同的观点。尽管这些不同的观点以潜在的方式存在,但我们通过与抽样方法、不同的人类提示和从整个数据集随机抽样 n 对进行比较,经验证明它在实践中表现良好。

我们提出的 GenRead 与 InstructGPT 阅读器可以显著优于原始的 InstructGPT,在不使用任何外部文档的情况下,在三个开放领域 QA 基准上实现了新的最新性能。我们的 GenRead 可以实现与零点检索再阅读模型相当或更好的性能,这些模型使用检索器或搜索引擎首先获取上下文文档。

为了确保可重复性,我们在解码中使用贪心搜索。在监督 (supervised learning) 的设置下,相比于基于检索的 SoTA 方法 (DPR-FiD)。仅使用 InstructGPT 生成的文档,我们的 GenRead 可以在 TriviaQA 和 WebQ 上获得比 SoTA 方法更好的性能。

在两个数据集上的性能随着 GPT-3 模型大小的增加而不断提高,斜率也随之增加。仅使用最大尺寸的 GPT-3,GenRead 才能超越 DPR-FiD。因此,这种能力仅在大语言模型中呈现。


参考文献


[1] Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Kuttler, Mike Lewis, Wen-tau Yih, Tim Rocktaschel, et al. Retrieval-augmented generation for knowledge-intensive nlp tasks. Advances in Neural Information Processing Systems (Neurips) 2020.

[2] Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, et al. Language models are few-shot learners. Advances in neural information processing systems (Neurips) 2020.

[3] Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Chi, Quoc Le, and Denny Zhou. Chain of thought prompting elicits reasoning in large language models. Advances in neural information processing systems (Neurips) 2022.


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
比 ChatGPT 更早发布的微信大语言模型,现在什么水平?搜索引擎变天了:微软正式宣布推出首款ChatGPT搜索!Chat-REC: 用大语言模型增强传统推荐的全新范式Meta版ChatGPT来了?小扎、LeCun官宣650亿参数SOTA大语言模型LLaMA国际要闻简报,轻松了解天下事(03ICLR 2023 | PromptPG:当强化学习遇见大规模语言模型谷歌母公司董事长:聊天机器人成本是传统搜索的10倍重磅!微软发布 ChatGPT 版搜索引擎,用上了比 ChatGPT 更强大的技术Merry Christmas!被泄露的大语言模型LLaMA,引爆ChatGPT平替狂潮Meta最新语言模型LLaMA论文研读:小参数+大数据的开放、高效基础语言模型阅读笔记ChatGPT颠覆传统搜索引擎,它的回答能信几分?世界杯随想 3ICML 2023禁止使用大型语言模型写论文!LeCun转发:中小型模型可以用吗?元语AI(ChatYuan): ChatGPT中文版尝试?功能型对话大语言模型.beta版2023 春 祝姐妹们周末快乐!必应发狂了! LeCun马库斯齐喷ChatGPT:大语言模型果然是邪路?彭博推出BloombergGPT——专为金融行业从头打造的500亿参数大语言模型Why do Chinese citizens support the Chinese government?广义相对论看来也问题重重艾瑞咨询:ChatGPT浪潮下,看中国大语言模型产业发展单卡就能跑的大模型等效GPT-3!Meta发布大语言模型LLaMA,大小从7B到65B不等今天,微软重新发明搜索引擎:首款ChatGPT搜索来了Meta发布全新大语言模型,号称比ChatGPT更强,单GPU上就能跑,后续或将开源天使就是加拿大共产党员白求恩NLP大规模语言模型推理实战:大语言模型BLOOM推理工具测试实践与效果分析实录由ChatGPT反思大语言模型(LLM)的技术精要ICLR 2023 | 解决VAE表示学习问题,北海道大学提出新型生成模型GWAEEruope 20237 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型2022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一压着谷歌打!ChatGPT正式上线微软搜索!搜索引擎迎来大变革!从LLM到MLLM,多模态大规模语言模型KOSMOS-1赋予了语言模型看见世界的能力ChatGPT爆火,LeCun心态崩了!称大语言模型是邪路,Meta模型3天惨遭下线OpenAI CEO:ChatGPT比想象的更有用 但不会取代传统搜索是什么让ChatGPT变得如此聪明?仍然未知的大语言模型“能力涌现”现象 |【经纬科创汇*AI】转:2023 回国探亲(5)语言模型自己学会用搜索引擎了?Meta AI提出API调用自监督学习方法ToolformerNeurIPS 2022 | UCLA推出科学问答新基准,大语言模型迎来多模态新挑战!谷歌摸着ChatGPT过河:没了热度,传统搜索引擎还是吊打LLM
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。