Redian新闻
>
谷歌与OpenAI合作,用Google Search为大模型刷新!

谷歌与OpenAI合作,用Google Search为大模型刷新!

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | 夕小瑶科技说
编译 |  奶茶子

最近一项由Google、University of Massachusetts Amherst、OpenAI联合发布的研究探讨了大型语言模型(LLMS)面临的一个重要挑战,即它们在适应不断变化的世界时的困难。研究作者引入了一个新的动态问答基准测试,称为FRESHQA,旨在深入研究LLMS生成文本的准确性。他们对各种不同的LLMS在FRESHQA上的表现进行了评估,发现这些模型在处理涉及迅速变化的知识和纠正错误前提的问题时存在一定的限制。

此外,为了解决这一问题,研究团队提出了一种简单而高效的方法,即FRESHPROMPT。该方法通过从搜索引擎中获取相关和最新的信息,并将其融入LLMS的提示中,显著改善了模型在FRESHQA基准测试上的性能。

论文题目:
FRESHLLMS: Refreshing Large Language Models with Search Engine Augmentation

论文链接:
https://arxiv.org/pdf/2310.03214.pdf

FRESHQA的构建

大部分大型语言模型(LLMS)只训练一次,不再更新,因此无法动态适应不断变化的世界。为了研究了LLM生成的文本在回答测试当前世界知识问题时的真实性。作者提出了一个新颖的动态问答基准FRESHQA,其中包括600个问题,根据答案性质分为四个主要类别:

  • 永不变化,答案几乎不会改变

  • 缓慢变化,答案通常在数年内发生变化

  • 快速变化,答案通常在一年或更短时间内发生变化

  • 虚假前提,包括前提事实不正确,因此必须被驳斥的问题

作者要求注释员以两种不同的难度级别编写问题:

单跳问题:其中问题明确提到了回答问题所需的所有相关信息,因此不需要额外的推理(例如,“谁是Twitter的CEO”);

多跳问题:其中问题需要进行一项或多项额外的推理步骤,以收集回答问题所需的所有相关信息(例如,“世界上最高建筑的总高度是多少”)。

基于FRESHQA的测评结果

作者通过向不同的LLM提出问题,并可选地提供一些问题-答案示范,然后对响应进行采样,来评估它们在FRESHQA上的表现。包括基本的预训练模型T5,PALM和PALMCHILLA等,一些指令调优模型FLAN-T5和FLAN-PALM,以及OpenAI的GPT-3.5,CODEX,CHATGPT和GPT-4。作者对模型响应事实准确性进行了两种模式的评估:RELAXED,仅衡量主要答案是否正确;STRICT,衡量响应中所有声明是否事实和最新(即没有虚构)。

在评估前,两位作者独立地在这两种模式下评估了100个答案的子集,结果显示"RELAXED"模式下的一致性为99%,"STRICT"模式下的一致性为96%。这表明评估标准在比较不同LLMS时是可靠的。

▲图2

图2中展示了不同LLM在FRESHQA上的准确性,包括两种评估模式。首先,明显可见所有模型在FRESHQA上都面临着挑战。在STRICT模式下,总体准确率在0.8%到32.0%之间,在RELAXED模式下在0.8%到46.4%之间。将评估模式从RELAXED切换到STRICT模式会导致CHATGPT和GPT-4的准确率显著下降。主要原因是由于它们无法访问实时信息,因此产生了“过时”的答案,而在许多情况下,它们会“拒绝”提供答案(例如,“作为人工智能语言模型,我无法提供实时信息”)。同样,在STRICT模式下,PALM的准确性(跨模型大小)也显著下降。其中很大一部分下降是由于一些异常,比如具有意外特殊标记的类似对话的响应(例如,对话结束标记[eot]),以及虚构。相比之下,FLAN-PALM和CODEX由于其简明直接的答案几乎没有虚构。

FRESHPROMPT后的测评

在FRESHQA数据集上的低准确性在很大程度上并不令人意外,因为所有作者评估的模型都没有访问实时信息的能力。为了解决这个问题,研究团队提出了一种名为FRESHPROMPT的方法,通过将从搜索引擎(GOOGLE SEARCH)检索到的相关和最新信息合并到提示中,显著提高了LLM在FRESHQA上的性能。

将所有检索到的内容都转化为一个统一的格式,包括来源网页、日期、标题、文本摘录和高亮词语(左侧),向模型展示了一个示例问题以及问题的一系列检索到的证据,然后对这些证据进行推理以找出最相关和最新的答案(右侧)。

FRESHPROMPT方法利用文本提示来实现两个目标:

(1) 从搜索引擎中引入与上下文相关和最新的信息(包括与相关问题的答案),提供给预训练的LLM

(2) 教导模型对检索到的证据进行推理

▲表1

FRESHPROMPT显著提高了LLMs在FRESHQA的准确性,表1呈现了在STRICT模式下的具体实验数据,FRESHPROMPT在各个方面都显著提高了GPT-3.5和GPT-4的性能。在STRICT和RELAXED模式下,GPT-4 + FRESHPROMPT的绝对准确率分别提高了47%和31.4%。STRICT和RELAXED之间的绝对准确率差距减小(从17.8%减小到2.2%),这也表明FRESHPROMPT显著减少了过时和虚构答案的存在。除此之外,作者发现一些LLM具备推翻虚假前提问题的能力,例如在回答之前请检查问题是否包含有效前提。若将这个前提检查添加到GPT-3.5和GPT-4会在STRICT模式下分别提高虚假前提问题的准确率+23.4%和+6.4%(在RELAXED模式下分别提高+22.6%和+11.3%)。

结语

这种研究方法的确为整合动态变化的知识到语言模型中提供了一个创新方案,允许从Google Search中获取相关证据是一个强大的功能,可以使模型保持其答案的时效性,尤其在当前的快速变化的信息时代。但是该方法的一个主要限制是需要定期更新答案。这意味着,为了保持答案的准确性和时效性,必须持续投入资源和时间。


技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
每周硅闻 | 突发!亚马逊计划招25万名员工;Google开发全新AI模型;最新Windows强势登场!Google 史上最强大模型 Gemini,真的全面「碾压」GPT-4 吗?Erklärung zur ZusammenarbeitGoogle语言模型反击战!部分性能超越ChatGPT!OpenAI、Google和Meta 的当红华人研究员们在想些什么|对话实录智能周报|Google发布Gemini;OpenAI推迟发布GPT商店;微软明年发布新版Windows,AI功能大幅增强…Google谷歌社招岗位来袭,世界五百强,行业巨头,部分岗位0经验可投,WLB,留学生有优势以阿里云OpenSearch为例谈向量检索技术选型好消息!PRESTO可以用Google钱包支付车费了,更轻松更便捷!你猜,为什么Google和Facebook不用Docker?AI早知道|微软Copilot将可免费使用GPT-4Turbo; 国产670亿参数大模型DeepSeek亮相三百六十行远远不够。。。。刷完这本Google力荐的LeetCode指南,零基础也能转码上岸!谷歌Google山景城访客体验中心,10月12日全新启航~ 超多项目:谷歌商店、咖啡厅、艺术节,人人可参加!初秋,这样养多肉特别好科技快讯 | Google 发布最强 AI 大模型 Gemini;我国和新加坡将互免签证...卷!Amazon、Google、Oracle等公司悄悄开启2025校招!智能周报|OpenAI推多模态模型,计划开发AI硬件和芯片;从亚马逊融40亿美元后,Anthropic想再从Google融20亿被Google导航指引到沙漠迷路了!网友发文怒斥,Google道歉《灵魂的哀伤吟游·克林姆特篇之三》Google推出Emoji Kitchen网页版,可任意组合两个表情!新MacBook Air或明年春季推出/Google发布Gemini大模型,多领域超越GPT-4/微软Copilot重磅升级放大招!Meta挑战OpenAI和Google,发布新AI模型!Google 推出最强大的 AI 模型:Gemini多元共进|2023 Google 谷歌开发者大会现场全回顾明日开幕|2023 Google 谷歌开发者大会线上观看指南彭博推出金融版ChatGPT,美联社和与OpenAI合作,AI背景下,还有什么是铁饭碗?红色日记 11.21-30浪潮信息:发布大模型智算软件栈OGAI,为大模型创新打造高效生产力土司城里逛一逛Google 不只挑战 OpenAI,还有英伟达硅谷Google"谷歌城"泡汤了?与全球头号房产商解约,这个项目会烂尾吗?超越GPT-4,Google发布大模型Gemini/苹果明年初或将推出多款新品/五月天阿信回应假唱风波Google 最强大模型发布,GPT-4 要被反超?曝OpenAI大模型新进展!将推出多模态大模型,新项目Gobi筹备中
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。