Redian新闻
>
LLM准确率飙升27%!DeepMind提出全新「后退一步」Prompt技术

LLM准确率飙升27%!DeepMind提出全新「后退一步」Prompt技术

公众号新闻

©作者 | 拉燕
来源 | 新智元



谷歌DeepMind全新提示技术「Step-Back Prompting」,让LLM性能拉满!


前段时间,谷歌DeepMind提出了一种全新的「Step-Back Prompting」方法,直接让prompt技术变得脑洞大开。

简单来说,就是让大语言模型自己把问题抽象化,得到一个更高维度的概念或者原理,再把抽象出来的知识当作工具,推理并得出问题的答案。


论文题目:
Take a Step Back: Evoking Reasoning via Abstraction in Large Language Models

论文链接:

https://arxiv.org/abs/2310.06117

结果也是非常不错的,在他们用PaLM-2L模型做了实验,证明这种新型的Prompt技巧对某些任务和问题的处理表现极佳。

比方说,MMLU物理和化学方面的性能提高了7%,TimeQA提高了27%,MuSiQue则提高了7%。

其中MMLU是大规模多任务语言理解测试数据集,TimeOA是时间敏感问题测试数据集,MusiQue则是多跳问答数据集,包含25000个2至4跳的问题。

其中,多跳问题指的是,需要使用多个三元组所形成的多跳推理路径才能够回答的问题。

下面,让我们来看看这项技术是如何实现的。


后退


看完开头的介绍,可能读者朋友还没太理解。什么叫让LLM自己把问题抽象化,得到一个更高维度的概念或者原理呢。

我们拿一个具体的实例来讲。比方说,假如用户想问的问题和物理学中的「力」相关,那么LLM在回答此类问题时,就可以后退到有关力的基础定义和原理的层面,作为进一步推理出答案的根据。

基于这个思路,用户在一开始输入prompt的时候,大概就是这样:

你现在是世界知识的专家,擅长用后退的提问策略,一步步仔细思考并回答问题。


后退提问是一种思考策略,为的是从一个更宏观、更基础的角度去理解和分析一个特定问题或情境。从而更好地回答原始问题。

当然,上面举的那个物理学的例子只体现了一种情况。有些问题下,后退策略可能会让LLM尝试识别问题的范围和上下文。有的问题后退的多一点,有的少一些。


论文

首先,研究人员指出,自然语言处理(NLP)领域因为有了基于Transformer的LLM而迎来了一场突破性的变革。

模型规模的扩大和预训练语料库的增加,带来了模型能力和采样效率的显著提高,同时也带来了多步推理和指令遵循等新兴能力。


上图显示了后退推理的强大性能,本篇论文中所提出的「抽象-推理」法,在科学、技术、工程与数学和多跳推理等需要复杂推理的各种高难度任务中取得了重大改进。

有些任务非常具有挑战性,一开始,PaLM-2L和GPT-4在TimeQA和MuSiQue上的准确率仅为40%。而在应用了后退推理以后,PaLM-2L的性能全线提高。在MMLU物理和化学任务中分别提高了7%和11%,在TimeQA任务中提高了27%,在MuSiQue任务中提高了7%。

不仅如此,研究人员还进行了错误分析,他们发现大部分应用后退推理时出现的错误,都是由于LLMs推理能力的内在局限性造成的,与新的prompt技术无关。
而抽象能力又是LLMs比较容易学会的,所以这为后退推理的进一步发展指明了方向。

虽说确实取得了不小进步,但复杂的多步骤推理还是很有挑战性的。即使对最先进的LLMs来说也是如此。

论文表明,具有逐步验证功能的过程监督是提高中间推理步骤正确性的一种有效补救方法。

他们引入了思维链(Chain-of-Thought)提示等技术,以产生一系列连贯的中间推理步骤,从而提高了遵循正确解码路径的成功率。

而谈到这种promp技术的起源时,研究者指出,人类在面对具有挑战性的任务时,往往会退一步进行抽象,从而得出高层次的概念和原则来指导推理过程,受此启发,研究人员才提出了后退的prompt技术,将推理建立在抽象概念的基础上,从而降低在中间推理步骤中出错的几率。


上图的上半部分中,以MMLU的高中物理为例,通过后退抽象,LLM得到理想气体定律的第一条原理。而在下半部分中,是来自TimeQA的示例,教育史这一高层次概念是依照这种策略,LLM抽象出来的结果。

从整张图的左边我们可以看到,PaLM-2L未能成功回答原始问题。思维链提示在中间推理步骤中,LLM出现了错误(红色高亮部分)。而右边,应用了后退prompt技术的PaLM-2L则成功回答了问题。

在众多认知技能中,抽象思考对于人类处理大量信息并推导出一般规则和原理的能力来说无处不在。随便举几个例子,开普勒将成千上万的测量结果凝练成开普勒行星运动三定律,精确地描述了行星围绕太阳的轨道。又或者,在关键决策制定中,人类也发现抽象是有帮助的,因为它提供了一个更广阔的环境视角。

而LLM是如何通过抽象和推理两步法来处理涉及许多低级细节的复杂任务,则是本篇论文的重点。

第一步就是教会LLMs退一步这个思路,让它们从具体实例中推导出高级、抽象的概念,如某领域内的基础概念和第一原理。

第二步则是利用推理能力,将解决方案建立在高级概念和第一原理的基础上。

研究人员在LLM上使用了少量的示例演示来执行后退推理这一技术。他们在一系列涉及特定领域推理、需要事实知识的知识密集型问题解答、多跳常识推理的任务中进行了实验。

结果表明,PaLM-2L的性能有了明显提高(高达27%),这证明了后退推理在处理复杂任务方面的性能十分显著。

在实验环节,研究人员对以下不同种类的任务进行了实验:

(1)STEM

(2)知识QA

(3)多跳推理

研究人员评估了在STEM任务中的应用,以衡量新方法在高度专业化领域中的推理效果。(本文中仅以此类问题进行讲解)

显然,在MMLU基准中的问题,需要LLM进行更深层次的推理。此外,它们还要求理解和应用公式,而这些公式往往是物理和化学原理和概念。

在这种情况下,研究人员首先要教会模型以概念和第一原理的形式进行抽象,如牛顿第一运动定律、多普勒效应和吉布斯自由能等。这里隐含的退一步问题是「解决这项任务所涉及的物理或化学原理和概念是什么?」

团队提供了示范,教导模型从自身知识中背诵解决任务的相关原理。


上表中就是应用了后退推理技术的模型性能,应用了新技术的LLM在STEM任务中表现出色,达到了超越GPT-4的最先进水平。


上表是针对少数几个样本的示例,展示了样本数量变化时的稳健性能。首先,从上图中我们可以看出,后退推理对用作示范的少量示例具有很强的鲁棒性。除了一个示例之外,增加更多的示例结果也还会是这样。这表明,检索相关原理和概念的任务相对来说比较容易学习,一个示范例子就足够了。

当然,在实验过程中,还是会出现一些问题。其中除原则错误外,所有论文中出现的五类错误都发生在LLM的推理步骤中,而原则错误则表明抽象步骤的失败。
如下图右侧所示,原则错误实际上只占模型错误的一小部分,90%以上的错误发生在推理步骤。在推理过程中的四种错误类型中,推理错误和数学错误是主要的失误所在地。

这与消融研究中的发现相吻合,即只需要很少的示例就能教会LLM如何进行抽象。推理步骤仍然是后退推理能否很好地完成MMLU等需要复杂推理的任务的瓶颈。

特别是对于MMLU物理来说,更是如此,推理和数学技能是成功解决问题的关键。意思就是说,哪怕LLM正确地检索了第一原理,也还是得通过典型的多步骤推理过程得出正确的最终答案,也就是还需要LLM有深入的推理和数学能力。


之后,研究人员在TimeQA的测试集上对模型进行了评估。如下图所示,GPT-4和PaLM-2L的基线模型分别达到了45.6%和41.5%,凸显了任务的难度。在基线模型上应用CoT或TDB零次(和一次),prompt没有任何改进。

相比之下,通过常规检索增强(RAG)对基线模型进行增强后,准确率提高到了57.4%,凸显了任务的事实密集性。Step-Back + RAG的结果显示了后退推理中,LLM回到高级概念这一步是很有效的,这会让LLM的检索环节更为可靠,我们可以看到,TimeQA的准确率达到了惊人的68.7%。

接下来,研究人员又将TimeQA分成了原始数据集中提供的简单和困难两个难度级别。不出意外的是,LLM在困难这个级别上的表现都较差。虽然RAG可以将简单级的准确率从42.6%提高到67.8%,但对困难级准确率的提高幅度要小得多,数据显示仅从40.4%增加到了46.8%。

而这也正是后退推理的prompt技术的真正优势所在,它能检索到高层次概念的相关事实,为最终推理奠定基础。后退推理再加RAG,就能进一步将准确率提高到62.3%,超过了GPT-4的42.6%。


当然,在TimeQA类问题上,这项prompt技术还是存在一些问题的。下图就显示了在这部分实验中LLM的准确性,右侧则是错误发生的概率。

参考资料:
https://arxiv.org/abs/2310.06117


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
保持自己的善良自动生成prompt:Automatic prompt engineering扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略扩散模型图像理解力刷新SOTA!字节联合复旦团队提出全新「元提示」策略西工大提出全新「群聊式」无人机控制框架!类人对话交互、主动环境感知、自主实体控制GPT-4完成正确率仅6%!北大等提出首个「多轮、多模态」PPT任务完成基准PPTC人在秋天,心系玫瑰ChatGPT狂吐训练数据!还带个人信息!DeepMind发现大bug引争议。。。OpenAI回应ChatGPT服务故障;新研究以99%准确率识别ChatGPT生成化学论文;三星发布自研大模型丨AIGC日报让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%打破奥数天花板!DeepMind最新AI数学大模型,能以人类金牌水平解决几何题今日arXiv最热NLP大模型论文:伯克利&DeepMind联合研究,RaLMSpec让检索增强LLM速度提升2-7倍!AI抢攻人类奥赛金牌!DeepMind数学模型做对25道IMO几何题,GPT-4惨败得0分GPT-4准确率最高飙升64%!斯坦福OpenAI重磅研究:全新Meta-Prompting方法让LLM当老板Diving Controversy Prompts Sports Fandom CriticismAI颠覆材料学!DeepMind重磅研究登Nature,预测220万晶体结构赢人类800年港大&百度提出LLMRec:基于LLM增强的多模态图神经网络推荐LLM生成延迟降低50%!DeepSpeed团队发布FastGen:动态SplitFuse技术,提升2.3倍有效吞吐量后门准确率降至3%,主任务性能几乎不变!华工JHU提出全新「联邦学习后门攻击识别」解决方案|ICCV2023DeepMind曝新一代AlphaFold,预测准确率暴涨近10%!DNA和RNA的AlphaFold时刻来了LLM准确率飙升27%!谷歌DeepMind提出全新「后退一步」提示技术开发速率飙升20倍!GPT Pilot明星项目登Github热榜,从0开始构建AI2028年第一个AGI将到来?谷歌DeepMind提6条AGI标准,定义5大AGI等级性能直追GPT-4,5000个H100训成!DeepMind联创发全新一代大模型AI反诈!Deepfake音视频检测技术亮相CES,准确率超90%双林奇案录第三部之昭雪嘉州: 第二节PromptScript:轻量级 DSL 脚本,加速多样化的 LLM 测试与验证Google DeepMind 宣布基于 LLM 的机器人控制器 RT-2探寻西西里与马耳他的历史脚印(2)谷歌DeepMind爆火动画18秒解释LLM原理!Continuous Batching:解锁LLM潜力!让LLM推断速度飙升23倍,降低延迟!探寻西西里与马耳他的历史脚印(3)一个提示,让Llama 2准确率飙至80.3%?Meta提出全新注意力机制S2A,大幅降低模型幻觉DeepMind让大模型学会归纳和演绎,GPT-4准确率提升13.7%港大等发布GraphGPT:1/50微调参数,准确率提升10倍!无需超长token,LLM也能读懂图结构
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。