Redian新闻
>
最新ReWOO框架直指Auto-GPT和LangChain代理的冗杂性,提出轻量级LLM与工具的交互范式

最新ReWOO框架直指Auto-GPT和LangChain代理的冗杂性,提出轻量级LLM与工具的交互范式

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。

随着大语言模型(LLM) 的爆火,社区和学者们逐渐把目光投到LLM的弱点, 比如LLM对大数字数理推断的不足, 或者无法获取预训练数据外的最新数据。为了弥补LLM的不足,近期逐渐兴起了LLM与外界工具 (如搜索引擎,计算器,API接口等)交互的浪潮。ReAct 是目前最常见和通用的增强式语言模型(Augmented LM)范式,它启发于传统强化学习,通过提示词构造“想法”(Thought),“行动”(Action),“观察”(Observation)的思维链, 逐步启发大语言模型根据当前工具的输出产生观察,从而进一步产生下次推理。这种范式被广泛应用在近期爆火的 Auto-GPT 和 LangChain 等项目中。

然而,最近的研究ReWOO (Reasoning WithOut Observation)指出,基于ReAct的增强式语言模型存在普遍的冗杂(Redundancy)问题,从而导致过大的计算开销和过长的词元(Token)使用。相比之下,ReWOO通过模块化解耦(Decouple)大语言模型的“预见性推理”(Foreseeable Reasoning) 和工具的执行,从而实现在HotpotQA等任务上数倍的词元效率(Token Efficiency), 并且提高了模型表现以及复杂环境下的鲁棒性。

论文题目:

ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models

论文链接:

https://arxiv.org/abs/2305.18323

项目链接:

https://github.com/billxbf/ReWOO

方法概览

增强式语言模型通过鼓励LLM与工具交互来实现信息获取或影响环境,如果把大预言模型比作人类大脑,增强式语言模型就给其提供了手脚。下图(a)展示了当前通用的ReAct范式, 当用户输入任务后,上下文提示词(Context)以及可能的样本(Exemplar)被一起传导进LLM,从而产生一个想法(T) ,行动(A),然后调用工具产生观察(O) 。由于LLM是无状态的(stateless), 所有之前的提示词,样本,任务,以及T,A,O历史会被叠加起来输入下一个LLM,从而迭代的产生新推理。一旦推理的步数变大,或者某个步骤中词元很长,就会导致下一次调用LLM时过长的输入词元,以及高度重复带来的额外计算支出。

相比之下, (b) 展示了 ReWOO的设计范式,由一个计划器(Planner)将任务分解成一个调用工具的蓝图,在获得所有工具的输出后,计划(P)和线索(E)被传导到一个解释器(Solver)进行总结并输出。这个过程中没有对工具输出的重复词元提示, 且仅需要调用两次LLM。

下图用一个具体的例子展示了ReWOO范式通过上下文学习,指示计划器生成互相依赖的计划和工具“蓝图”,也是一个有向无环图(DAG)。工具根据蓝图被调用,同时把结果寄存为“线索”(Evidence),最后依靠一个解释器输出最终结果。

实验分析

作者在多个NLP benchmark上对比了ReWOO与ReAct的开销与性能差距,并发现不管是在零样本(0-shot)还是小样本(few-shot)学习的情况下, ReWOO都成倍的缩减了使用的词元开销。另外,与直觉相悖的是,即使没有通过当前的工具观察启发下一步的思考,ReWOO框架下的LLM甚至普遍产生了更高性能表现。作者进一步的案例分析表示,这个原因在于过长的上下文以及可能的工具错误、无关信息给LLM产生了更大的推理负荷,并且容易误导LLM产生错误思考甚至忘记原本任务。

为了验证这个猜想, 当作者让所有的工具输出全部报错,并进一步对比两种范式的表现, 发现即使在这样的极端环境下, ReWOO依然能保持部分的准确性 (因为解释器可以自我回答部分问题)。然而ReAct在这种情况下几乎完全瘫痪而陷入死循环,无法完成仍和一个问题的回答。这侧面展现了ReWOO在复杂真实环境下相对的鲁棒性。

此外,由于工具种类的多样以及输出的不确定性,近期在LLM中被广泛使用的指令微调(Instruction Tuning)在增强式语言模型中很难倾泻(offload)可泛化性的工具使用能力到小模型上。在ReAct中, 指令微调不可避免的会导致小模型“背住”训练集中的工具输出。然而,ReWOO由于将显式的工具输出跟模型的推理步骤分离, 可以因此借由指令微调使其学会具有泛化性的“预见性推理”能力。这个过程被称为“专一化”(Specialization)。作者通过专一化尝试将预见性推理从1750亿参数的GPT3.5 倾泻到 70亿参数的LLaMa上, 并看到了不错的效果。由于篇幅原因,这里不进一步讨论,有兴趣的小伙伴可阅读原文。此外所有实验用到的模型,参数和数据都在Github中开源。

总结

这篇工作开创新的提出了一种新范式,从而高效的解决了增强式语言模型中计算复杂度高,部署困难且昂贵的问题。其部分的理论依据在于通过庞大的预训练,LLM对于绝大对数工具的输出有一定的“模糊预期”,比如使用Google搜索“Elon Musk Age” 会获得与他年龄相关的结果,从而可以提取出他现在的“年龄”,而这个年龄可以被用来放入一个计算器来运算。因此,这样的预见性推理可以被加以利用,从而减少迭代式的逐步推理产生的冗杂性。这个优势在多步复杂问题中(Multi-hop Tasks) 尤其突出。

另外,作者在文中对于增强式语言模型的上下文学习(ICL)以及工具的泛化性分析也是值得思考的。在Future Work中,作者提到了一种结合线性思考和图思考的模块化解决方案,或许给未来可部署的轻量级增强模型指出了方向。


技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
LLM底座模型:LLaMA、Palm、GLM、BLOOM、GPT结构对比微软研究员联合Yoshua Bengio推出AIGC数据生成学习范式Regeneration Learning微软也搞起了开源小模型!利用OpenAI的ChatGPT和GPT-4 训练,实力碾压当前最强开源模型用GPT-4实现可控文本图像生成,UC伯克利&微软提出新框架Control-GPT下一代语言模型范式LAM崛起!AutoGPT模式席卷LLM,三大组件全面综述:规划、记忆和工具大模型掌握16000+真实世界API了,清华等机构ToolLLM的工具使用能力不输ChatGPT转载:资本主义之后是什么社会Agustín Hernández:中美洲建筑背景下的未来主义巨构国内团队提出全新RLTF框架,刷新SOTA!大模型生成代码质量更高bug更少寻找美《二》寻找美却并不见得是一种美德AI教父Hinton最新采访万字实录:ChatGPT和AI的过去现在与未来 |GGViewGit 2.40 发布,包括 git jump 工具的更新、cat-file 工具的增强以及提高 Windows 上响应速度ChatGPT能写长篇小说了,ETH提出RecurrentGPT实现交互式超长文本生成【独家租房】免半月中介费!Fenway一室公寓6月出租,本科生友好,近BU、NEU、伯克利和Longwood医学区GPT-3.5逆袭GPT-4!谷歌DeepMind华人天团,让LLM像人类一样制作工具,完胜CoT最新RLHF拯救语言模型「胡说八道」!微调效果比ChatGPT更好,两名华人共同一作Alpaca-CoT项目原作解读:多接口统一的轻量级LLM指令微调平台【独家租房】免半月中介费!Fenway一室公寓现在入住,本科生友好,近BU、NEU、伯克利和Longwood医学区比HuggingFace快24倍!伯克利神级LLM推理系统开源,碾压SOTA,让GPU砍半ChatGPT的替代品来了!HuggingChat号称媲美GPT-3.5,要拆掉OpenAI的围墙7B LLaMA模型接近ChatGPT 95%的能力!港科大提出全新对抗蒸馏框架Lion异步IO框架 io_uring故事介绍:劫尸记 (The Body-Snatcher by Robert Louis Stevenson)11个LLM一起上,性能爆炸提升!AI2联合USC开源LLM-Blender集成学习框架:先排序再融合|ACL 2023You Say - Lauren Daigle用GPT打败GPT?AutoGPT将AI进程推向了新高度!|GGViewHow Liang Qichao Rewrote China’s Future仅使用解码器实现语音翻译,字节跳动提出基于LLM的新范式PolyVoiceGPT-4推理提升1750%!普林斯顿清华姚班校友提出全新「思维树ToT」框架,让LLM反复思考陆奇最新演讲全文实录、完整PPT和视频:大模型带来的新范式硬核课程全网首发!高级人工智能:多模态大模型LLM与AIGC前沿技术实战【倡议】关于支付行业从业人员谨慎使用ChatGPT等工具的倡议ChatGPT和GPT-4胜出基于四个方面不要和陌生人说话, 和爱上陌生人China’s Youth Are Hooked on a New Outdoor Sport: Lure Fishing
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。