ICLR'24 大语言模型智能体最新研究进展

2023-11-19 16:11

MLNLP社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。

社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。

转载自 | RUC AI Box

作者 | 张泽宇、薄小荷

在大语言模型驱动下的自主智能体方面，作者所在团队发布了该领域的早期综述（见A Survey on LLM-based Autonomous Agents），并构建了用户行为分析领域中首个基于自主智能体的模拟环境RecAgent（见RUC-GSAI/YuLan-Rec），欢迎大家关注。

基于大语言模型的智能体(LLM-based Agent)在近期得到了广泛关注。本文汇总了在ICLR'24提交的论文中，基于大语言模型的智能体相关的全部论文，并进行了分类汇总，共计98篇。

Survey: https://github.com/Paitesanshi/LLM-Agent-Survey
Code: https://github.com/RUC-GSAI/YuLan-Rec

智能体能力(40篇)

【推理】Agent Instructs Large Language Models to be General Zero-Shot Reasoners

简介：本文通过构造agent来生成任务相关的(task-specific)指令(instructions)，从而优化LLM的推理能力。

【推理】OKR-Agent: An Object and Key Results Driven Agent System with Hierarchical Self-Collaboration and Self-Evaluation

简介：本文提出了OKR-Agent方法，利用自协作(self-collaboration)和自校正(self-correction)机制，通过层次化的(hierarchical) agent来解决复杂任务。

【推理】AutoGen: Enabling Next-Gen LLM Applications via Multi-Agent Conversation

简介：本文提出了开源框架AutoGen，能够构建依靠多智能体对话来完成任务的应用程序。

【推理】Chain-of-Experts: When LLMs Meet Complex Operations Research Problems

简介：本文研究了对复杂运筹学问题的建模和编程，首次提出了基于LLM的解决方案，它是一个多智能体协作增强推理的框架，即Chain-of-Expers(CoE)，以减轻对领域专家的严重依赖。

【推理】Plug-and-Play Policy Planner for Large Language Model Powered Dialogue Agents

简介：本文提出了一个新的对话策略规划范式，赋予LLM使用可调的(tunable)语言插件主动解决对话问题的策略。

【推理】Think-on-Graph: Deep and Responsible Reasoning of Large Language Model on Knowledge Graph

简介：本文提出了LLM与KG相结合的新范式Think-on-Graph（ToG），通过在图上beam search帮助LLM agent找到最佳推理路径。

【推理】THOUGHT PROPAGATION: AN ANALOGICAL APPROACH TO COMPLEX REASONING WITH LARGE LANGUAGE MODELS

简介：本文提出了TP（Thought Propagation），通过探索类似的问题的解决方案来增强LLM agent的复杂推理能力。

【决策】Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models

简介：本文提出了语言智能体树搜索(Language Agent Tree Search, LATS)来协同大模型的计划、行动和推理。

【决策】REX: Rapid Exploration and eXploitation for AI agents

简介：有效探索行动空间对于LLM-based agent完成各种任务至关重要，本文提出了一种方法，能够快速探索(explore)和开发(exploit)该动作空间。

【决策】Asking Before Acting: Gather Information in Embodied Decision-Making with Language Models

简介：本文提出了ABA方法(Asking Before Acting)，一个赋予智能体在与环境交互的过程中，主动用自然语言询问外部相关信息的方法。

【决策】Reason for Future, Act for Now: A Principled Architecture for Autonomous LLM Agents

简介：本文提出了一个框架，它基于可证明的后悔界来指导推理和行动。

【决策】O3D: Offline Data-driven Discovery and Distillation for Sequential Decision-Making with Large Language Models

简介：本文提出了一个离线学习框架，使用大量离线数据(如人类交互数据)来提高LLM-based 的in-context learning的能力。

【决策】Reason to Behave: Achieving Human-Like Task Execution for Physics-Based Characters

简介：本文提出了一个由大模型内省推理器与增强控制器相结合的开源框架，为智能体赋予行为理性（Reason to Behave)。

【决策】DiLu: A Knowledge-Driven Approach to Autonomous Driving with Large Language Models

简介：本文提出了DiLu框架，该框架结合了推理和反思模块，使系统能够基于常识知识进行决策并不断发展。

【决策】Ask more, know better: Reinforce-Learned Prompt Questions for Decision Making with Large Language Models

简介：本文提出了一个新的领导者-追随者双层框架Bilevel-LLM，能够学习提出相关问题（提示），并随后进行推理，以指导agent学习在环境中要执行的行动。

【规划】MultiReAct: Multimodal Tools Augmented Reasoning-Acting Traces for Embodied Agent Planning

简介：当面对抽象指令中描述的长期任务时，LLM会遇到实质性的挑战。为了解决这些问题并提高LLM在具体场景中的规划能力，本文提出了一种新的方法，称为MultiReAct。

**【规划】ToolChain: Efficient Action Space Navigation in Large Language Models with A Search**

简介：本文提出ToolChain∗，一个基于A*搜索的LLM智能体规划算法。

【规划】DoraemonGPT: Toward Solving Real-world Tasks with Large Language Models

简介：本文提出DORAEMONGPT，一种新的基于蒙特卡罗树搜索的LLM规划器，可以有效探索使用各种工具的规划空间。

【记忆】Ghost in the Minecraft: Hierarchical Agents for Minecraft via Large Language Models with Text-based Knowledge and Memory

简介：本文提出了GITM(Ghost in Minecraft)，一种新的层次化智能体，将LLM和基于文本的知识与记忆结合。

【记忆】Synapse: Trajectory-as-Exemplar Prompting with Memory for Computer Control

简介：本文提出了Synapse，一种结合轨迹示例提示和相关记忆结合的智能体，以解决计算机控制问题。

【记忆】Think Before You Act: Decision Transformers with Internal Memory

简介：本文借鉴了人类大脑分布式记忆存储的特点，提出了构建LLM内部记忆模块DT-Mem来存储、混合和检索不同下游任务的信息。

【记忆】Walking Down the Memory Maze: Beyond Context Limit through Interactive Reading

简介：本文提出MemWalker，一个交互式长文本阅读agent，通过迭代提示，根据自身推理决定仔细阅读文本的哪一部分。

【反思】Prospector: Improving LLM Agents with Self-Asking and Trajectory Ranking

简介：基于ICL(in-context learning)的方法缺乏基于环境奖励的轨迹优化机制，本文提出了Prospector，一个具有自我询问和轨迹排序的可反思的(reflective) LLM-based智能体。

【自适应】Adapting LLM Agents Through Communication

简介：本文提出了交流学习范式(Learning through Communication, LTC)，能够使LLM-based agent在与环境和其他agent的不断交流中训练，从而使agent无需人类监督，即可适配新的任务。

【自适应】Retroformer: Retrospective Large Language Agents with Policy Gradient Optimization

简介：本文提出了一个通过学习回顾模型，来增强LLM-based agent的框架，它能够自动地根据环境反馈，用策略梯度调节agent的语言提示(prompt)。

【自适应】Formally Specifying the High-Level Behavior of LLM-Based Agents

简介：本文提出了一个最小化(minimalistic)、高层次(high-level)的生成框架，来简化设计和实现新智能体的复杂过程。

【自适应】CLIN: A Continually Learning Language Agent for Rapid Task Adaptation and Generalization

简介：本文提出了CLIN模型，能够在环境中不断进行试验改进，且无需参数更新，即使环境和任务都发生变化。

【自适应】Learning to Solve New sequential decision-making Tasks with In-Context Learning

简介：自主智能体能够通过少样本泛化到新任务上，但顺序决策设定带来了额外挑战，并且对错误的容忍度要低得多，因为环境的随机性或智能体的错误行为可能导致不可见的（有时是不可恢复的）状态。本文使用一个例子表明，基于朴素transformer的序列决策并不能实现少样本学习。

【自适应】Adaptive Environmental Modeling for Task-Oriented Language Agents

简介：在交互式场景和动态场景中，由于缺乏集成环境建模，agent仍面临巨大调整。本文提出了面向任务的环境适应(task-oriented environmental adaptation)方法，使agent能够自主建模新环境。

【自适应】Demonstration Distillation for Efficient In-Context Learning

简介：本文提出一个蒸馏框架DGS (Distillist-Generalist-Specialist)，在三个LLM agents的辅助下，DGS迭代地消除无用信息，同时保持有效信息。

【微调】AgentTuning: Enabling Generalized Agent Abilities for LLMs

简介：许多方法通过设计prompt来提高agent在特定任务(particular agent tasks)上的性能，但当前研究没有关注在提高agent在特定性能的同时，仍然需要保持其通用性能(general abilities)。本文提出了AgentTuning的通用方法，使其既能提高LLM的agent的能力，还能保持其通用能力；本文还构建了AgentDataset数据集来进行指令微调；本文在Llama2上进行指令微调，得到AgentLlama。

【微调】FireAct: Toward Language Agent Finetuning

简介：本文对LLM到LLM-based agent的微调进行了研究。

【对齐】Aligning Agents like Large Language Models

简介：本文研究了是否可以使用目前大语言模型的训练方法，来对齐一个大规模的模仿学习智能体。

【对齐】SALMON: Self-Alignment with Principle-Following Reward Models

简介：本文提出了一种新的对齐范式SALMON（Self-ALignMent with principle-fOllowiNg reward models），只需一组人工定义的规则就可以实现良好的对齐效果。

【对齐】Making Large Language Models Better Reasoners with Alignment

简介：本文提出了AFT（Alignment Fine-Tuning）范式，通过Constrained Alignment Loss解决LLM对齐过程中的评估偏差问题，从而提升模型推理能力。

【对齐】Confronting Reward Model Overoptimization with Constrained RLHF

简介：LLM-based agent通常通过优化适合人类反馈的奖励模型（RM）来与人类偏好保持一致，本文实验探究了复合RM中过度优化的问题，并提出了解决方案。

【对齐】True Knowledge Comes from Practice: Aligning Large Language Models with Embodied Environments via Reinforcement Learning

简介：本文提出一个新的通用在线框架TWOSOM，利用RL与具体环境进行有效的交互和协调，将LLM agent与实体环境对齐，而不需要任何准备好的数据集或环境的先验知识。

【可解释】Understanding Your Agent: Leveraging Large Language Models for Behavior Explanation

简介：本文提出了一种方法，基于状态和动作的观测，为智能体的行为生成自然语言的解释，该方法独立于底层模型的表示。

【安全】Avalon's Game of Thoughts: Battle Against Deception through Recursive Contemplation

简介：本文提出了一个框架ReCon，它能够提升LLM的识别和低效欺诈信息的能力，并使用含有欺骗元素的Avalon游戏作为测试。

【框架】LUMOS: Towards Language Agents that are Unified, Modular, and Open Source

简介：本文提出了一个统一格式的、模块化设计的、开源的大语言模型智能体。

多智能体(11篇)

【多智能体】AgentVerse: Facilitating Multi-Agent Collaboration and Exploring Emergent Behaviors

简介：本文提出了多智能体框架AgentVerse，实现在协作中，多智能体的群体性能优于个体性能之和。

【多智能体】AutoAgents: A Framework for Automatic Agent Generation

简介：目前现有的LLM-based multi-agent方法都是依靠预定义的agent来实现简单的任务，这限制了其在复杂场景中的应用。本文提出了AutoAgents，它能够自适应地生成和协调多个分化(specialized)的agent，从而根据不同任务构造智能体团队。

【多智能体】Dynamic LLM-Agent Network: An LLM-agent Collaboration Framework with Agent Team Optimization

简介：目前多智能体的方法大多让智能体在静态框架交互来实现协作，这很依赖先验知识且缺少泛化性，本文提出构造一个策略性的智能体团队方法DyLAN，使多个智能体在基于任务的动态框架中进行交互。

【多智能体】MetaGPT: Meta Programming for Multi-Agent Collaborative Framework

简介：本文提出了MetaGPT，一种新颖的元编程框架，将高效的人工工作流融入到基于LLM的多智能体协作中。

【多智能体】Language Agents with Reinforcement Learning for Strategic Play in the Werewolf Game

简介：本文构建了基于强化学习的LLM-based agent，用于狼人游戏(Werewolf game)中的策略扮演。

【多智能体】Building Cooperative Embodied Agents Modularly with Large Language Models

简介：本文解决了多智能体合作问题，包括去中心化控制、原始感官观测、通信代价问题，以及在多种不同环境下的多目标任务。

【多智能体】ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate

简介：本文构建了一个多智能体裁判小组ChatEval，它可以自主地讨论和评测不同文本的质量。

【多智能体】MindAgent: Emergent Gaming Interaction

简介：本文提出了一种评测规划能力和应急协作能力的框架，该评测在游戏交互背景下实现。

【多智能体】DebateGPT: Fine-tuning Large Language Models with Multi-agent Debate Supervision

简介：本文提出了DebateGPT，它通过多智能体之间的辩论提取相关指令来微调模型。

【多智能体】Welfare Diplomacy: Benchmarking Language Model Cooperation

简介：本文提出了零和博弈Diplomacy的一个总额变体，即Welfare Diplomacy，在该游戏中，玩家必须在军事征服和国内福利投资之间取得平衡。

【多智能体】Corex: Pushing the Boundaries of Complex Reasoning through Multi-Model Collaboration

简介：本文提出了Corex，提出通过辩论、复盘、检索策略使多智能体协作，共同解决复杂任务。

智能体评测(22篇)

【评测】AgentBench: Evaluating LLMs as Agents

简介：提出了包括8个不同环境的多维度评测基准，通过多轮开放生成环境，用于评测LLM-based agent的推理和决策能力。本文对27个LLM进行了评测，并进行了进一步的分析。

【评测】Large Language Models as Gaming Agents

简介：本文提出利用游戏环境对agent进行评测，并进行了相关分析。

【评测】Benchmarking Large Language Models as AI Research Agents

简介：本文提出了MLAgentBentch，用于评测agent解决机器学习(machine learning)任务的能力。

【评测】Identifying the Risks of LM Agents with an LM-Emulated Sandbox

简介：本文提出了一个新框架ToolEmu，使用语言模型来模拟工具执行的框架，并能够针对各种工具和场景对基于语言模型的智能体进行可扩展的测试。

【评测】Evaluating Multi-Agent Coordination Abilities in Large Language Models

简介：本文构建并评估了在各种合作场景中，使用LLM构建agent的有效性。

【评测】SmartPlay : A Benchmark for LLMs as Intelligent Agents

简介：本文提出了SmartPlay，一个具有挑战性的评测方法和评测基准，来对LLM-based智能体进行评测。

【评测】LLM-Deliberation: Evaluating LLMs with Interactive Multi-Agent Negotiation Game

简介：本文提出了基于评分协作游戏，对LLM进行评测的框架。

【评测】Language Model Agents Suffer from Compositional Decision Making

简介：本文提出了一个新的基准CompWoB，包括50个新的组合网页自动化任务。本文对于组合式网页自动化任务进行了深入探讨。

【评测】LoTa-Bench: Benchmarking Language-oriented Task Planners for Embodied Agents

简介：本文提出了一个面向家庭服务的自动量化规划性能的基准系统。

【评测】Tall Tales at Different Scales: Evaluating Scaling Trends For Deception in Language Models

简介：本文评估了语言模型不断增长的欺骗趋势。

【评测】Leveraging Word Guessing Games to Assess the Intelligence of Large Language Models

简介：本文提出了使用猜词游戏来基于agent评估LLM的性能。

【评测】Evaluating Language Models Through Negotiations

简介：本文提出从谈判博弈的视角来评测语言模型的能力。

【评测】DynaEval: A Dynamic Interaction-based Evaluation Framework for Assessing LLMs in Real-world Scenarios

简介：本文提出了一种新的基于动态交互的LLM评测框架DynaEval，用于评测LLM在动态现实场景中的能力。

【评测】Skill-Mix: a Flexible and Expandable Family of Evaluations for AI Models

简介：根据任务需要灵活地结合所学的基本技能解决问题是智能体的一个关键能力，本文提出了一种评测方法Skill-Mix来评测LLM-based的这种能力。

【评测】How FaR Are Large Language Models From Agents with Theory-of-Mind?

简介：本文提出了一种新的LLM评测范式T4D，它要求模型将对心理状态的推断与社会场景中的行为联系起来。

【评测】Large Language Models as Rational Players in Competitive Economics Games

简介：本文提出了使用竞争性经济博弈来评测LLM-based agent的理性程度、策略推理能力和指令遵从能力。

【评测】The Entity-Deduction Arena: A playground for probing the conversational reasoning and planning capabilities of LLMs

简介：本文提出了一个实体推理评估框架，用于评估LLM的多轮推理与规划能力。

【评测】LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language Models

简介：本文提出LMRL-Gym基准，用于评估使用RL辅助LLM多轮推理的模型，同时提供了一个multi-turn RL研究的工具包。

【评测】MetaTool Benchmark: Deciding Whether to Use Tools and Which to Use

简介：本文提出了一个新的基准MetaTool，用于评估LLM是否有意识地使用工具并且能够选择正确的工具。

【评测】On the Humanity of Conversational AI: Evaluating the Psychological Portrayal of LLMs

简介：本文提出了一个新的基准PPBench，用于评估LLM-based agent的不同心理方面，包括：个性特征、人际关系、动机测试和情感能力。

【评测】TaskBench: Benchmarking Large Language Models for Task Automation

简介：本文提出TASKBENCH基准用于评估LLM-based agent在任务自动化(task automation)方面的表现。

【评测】MathVista: Evaluating Mathematical Reasoning of Foundation Models in Visual Contexts

简介：本文提出了新的基准MathVista，用于评估LLM在可视化环境中数学推理的能力。

智能体应用(25篇)

【应用-数学】A Language-Agent Approach to Formal Theorem-Proving

简介：本文提出了一种基于语言的智能体COPRA，在形式化的定理证明中表现优异。

【应用-数学】ToRA: A Tool-Integrated Reasoning Agent for Mathematical Problem Solving

简介：本文提出了一系列工具集成的推理智能体，无缝集成自然语言推理与外部工具调用，用于解决复杂数学问题，

【应用-数学】Modeling Complex Mathematical Reasoning via Large Language Model based MathAgent

简介：本文通过对数学推理过程进行细致分解和建模，探索使用agent增强LLM的潜力。

【应用-博弈论】Suspicion-Agent: Playing Imperfect Information Games with Theory of Mind Aware GPT-4

简介：本文探讨了GPT-4的学习知识在不完全信息博弈中的适用性，并提出了suspicion-agent，它基于GPT-4实现了不完全信息博弈智能体。

【应用-博弈论】Large Language Models Can Design Game-Theoretic Objectives for Multi-Agent Planning

简介：本文提出了一种基于LLM的博弈形式设计，来解决目标表示(objective representation)和多智能体行为对齐的问题。

【应用-博弈论】Playing repeated games with Large Language Models

简介：本文提出用行为博弈理论来研究LLM的合作与协调行为。

【应用-编程】Lemur: Harmonizing Natural Language and Code for Language Agents

简介：提出了Lemur和Lemur-Chat两种开放访问的LLM，对语言和编码能力进行了优化。

【应用-指令】Compositional Instruction Following with Language Models and Reinforcement Learning

简介：本文提出利用使用组合值函数和LLM提升模型在服从语言指令任务的表现。

【应用-Web自动化】A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis

简介：本文提出了WebAgent，通过学习自身经验，按照自然语言指令在真实网站上完成任务。

【应用-视觉】3D-GPT: Procedural 3D Modeling with Large Language Models

简介：本文提出了一个基于LLM的指令驱动的3D建模框架。

【应用-多模态】LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents

简介：本文提出了Llava-Plus，一个系统性扩展LMM(Large Multimodel Model)的端到端的训练方法。

【应用-多模态】NExT-GPT: Any-to-Any Multimodal LLM

简介：本文利用LLM与多模态适配器构建了一个多模态agent，NExT-GPT，并提出了一个轻量化的多模态对齐方法。

【应用-对话】Towards human-like spoken dialogue generation between AI agents from written dialogue

简介：从书面对话中生成类似人类的口语对话仍然具有挑战性，本文提出了CHATS模型，一种基于token的源于书面对话的口语对话生成系统。

【应用-对话】Optimizing Interpersonal Communication by Simulating Audiences with Large Language Models

简介：本文探讨了如何利用LLM辅助人类沟通。

【应用-对话】Theory-of-Mind Enhanced Dialogue Generation in Situated Contexts

简介：本文提出了一个新的agent对话框架MindDial，集成了对话生成、计划和思维预测。

【应用-翻译】Maximizing LLMs Potential: Enhancing Mongolian Chinese Machine Translation with RL Agents and Adversarial Multi Knowledge Distillation

简介：利用RL agent将LLM中的知识蒸馏到翻译模型中，从而显著提升蒙汉翻译质量。

【应用-社会模拟】Rethinking the Buyer’s Inspection Paradox in Information Markets with Language Agents

简介：本文模拟了数字市场，探索了买方检验悖论(buyer's inspection paradox)，强调当智能体在购买之前临时访问信息会提高决策和回答质量。

【应用-社会模拟】WebArena: A Realistic Web Environment for Building Autonomous Agents

简介：本文构建了一个高度真实和可复制的，面向LLM-based agent的环境。

【应用-社会模拟】Lyfe Agents: generative agents for low-cost real-time social interactions

简介：本文提出了Lyfe Agents，在LLM-based agent的社会模拟中，降低资源成本并实现实时响应，同时保持智能和目标导向。

【应用-社会模拟】SocioDojo: Building Lifelong Analytical Agents with Real-world Text and Time Series

简介：本文提出了SocioDojo，一个开放式的终身学习环境，用于开发随时可部署的自主智能体，能够在经济、金融、政治和文化等社会主题上执行类似人类的分析和决策。

【应用-社会模拟】SOTOPIA: Interactive Evaluation for Social Intelligence in Language Agents

简介：本文提出了SOTOPIA，一个开放式的环境，用于模拟人工智能体之间复杂的社会互动，并评估其社会智能。

【应用-社会模拟】Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View

简介：本文探索了LLM-based multi-agent社会中，这些NLP系统能否反映出人类的协作智能。

【应用-海洋科学】OceanGPT: A Large Language Model for Ocean Science Tasks

简介：本文构造了海洋科学领域大模型OceanGPT；提出了DoInstruct，通过多智能体协作自动生成海洋科学细分领域的数据；此外，本文还贡献了一个海洋科学领域数据集OCEANBENCH。

【应用-人机协同】Efficient Human-AI Coordination via Preparatory Language-based Convention

简介：本文提出使用LLM来设计一个动作规划(公约)，使其能够在人机协同中有效地指导人类和AI。

【应用-机器人】PLAN-SEQ-LEARN: LANGUAGE MODEL GUIDED RL FOR SOLVING LONG HORIZON ROBOTICS TASKS

简介：本文提出PSL（Plan-Seq-Learn），利用LLM-based agent的规划推理能力，在线高效解决机器人长跨度控制问题。

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注：姓名-学校/公司-研究方向（如：小张-哈工大-对话系统）即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区，目前已经发展为国内外知名的机器学习与自然语言处理社区，旨在促进机器学习，自然语言处理学术界、产业界和广大爱好者之间的进步。

社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章