Redian新闻
>
向完全自主性更进一步,清华、港大全新跨任务自我进化策略让智能体学会「以经验为鉴」

向完全自主性更进一步,清华、港大全新跨任务自我进化策略让智能体学会「以经验为鉴」

公众号新闻
机器之心专栏
机器之心编辑部

「以史为鉴,可以知兴替。」 人类的进步史,可以看作是一个不断吸取过去经验、不断推进能力边界的自我演化过程。在这个过程中,我们吸取过去失败的教训以纠正错误,借鉴成功的经验以提升效率和效果。这种自我进化的过程在我们的生活中无所不在:从如何总结经验以更好地解决工作中的问题,到如何利用规律更精确地预测天气,我们都在不断地从过去的经验中学习和进化。

成功从过去的经验中提取知识并将其应用于未来的挑战,这是人类进化之路上重要的里程碑。那么在人工智能时代,AI 智能体是否也可以做到同样的事情呢?

近年来,GPT 和 LLaMA 等语言模型展示了他们在解决复杂任务时的惊人能力。然而,他们尽管可以利用工具解决具体任务,但在本质上缺乏对过去成功和失败经历的洞见与汲取。这就像一个只会完成特定任务的机器人,虽然在完成当下任务上表现出色,但面对新的挑战时,却无法调用过去的经验来提供帮助。

针对这一难题,近期来自清华大学、香港大学、人民大学以及面壁智能的联合团队提出了一种全新的智能体自我演化策略:探索 - 固化 - 利用(Investigate-Consolidate-Exploit,ICE)。它旨在通过跨任务的自我进化来提升 AI 智能体的适应性和灵活性。其不仅能提升智能体处理新任务时的效率和效果,还能显著降低对智能体基座模型能力的需求。

这个策略的出现,无疑为智能体的自我进化开启了全新的篇章,也意味着我们离实现智能体的完全自主性又迈进了一步。

  • 论文标题:Investigate-Consolidate-Exploit: A General Strategy for Inter-Task Agent Self-Evolution
  • 论文链接:https://arxiv.org/abs/2401.13996

智能体任务间经验迁移以实现自我进化概览图

智能体自我进化的两个方面:规划与执行

当下大部分复杂智能体都可以分成任务规划(Planning)与任务执行(Execution)两大方面。在任务规划上,智能体通过推理将用户需求细化并制定完成目标的详细策略;而在任务执行上,智能体通过工具调用实现与环境的交互,从而完成相应子目标。

为了更好地促进以往经验的重复利用,作者首先将这两方面的进化策略解耦。他们以 XAgent 智能体架构中的树状任务规划结构以及 ReACT 链式工具执行为例,分别介绍了 ICE 策略的具体实现。

智能体任务规划的 ICE 自我演化策略

对于任务规划,自我进化依照 ICE 被分为以下三个阶段:

  • 在探索阶段,智能体记录下整个树状任务规划结构,并同时动态检测各个子目标的执行状态;
  • 在固化阶段,智能体首先剔除所有失败的目标结点,之后对于每个成功完成的目标,智能体将以该目标为子树的所有叶子结点依次排开形成一条规划链(Workflow)
  • 在利用阶段,这些规划链将被作为新任务目标分解细化的参考依据,以利用过往的这些成功经验。

智能体任务执行的 ICE 自我演化策略

任务执行的自我演化策略依然分为 ICE 三个阶段,其中:

  • 在探索阶段,智能体动态记录每个目标执行的工具调用链,并对工具调用中出现的可能问题进行简单的检测归类;
  • 在固化阶段,工具调用链将被转化为类似自动机的流水线(Pipeline)结构,工具调用顺序与调用之间的转移关系将被固定,同时还会去掉重复调用,增加分支逻辑等等让自动机自动化执行流程更加鲁棒;
  • 在利用阶段,对于相似的目标,智能体将直接自动化执行流水线,从而提升任务完成效率。

XAgent 框架下的自我进化实验

作者在 XAgent 框架中对提出的 ICE 自我演化策略进行了测试,并总结了以下四点发现:

  • ICE 策略能够显著降低模型的调用次数,从而提升效率,减少开销。
  • 存储的经验在 ICE 策略下有着较高的复用率,这证明了 ICE 的有效性。
  • ICE 策略能够提升子任务完成率同时减少规划返修的次数。
  • 通过以往经验的加持,任务执行对模型能力的要求显著下降。具体来看,使用 GPT-3.5 搭配上之前的任务规划与执行经验,效果可以直接媲美 GPT-4。

在探索 - 固化进行经验存储后,测试集任务在不同智能体 ICE 策略下的表现

同时,作者还进行了额外的消融实验:在存储经验逐渐增加的情况下,智能体的表现是否越来越好?答案是肯定的。从零经验,半经验,到满经验,基座模型的调用次数逐渐减少,而子任务完成度逐渐提升,同时复用率也有升高。这表明更多的过往经验能够更好地促进智能体执行,实现规模效应。

在不同经验存储量下,测试集任务表现的消融实验结果统计

结语

畅想一下,在人人都能够部署智能体的世界中,成功经验的数量会随着智能体个体任务执行不断累积,而用户也可以将这些经验在云端中、社区里进行分享。这些经验将促使智能体不断汲取能力,自我进化,逐渐达到完全自主。我们向这样的时代又迈进了一步。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
以史为鉴,美股将以“一声巨响”走完2024「以为是水」澳航旅客反应枕头湿 下机前发现…那液体是尿两万亿城市增至9个!“新成员”武汉、杭州如何更进一步《美人如玉》&《但求疼》CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步背景提升学员|喜报!新国立、康奈尔、港大、哥大、约翰霍普金斯、港科大、华威、圣路易斯华盛顿offer来了!个人感慨之七十五 钱和权深入了解抖音的性能成本优化策略|QCon华为原生 HarmonyOS NEXT 鸿蒙操作系统星河版 发布!不依赖 Linux 内核,完全自研。6065 血壮山河之随枣会战 第三章 19伯克利开源高质量大型机器人操控基准,面对复杂自主操控任务不再犯难重塑3D生成核心理论:VAST、港大、清华用「零」训练数据生成了3D模型每个成年人,都要学会「哄自己」背景提升学员|喜报!港中大、港理工、港科大、格拉斯哥、圣路易斯华盛顿offer来了!清华、小米、华为、 vivo、理想等多机构联合综述,首提个人LLM智能体、划分5级智能水平用什么表真心?“普林斯顿哲学系毕业后,我进了一家美国医药咨询公司”CMU华人18万打造高能机器人,完爆斯坦福炒虾机器人!全自主操作,1小时学会开12种门哪里要动点哪里!腾讯联合清华、港科大推出全新图生视频大模型浙大等团队提出全新「自我对比」策略,有效提高大模型的反思效果背景提升学员|喜报!港大、港中文、城大、布里斯托大学offer来了!阿里全新Agent玩转手机:刷短视频自主点赞评论,还学会了跨应用操作​从产品主义迈向智能主义,安全智能体做对了什么?智能体DS-Agent基于案例推理,让GPT-4数据科学任务接近100%个人感慨之七十六 躲猫猫以其他科技股为鉴,看Meta宣布派息后会如何衍复最新路演纪要精华:量化策略如何反脆弱今日arXiv最热NLP大模型论文:微软:用大模型分析用户满意度,让智能系统更善解人意重磅发言!! 中澳外长会晤, 两国关系更进一步! 澳总理: 坚持一中原则是共识! 红酒马上传来好消息!开源AGI智能体人人可养成:AGI对齐新思路,让智能体在人类世界中接受训练​ICML 2023 | 港大提出创新时空图预训练架构,助力智慧城市多维任务学习LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」全新出发,新东方比邻中文App全新升级!开启全新体验!《英雄联盟》回归抖音,字节「以退为进」开启与腾讯的「蜜月期」|焦点分析组织的自我进化典范:华为的战略和管理假设变革
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。