Redian新闻
>
AI自主智能体大盘点,构建、应用、评估全覆盖,人大高瓴文继荣等32页综述

AI自主智能体大盘点,构建、应用、评估全覆盖,人大高瓴文继荣等32页综述

公众号新闻

机器之心报道

编辑:杜伟、陈萍

本文全面介绍了基于大语言模型(LLM)的智能体的构建、潜在应用和评估,为全面了解该领域的发展以及启发未来的研究具有重要意义。


在当今的 AI 时代,自主智能体被认为是通向通用人工智能(AGI)的一条有前途的道路。所谓自主智能体,即能够通过自主规划和指令来完成任务。在早期的开发范式中,决定智能体行动的策略功能是以启发式为主的,并在环境交互中逐步得到完善。

不过,在不受约束的开放域环境中,自主智能体的行动往往很难企及人类水平的熟练程度。

随着近年来大语言模型(LLM)取得了巨大成功,并展现出了实现类人智能的潜力。因而得益于强大的能力,LLM 越来越多地被用作创建自主智能体的核心协调者,并先后出现花样繁多的 AI 智能体。这些智能体通过模仿类人的决策过程,为更复杂和适应性更强的 AI 系统提供了一条可行性路径。

基于 LLM 的自主智能体一览,包括工具智能体、模拟智能体、通用智能体和领域智能体。

在现阶段,对已经出现的基于 LLM 的自主智能体进行整体分析非常重要,并对全面了解该领域的发展现状以及启发未来的研究具有重要意义。

本文中,来自中国人民大学高瓴人工智能学院的研究者对基于 LLM 的自主智能体展开了全面调研,并着眼于它们的构建、应用和评估三个方面。


论文地址:https://arxiv.org/pdf/2308.11432.pdf

对于智能体的构建,他们提出了一个由四部分组成的统一框架,分别是表示智能体属性的配置模块、存储历史信息的记忆模块、制定未来行动策略的规划模块和执行规划决定的行动模块。在介绍了典型的智能体模块之后,研究者还总结了常用的微调策略,通过这些策略来增强智能体对不同应用场景的适应性。

接下来研究者概述了自主智能体的潜在应用,探讨它们如何对社会科学、自然科学和工程学领域产生增益。最后讨论了自主智能体的评估方法,包括主观和客观评估策略。下图为文章整体架构。

图源:https://github.com/Paitesanshi/LLM-Agent-Survey

基于 LLM 的自主智能体构建

为了让基于 LLM 的自主智能体更加高效,有两个方面需要考虑:首先是应该设计怎样的架构使得智能体能更好的利用 LLM;其次是如何有效地学习参数。

智能体架构设计:本文提出了一个统一的框架来总结之前研究中提出的架构,整体结构如图 2 所示,它由分析(profiling)模块、记忆模块、规划模块以及动作模块组成。 


总结而言,分析模块旨在识别智能体是什么角色;记忆和规划模块可将智能体置于动态环境中,使智能体能够回忆过去的行为并计划未来的行动;动作模块负责将智能体的决策转化为具体的输出。在这些模块中,分析模块影响记忆和规划模块,这三个模块共同影响动作模块。 

分析模块

自主智能体通过特定角色来执行任务,例如程序员、教师和领域专家。分析模块旨在表明智能体的角色是什么,这些信息通常被写入输入提示中以影响 LLM 行为。在现有的工作中,有三种常用的策略来生成智能体配置文件:手工制作方法;LLM-generation 方法;数据集对齐方法。

记忆模块

记忆模块在 AI 智能体的构建中起着非常重要的作用。它记忆从环境中感知到的信息,并利用记录的记忆来促进智能体未来的动作。记忆模块可以帮助智能体积累经验、实现自我进化,并以更加一致、合理、有效的方式完成任务。

规划模块

当人类面临复杂任务时,他们首先将其分解为简单的子任务,然后逐一解决每个子任务。规划模块赋予基于 LLM 的智能体解决复杂任务时需要的思考和规划能力,使智能体更加全面、强大、可靠。本文介绍了两种规划模块:没有反馈的规划以及有反馈的规划。

动作模块

动作模块旨在将智能体的决策转化为具体的结果输出。它直接与环境交互,决定智能体完成任务的有效性。本节从动作目标、策略、动作空间和动作影响来介绍。

除了上述 4 个部分外,本章还介绍了智能体的学习策略,包括从示例中学习、从环境反馈中学习、从交互的人类反馈中学习。

表 1 列出了之前的工作和本文的分类法之间的对应关系:


基于 LLM 的自主智能体应用

本章探讨了基于 LLM 的自主智能体在三个不同领域的变革性影响:社会科学、自然科学和工程。


例如基于 LLM 的智能体可用于设计和优化复杂结构,如建筑物、桥梁、水坝、道路等。此前,有研究者提出了一个交互式框架,人类建筑师和 AI 智能体协同办公在 3D 模拟中构建结构环境。交互式智能体可以理解自然语言指令、放置模块、寻求建议并结合人类反馈,显示出工程设计中人机协作的潜力。

又比如在计算机科学和软件工程领域,基于 LLM 的智能体提供了自动化编码、测试、调试和文档生成的潜力。有研究者提出了 ChatDev ,这是一个端到端的框架,其中多个智能体通过自然语言对话进行沟通和协作,以完成软件开发生命周期;ToolBench 可以用于代码自动补全和代码推荐等任务;MetaGPT 可以扮演产品经理、架构师、项目经理和工程师等角色,内部监督代码生成并提高最终输出代码的质量等等。

下表为基于 LLM 的自主智能体的代表性应用:


基于 LLM 的自主智能体评估

本文介绍了两种常用的评估策略:主观评估和客观评估。

主观评估是指人类通过交互、评分等多种手段对基于 LLM 的智能体的能力进行测试。在这种情况下,参与评估的人员往往是通过众包平台招募的;而一些研究者认为众包人员由于个体能力差异而不稳定,因而也会使用专家注释来进行评估。 

除此以外,在当前的一些研究中,我们可以使用 LLM 智能体作为主观评估者。例如在 ChemCrow 研究中,EvaluatorGPT 通过指定等级来评估实验结果,该等级既考虑任务的成功完成,又考虑基本思维过程的准确性。又比如 ChatEval 组建了一个基于 LLM 的多智能体裁判小组,通过辩论来评估模型的生成结果。

与主观评估相比,客观评估具有多种优势,客观评估是指使用定量指标来评估基于 LLM 自主智能体的能力。本节从指标、策略和基准的角度回顾和综合客观评估方法。

在使用评估过程中,我们可以将这两种方法结合使用。

表 3 总结了以前的工作与这些评估策略之间的对应关系:


了解更多内容,请参考原论文。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
复旦大学魏忠钰:《大模型驱动的自主智能体》英系与IB首选!伊顿公学都在用的“自鸡神器”,3大核心学科全覆盖即将截止|《资产管理/交易求职实战·进阶班》今日开课,高阶知识技能+真题实训+面试技巧全覆盖,直通华尔街!被污染的美国自由女神13部门最新确定!全覆盖!第四章 三民主义救中国 (2)今晚优惠结束!英系与IB首选,伊顿公学都在用的“自鸡神器”,英文、数学、科学全覆盖自动驾驶数据不用愁!港中文等发布MagicDrive:日夜、雨晴、多视角全覆盖,人、物位置随意变更刚刚,国内的自主智能体OmBot发布了Meta普林斯顿提出LLM上下文终极解决方案!让模型化身自主智能体,自行读取上下文节点树《蝴蝶与少年》&《鱼尾纹》剑指 Kubernetes!微软发布开源平台 Radius:高效构建、运行云原生应用程序「维享时空」完成千万级战略融资,构建元宇宙合作网络,加速技术落地应用|36氪首发分居了, 冷眼看婚姻囤卫生巾啦!立减30元,116片,日用、夜用、护垫全部配齐,秒吸好舒爽~英系与IB学生首选!BBC官方合作,伊顿公学都在用的“自鸡系统”,英文、数学、科学全覆盖新品:华为GT 4 科学减脂 心脏提醒 智能手表328.99元!送智能体脂秤!大模型自主智能体爆火,OpenAI也在暗中观察、发力,这是内部人的分析博客【绿色金融】唯一性全覆盖令绿证地位大幅提升——评《关于做好可再生能源绿色电力证书全覆盖工作促进可再生能源电力消费的通知》多模态大一统、AI智能体将如何引领未来?阿里妈妈与人大高瓴学者探讨大模型趋势碎片时间洗地吸尘除螨全覆盖,莱克海王星拿捏多场景深度大清洁!有趣又有料,小学英语语法,这套绘本全覆盖!江苏某菜鸟驿站因监控不能全覆盖且逾期不整改被公安机关罚款贰仟元免费试听|系统梳理数理、金融、编程Technical知识点,真题实训 + 面试技巧全覆盖,让你刷题快人一步!马上抢位|以数据分析求职技能为导向,核心技能 + 实战项目 + 真题实训全覆盖!硕士研究生新生吐槽:说好的新生奖全覆盖,结果一入学就改规则,取消所有新生奖!不只APP,移动智能终端、应用商店或将有“未成年人模式”!终于来了:Windows 11深夜大更新,大模型Copilot全覆盖Office76页综述+300余篇参考文献,天大团队全面介绍大语言模型对齐技术中信智库武超则:人工智能有十大发展趋势 涵盖技术、应用及安全免费试听|数据分析、机器学习、A/B实验基础理论和实践知识全覆盖,华丽转身为集万千宠爱的大数据人才!消失一段日子的她。。。「维享时空」完成千万级战略融资,构建元宇宙合作网络,加速技术落地应用|早起看早期开源版「ChatGPT Plus」来了,能做数据分析、插件调用、自动上网,落地真实世界的智能体错误率降低44%!纽约大学最新「人脸生成」可让年龄随意变化:从少年到老年全覆盖
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。