Redian新闻
>
商汤AI Agent把打工玩明白了

商汤AI Agent把打工玩明白了

公众号新闻
西风 发自 凹非寺
量子位 | 公众号 QbitAI

家人们,商汤国产大模型也能把工具用明白了!

处理任务时,把要用的工具按顺序一一摆好都是小case。

还能把任务拆成子任务,知道每个子任务要用啥工具。

你没听错,为探究LLM的任务规划工具使用能力,商汤最近为基于LLM的AI智能体量身打造了一个框架。

结果发现AI处理任务时,引入统一工具-子任务生成策略,性能还能再次得到显著提高。

网友直接被惊掉下巴:

自然语言处理领域振奋人心的进展!大语言模型正在彻底改变现实世界的应用。

为AI智能体量身定制一个框架

此前在自然语言处理领域,人们在看AI解决复杂任务时更多关注任务理解,而缺乏对工具使用和任务规划能力的研究。

这不,为了弥补这一缺陷,商汤的研究人员提出了一种针对基于LLM的AI智能体的任务规划和工具使用方法,并设计了两种不同类型的智能体执行推理过程。

具体来说,研究人员设计了一个包含六个组件的AI智能体框架。

六个组件分别是:任务指令(Task Instruction)、设计提示(Designed Prompt)、大语言模型(LLM)、工具集(Tool Set)、中间输出(Intermediate Output)和最终答案(Final Answer)。

其中,任务指令是智能体的显式输入,可以来自系统的人类用户;设计提示是一种额外的输入形式,用于引导基于LLM的AI智能体生成适当的输出。

框架演示

要知道,要想增强或取代实际应用中的人工决策,除了任务规划和使用工具的能力,AI智能体通常还需要感知能力、学习/反思/记忆能力、总结能力。

在这里研究人员总结了包括思维链、向量数据库等方法,来解决这一问题:

但实际上,众多能力中任务计划和工具使用(简称TPTU)才是核心能力。

所以,研究人员专注于这两个关键能力,设计了两种不同类型的AI智能体:

一步智能体顺序智能体

一步智能体和顺序智能体的工作流程,用于评估LLM的任务规划和工具使用能力。

其中,一步智能体(TPTU-OA)可以从全局角度解释原始问题,充分利用模型的整体理解能力,“一次到位”映射出所有子任务的规划步骤。

而顺序智能体(TPTU-SA),侧重处理当前的子任务,完成后再请求下一个子任务。可以使模型保持清晰和集中式的关注,允许连续的反馈和进步。

这两种智能体分别评估LLM的整体规划与逐步推理的能力,可以从不同侧面考察LLM处理复杂任务的效果。

下一步,研究人员使用不同的LLM实例化了这个框架,并在典型任务上评估了其任务规划和工具使用能力。

一起康康效果如何。

AI用工具竟然如此顺溜

先来看研究人员准备的工具,足足有12种:SQL生成器、Python生成器、天气查询工具、图像生成器、文本提取器、翻译器、必应搜索器、Shell生成器、Java生成器、Wikipedia搜索器、办公软件、电影播放器。

重点评估SQL生成器和Python生成器两种:

  • SQL生成器:给定一个输入问题和一个数据库,创建一个语法正确的SQLite查询语句。

  • Python生成器:给定一个输入问题和一些信息,生成一个语法正确的Python代码。

测试数据集,则来源于事先准备的120个问题-答案对

被评估的LLM包括ChatGPT、Claude、上海人工智能实验室和商汤联合研发的InternLM等:

接下来就是正式评估环节。

任务规划能力评估

在一步智能体中,研究人员设计了特定的提示,首先评估了基于LLM的AI智能体的工具使用顺序规划能力。

在这个提示中,智能体被要求从预定义的工具集中选择工具,并严格遵守给定的格式,理解演示以从中学习。研究人员通过将这些提示输入到评估中,得到了工具规划的准确率。

结果表明,Ziya和ChatGLM模型在生成正确格式的列表方面存在困难。其它模型主要在生成正确顺序的工具或偶尔遗漏必要工具方面存在挑战。总体而言,解析列表格式的问题通常可以忽略不计。

接着,他们评估智能体不仅能够规划工具的顺序,还能够规划相应的子任务描述的能力。

研究人员设计提示,要求在生成工具顺序后,对每个工具生成对应的子任务描述。

结果各个LLM的正确率显著下降,ChatGPT从100%下降到55%,Claude从100%下降到15%,InternLM超过Claude,仅次于ChatGPT。

研究人员认为整体生成工具序列和子任务描述虽有效,但存在难以跟踪调试错误、工具子任务匹配问题等困难。

为改进这一问题,研究人员进行了专门的规划评估,要求智能体在复杂问题拆解中生成多个形式为{工具:子任务描述}的键值对序列。

结果各LLM正确率显著提高,ChatGPT从55%上升到75%,Claude从15%上升到90%。

研究人员表示这是因为工具和子任务统一生成,确保了二者的匹配,避免了独立生成的问题。

为了进一步评估,他们扩展了工具集,添加了其他无关的工具,结果稳定,说明提示设计有效,LLM能识别相关工具。

而在顺序智能体中,研究人员设计了可以递归生成工具-子任务对的提示。

各LLM正确率与一步智能体相比普遍提高,ChatGPT从75%上升到80%,Claude从90%上升到100%,InternLM也有65%。

工具使用能力评估

在工具使用能力评估方面,研究人员首先评估了单一工具使用对SQL生成和数学代码生成的有效性。

SQL生成综合评估结果如下,Claude准确率100%,ChatGPT、InternLM为90%:

不同LLM的SQL生成能力截然不同,部分模型适合逐步指导。

数学代码生成方面,国产大模型InternLM表现最优,得分95%:

然后研究人员还进一步评估了一步智能体、顺序智能体多工具的使用。

由于基于用户界面的LLM缺乏调用外部工具的能力,所以这部分仅使用四个基于API的LLM来做评估:ChatGPT,Ziya,Chinese-Alpaca和InternLM。

在一步智能体评估中,ChatGPT得分50%,明显优于其它模型,InternLM为15%,而Ziya和China-Alpaca都没有成功完成任何任务。

在顺序智能体评估中,ChatGPT保持了领先地位,性能略有提高,达到55%。InternLM也表现出更好的表现,得分为20%。

总之,基于LLM的AI智能体在任务规划和工具使用方面具备一定的能力,并且通过改进生成策略可以显著提高代理的性能。

论文传送门:https://arxiv.org/abs/2308.03427

「中国仿生机器人产业全景报告 · 量子位智库」下载

AGI 的火热发展为仿生机器人的实现补全了最后一块拼图,仿⽣机器⼈将在技术创新和商业模式上迎来新周期。量子位智库发布《中国仿生机器人产业全景报告》,扫描下方二维码即可查看并下载完整报告。

9月6日,我们将在北京举办仿生机器人行业沙龙,欢迎感兴趣的企业联系活动负责人王琳玉,联系方式见下方。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
没玩明白怎么中大奖?麦当劳大富翁玩法:买这些才有贴纸我终于把SU玩明白了!历史名城佛罗伦萨“我姓屈,尸体出笼的屈??”哈哈姓氏拆解算是被你们玩明白了...专访丨积家CEO Catherine Rénier:情感联结和艺术表达对腕表也至关重要六个核桃把智商这件事玩明白了难怪普京破釜沉舟,终于有人说明白了!(绝对干货)哈利波特伦敦开学日:霍格沃茨特快赶上没?156所学校被告知关闭教学楼!英国pret把员工关在冰柜里,被罚80万英镑!童年的父爱决定孩子一生?这8部高分电影讲明白了什么是好父亲对话超级牛散李国飞:价值投资是你明白就明白,不明白就不明白名校的语文“牛”在哪?看了这套作文书就全明白了~四超大青梅“英语渣”父母也能让孩子开口说英语,英语启蒙这个事儿我算是玩明白了 ...买一杯茶排三次队,茶颜悦色要把打工人逼疯日本没玩明白的东西,却成了中国弯道超车的利器花300块吃了顿烧腊寿司,“日料终究是被广东人玩明白了?”今年秋冬超火的美拉德穿搭,lululemon 算是玩明白了!Hélène Binet:光的哲学家单品爆赚2个亿!年轻人的心思被它玩明白了活明白了,就不会惯着任何人二人一猫住145㎡,超治愈的日式原木屋,这届95后算是把浪漫玩明白了!【居住榜样】人生如“茶”大模型剑指AI Agents,达摩院推出Dialogue Agents新基SpokenWOZ团|手速!这波羊毛真的太可以了,怎么省钱总算是搞明白了夜魅 (一)此情可待成追忆沙龙招募 | ChatGPT把仿生机器人推到爆发前夜了吗?谁把视频云真的玩明白了?"妈妈让我来自首",7岁男孩在派出所写下"bǎozhèng书"“面子”问题,算是被这个做电视机的玩明白了闲话人生(238)父亲节,怀念我的父亲男色营销走红短视频,背后的流量逻辑让他们玩明白了年轻人的e面,它算是玩明白了仰望U8内饰首发体验:比亚迪把豪车玩明白了?一把打开作文宝库的金钥匙来啦! 美中实验学校洛城校区秋季初级中文写作班开课啦!把AI当“工具人”,真让他们玩明白了
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。