Redian新闻
>
CMU博士让智能体在真实世界竞技!GPT-4夺冠,但成功率只有一成

CMU博士让智能体在真实世界竞技!GPT-4夺冠,但成功率只有一成

公众号新闻



  新智元报道  

编辑:Lumina
【新智元导读】NLP技术的发展,使得创建一个在数字世界中的智能代理成为了当下人们关注的热点。此时,来自华人主导的团队推出了WebArena,能够测试智能代理在网络环境中执行任务的实践效果,那么具体我们应该怎么做呢?


长期以来,我们一直有着在人工智能的发展下创建自主的智能代理的愿景。
人们希望这些代理能够与环境进行智能的交互,并实现人类为其设定的目标。
现有的强化学习(RL)框架在模拟的游戏或封闭的领域中取得了巨大的成功,但对于现实中复杂的物理环境却束手无策。
而今的自然语言处理技术(NLP),为人类和大模型在数字世界中的智能交互提供了独特的可扩展环境和学习优势。
例如,WebShop 是一个包含数百万种产品的购物网站环境,代理需要在其中阅读网页、键入查询和单击按钮,才能像人类一样购物。
这样的数字任务挑战了智能的一般方面:包括视觉理解、阅读理解和决策,并允许扩展到其他程序中使用更多的功能(GPT-4提供的插件程序)。
诸如此类「数字世界中的智能代理」,为人工智能的落地应用设想了一个看起来还不错的前景。
而就在7月26日,一个以华人为主团队在X(原推特)上推出了测试智能代理在网络环境中执行任务的实践效果的Web环境:WebArena。

WebArena是什么?

WebArena是一个独立的、自托管的 Web 环境。

开发者从电子商务、社交论坛、协作软件开发和内容管理这四类现实中的创建了独立的网站,在功能和数据上模仿真实世界的内容。
WebArena还将工具和知识资源嵌入为独立的网站,以此让智能代理有模拟人类解决问题的能力。
用户可以对智能代理进行自然语言指令的基准测试,实现与Web的具体交互。
在WebArena的环境基础上,开发者发布了一组基准任务,重点是评估任务完成的功能正确性。
其设置基准测试中的任务是多样化的、长期的,并且旨在模拟人类在互联网上经常执行的任务。

订阅OneStopMarket的电子报

告诉我到目前为止,我们商店收到的含有”最佳”一词的评论数量

距离缅因州最大的城市最近的国家公园是哪一个?

取消订单 307

步行测量卡内基音乐厅和 UPMC Shadyside 之间的距离

检查从匹兹堡机场开车一小时是否可以到达匹兹堡的杜肯大学

演示视频:

Agent on Gitlab Gitlab上的代理

"Set up a new, empty repository with the name awesome_llm_reading" “设置名为 awesome_llm_reading 的新空存储库”

Agent on Shopping Website

"Tell me the status of my latest order and when will it arrive" “告诉我最新订单的状态以及何时到达”

一般来说,要完成路线导航任务需要智能代理具备复杂的长期规划和推理能力。
为了达成任务目标,智能代理需要:
在维基百科上搜索位于匹兹堡的艺术博物馆,并在地图上确定每家博物馆的位置,根据收集的信息进行优化。
在完成路线规划后,智能代理需要将结果更新到相关代码仓库的README文件中,以文本的形式添加规划好的博物馆游览路线。

逼真且可重现的网页环境

WebArena的目标是创建一个逼真且可重现的网页环境。

主要通过两种方式:
首先,要让环境独立自主而不依赖实时网站来实现可重现性。
其次,构建许多实际使用网站的开源库,并从这些网站导入数据到我们的环境中来实现逼真性。
这种方式也帮助WebArena规避了技术挑战。例如机器人需要通过验证码、内容和配置的不可预测变化等,这些都会阻碍对不同智能代理在时间跨度上的公平比较。
评价

高度逼真的WebArena可交互环境为基准测试的实现提供了条件。
与其他类似的模拟Web环境相比较,WebArena的基准测试包含人们日常可能遇到的各种任务。
同时,WebArena还设计了评估指标来检查任务执行的功能准确性。
也因此,WebArena的基准测试更贴近真实的环境,智能代理的任务实践效果也更接近现实。
对在WebArena中运行的智能代理执行任务的准确性,有以下两种评估方式:
第一种是测量执行信息搜索任务的正确性。它将预测的答案与注释的参考答案进行比较,有三种实现方式。
第二种方法是程序化地检查执行过程中的中间状态,检查其是否具有意图所指定的预期属性。
整体而言,WebArena提供了一个功能完备、高度模拟现实的测试环境和评估体系。能够衡量智能体执行复杂任务的全面能力。
GPT-4智能体夺得冠军
研究者创建了812个用英语编写的目标测试示例,和实现这些目标的网络交互。
每个任务都会使用验证器进行注释,以编程方式检查任务是否真正按预期完成。
在这些任务中,表现最好的GPT-4 Agent实现了10.59%的有限端到端任务成功率。
才不到一成,显然有足够的改进空间。
WebArena的试验这也预示着这样一个未来:
随着越来越多的API被整合到环境中,一个由极其多样化和开放式的数字工具和任务组成的生态系统将出现。我们将会培养出更通用和有能力的自主智能代理。
这将为通用人工智能(AGI)的道路带来新的方向。
参考资料:

https://webarena.dev/static/paper.pdf




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
机器人ChatGPT来了:大模型进现实世界,DeepMind重量级突破CMU吃喝玩乐,享受CMU校园附近的多彩生活「美国三角会计」Steve Niu博士,2023年7月中国行「美国三角会计」Steve Niu博士,2023年6月中国行ACL 2023最佳论文出炉!CMU西交大等摘桂冠,杰出论文奖华人学者占半壁江山聚焦慢病真实世界数据,以循证诊疗推动慢病患者获益——第二届“真实世界研究与慢病论坛暨瞰见论坛”重磅来袭!大模型掌握16000+真实世界API了,清华等机构ToolLLM的工具使用能力不输ChatGPTT-,小藤级美的,如何让智慧工业从「PPT」到加速落地?ICML 2023|CMU大牛全面总结「多模态机器学习」六大挑战:36页长文+120页PPT,全干货!深入探索中医药智慧,参松养心胶囊降低心脏性猝死复合事件真实世界研究(ACCEPT)正式启动篝火与诗,最是难凉陈十一院士:软件把离散世界和真实世界连在一起ChatGPT羊驼家族全沦陷!CMU博士击破LLM护栏,人类毁灭计划脱口而出竞技体育有了“AI教练”——“聚焦智能体育消费新业态”系列报道之四参数量仅为1/700,性能超越GPT-3.5!CMU+清华开源Prompt2Model框架耗时2年,Meta联手CMU打造最强「通用机器人智能体」!上茶擦碗多面手,轻松泛化100多种未知任务女足夺冠,全澳放假!艾博年力推“夺冠假期”引商家不满,“这是变相征税”惊了!英国博士5年毕业率只有……GPT-4破防啦!用密码和GPT-4聊天,成功绕过了GPT-4的安全机制!港中大(深圳)告诉你方法2023上海赛艇公开赛9月16日至9月17日举办,剑桥、牛津等国际赛艇队来沪同场竞技!猩猩学会玩《我的世界》,方法竟和GPT-4智能体相通?|GGView浅谈德国医院和医生猩猩学会玩《我的世界》,方法竟和GPT-4智能体相通?買了一顆皇冠太难了!NZ父母团聚移民成功率只有2%!?新申请不断,积压签证需要多年才能处理!什么时候能放宽政策?拿到MBB offer的G5学长:通过率只有0.3%,我浅卷了一下…0代码训练GPT-5?MIT微软证实GPT-4涌现自我纠错能力,智能体循环根据反馈让代码迭代!清华提出开源工具学习框架,接入真实世界 16000+API, 效果达 ChatGPTAI智能体卷爆大模型!AutoGPT等4大Agent打擂,「西部世界」谁将成为软件2.0?留学生想在美国创业?Y Combinator让你如虎添翼,但录取率只有1%消失的她:这些女性噩梦中的恐怖故事,都在真实世界发生过 | 天才档案 17「简报」CMU 校长 Jahanian 致词欢迎 2027+ 届学生;新任 LTI 主任将在 CMU 探索更负责任的人工智能1000+AI智能体复活,OpenAI版元宇宙上线? ChatGPT+VR百分百还原「西部世界」《梦中的白云》&《深深的怀念》
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。