Redian新闻
>
北大等发布最新AI智能体Jarvis-1,制霸「我的世界」

北大等发布最新AI智能体Jarvis-1,制霸「我的世界」

公众号新闻



  新智元报道  

编辑:拉燕
【新智元导读】北大、北邮、UCLA和BIGAI的研究团队联合发布,智能体新突破——Jarvis-1.

智能体研究又取得了新成绩!

最近,来自北大、北邮、UCLA和BIGAI的研究团队联合发表了一篇论文,介绍了一个叫做Jarvis-1的智能体。

论文地址:https://arxiv.org/pdf/2311.05997.pdf

从论文标题来看,Jarvis-1的Buff可谓拉满了。

它是个多模态+记忆增强+多任务处理的开放世界语言模型,玩儿「我的世界」游戏堪称一绝。

图为Jarvis-1解锁我的世界科技树

在论文摘要中,研究人员表示,在开放世界,通过多模态来观测并实现类人的规划能力以及控制能力,是功能更强的通用智能体的一个重要里程碑。

要知道,用现有的方法确实可以处理开放世界中的某些长线任务。然而,开放世界中的任务数量可能是无限的,这种情况下传统方法就会很吃力,而且还缺乏随着游戏时间的推移,逐步提高任务完成度的能力。

Jarvis-1则不一样。它能感知多模态输入(包括自我观察以及人类指令),生成复杂的计划并执行嵌入式控制。所有这些过程都可以在开放的「我的世界」游戏中实现。

下面咱们就来看一看,Jarvis-1和别的智能体究竟有什么不一样。

实现过程


具体来说,研究人员会在预先训练好的多模态语言模型基础上开发Jarvis-1,将观察和文本指令映射到计划中。

这些计划最终会分派给目标条件控制器。研究人员为Jarvis-1 配备了多模态的存储器,这样它就能利用预先训练好的知识和实际游戏的经验进行相应规划。

在研究人员的实验中,Jarvis-1在「我的世界」基准的200多个不同任务(初级到中级)中表现出了近乎完美的性能。

举例来说,Jarvis-1在合成钻石镐的长线任务中,完成率达到了惊人的12.5%。

这个数据表明,和之前的记录相比,Jarvis-1在钻石镐任务中的完成率大幅提高了5倍,远远超过之前SOTA级别的VPT处理这个任务的完成率。

此外,论文中还展示了Jarvis-1通过多模态记忆,能做到在终身学习范式下进行自我完善,从而激发出更广泛的智能并提高自主性。

在文章开头的那个解锁技能树图片里,Jarvis-1可以稳定获得「我的世界」主科技树上的大量高级物品,如钻石、红石和黄金等等。

要知道,想要获得这些物品需要收集10多种不同的中间物品才可以。

下图更加直观地展示了开放世界的环境中有哪些挑战,以及Jarvis-1是如何应对这些挑战。

最左侧,与不采用情境感知规划的GPT相比,采用该方法的Jarvis-1大幅提高了在获取钻石任务中的成功率,这个任务十分具有挑战性。蓝色的是人类的完成率,受实验条件所限,只统计了10分钟。

中间的图示是随着任务复杂度的增加(石头→铁矿→钻石),Jarvis-1通过交互式规划表现出了显著的优势。和GPT的表现相比好出太多。

右侧为Jarvis-1从多模态记忆中检索到的其它任务(y轴所示)的上下文经验,在选定任务(x轴所示)上的成功率提高了多少(用颜色的深浅来表示)。

可以看出,通过终身的学习和记忆,Jarvis-1可以利用先前在相关任务上的经验来改进对当前任务的规划。

说了这么多性能上的优势,Jarvis-1有如此好的表现以及超越GPT的性能,归功于以下三点:

- 从LLM到MLM

首先,我们知道,感知多模态感官输入的能力,对于在动态和开放世界中模型进行规划至关重要。

Jarvis-1通过将多模态基础模型与LLM相结合,实现了这一点。与盲目生成计划的LLM相比,MLM能够自然地理解当前情况并制定相应的计划。

此外,还可以通过多模态感知获得丰富的环境反馈,从而帮助规划者进行自我检查和自我解释,发现并修复计划中可能存在的错误,实现更强的交互式规划。

- 多模态记忆

过去的一些研究表明,记忆机制在通用智能体的运作中发挥着至关重要的作用。

研究人员通过为Jarvis-1配备多模态记忆,可以有效地让它利用预先训练的知识和实际经验进行规划,从而显著提高规划的正确性和一致性。

与典型的RL或具有探索能力的智能体相比,Jarvis-1中的多模态记忆使其能够以非文本的方式利用这些经验,因此无需额外的模型更新步骤。

- 自我指导和自我完善

通用智能体的一个标志,就是能够主动获取的新经验并不断进行自我完善。在多模态记忆与探索经验的配合下,研究人员观察到了Jarvis-1的持续进步,尤其是在完成更复杂的任务时更是如此。

Jarvis-1的自主学习能力标志着这项研究向通用智能体迈出了关键一步,这种智能体可以在极少的外部干预下不断学习、适应和改进。

主要挑战


当然,在实现开放世界游戏的过程中,肯定也会遇到很多困难。研究人员表示,困难主要有三个。

第一,开放世界就意味着,想要完成任务并不是只有一条通路。比方说,任务是做一张床,智能体既可以从羊身上收集羊毛来做,也可以收集蜘蛛网,甚至还可以直接和游戏里的村民NPC交换。

那么究竟在当下的情况下选择哪种途径,就需要智能体具有审时度势的能力。换言之,要对当下的情况有一个比较不错的把握,即情景感知(situation-aware planning)。

在实验过程中,智能体有些时候会出现判断有误,导致任务完成效率不高甚至失败的情况出现。

第二,在执行一些高复杂度的任务时,一个任务往往由大量小任务组合而成(20+个)。而每个小任务的达成也不是那么容易的事,条件往往比较苛刻。

比如上图中,做一个附魔台,就需要用钻石搞挖三个黑曜石。而怎么做钻石镐又是个麻烦事。

第三,就是终身学习(lifelong learning)的问题。

毕竟,开放世界中的任务数不胜数,让智能体预先全部习得显然不现实。这就需要智能体不断在规划的过程中进行学习,即终身学习。而Jarvis-1在这方面的表现已经在上一部分有所提及。

整体框架


Jarvis-1的整体框架如下图所示。

下图左侧包括一个记忆增强的多模态语言模型(MLM)和一个低级的行动控制器(controller),前者可以生成计划。

同时,Jarvis-1还能利用多模态存储器存储和获取经验,作为进一步规划的参考。

可以看到,下图中间部分就是Jarvis-1如何利用MLM生成计划的流程图,十分简洁易懂。

在收到任务后,MLM开始提供一些建议,发到planner,最终生成计划。而多模态记忆库可以被随时调用,新生成的计划也会被作为学习的内容储存进去。

最右侧即为Jarvis-1自我学习的流程图。

举个例子来看,现在输入一个获取钻石矿的任务。
MLM这就开始计划了——右侧最上部的绿框即为初始计划,自检后发现有物品的缺失,于是调整了计划,更正了要获取的物品的数量。
接着多模态模型进行反馈,执行的过程中发现任务失败,随机自检当下的状态,比如镐子坏了。再一看库存,还有能生成镐子的原料,开干。当然,这一步还有个自我解释的环节(self-explain)。
最终,生成新计划,任务终于完成。
下图展示了Jarvis-1是如何生成查询结果的。
首先会考察当下的观察结果和任务,Jarvis-1会首先进行逆向思维,找出所需的中间子目标。
当然,推理的深度是有限的。记忆中的子目标将与当前的观察结果结合起来,再形成最终的查询结果。
再将与文本查询相匹配的条目根据其状态与观察查询的感知距离进行排序,而后只有每个子目标中最靠前的条目才会被检索到。
在实验环节,研究人员选用的任务都出自最近推出的「我的世界」基准。
实验开始前,相关设置如下:
环境设置~为确保游戏逼真,智能体需要利用与人类类似的观察和行动空间。研究人员没有像以往的方法那样为模型与环境交互手动设计自定义界面,而是选择使用了「我的世界」提供的原生人类界面。
这既适用于智能体进行观察,也适用于行动。该模型以每秒20帧的速度运行,而且与人类图形用户界面交互时需要使用鼠标和键盘界面。
- 任务设置
在「我的世界」中,玩家可以获得数千种物品,每种物品都有特定的获取要求或配方。在生存模式中,玩家必须从环境中获取各类物品,或者用材料制作/熔炼物品。
研究人员从 「我的世界」基准中选择了200多个任务进行评估。为便于统计,研究人员根据「我的世界」中的推荐类别将其分为 11 组,如下图所示。
由于这些任务的复杂程度不同,团队对每个任务采用了不同的最大游戏持续时间。
- 评估指标
在默认情况下,智能始终玩生存模式,初始库存为空。
如果在指定时间内获得目标对象,则视为任务成功。由于「我的世界」的开放性特点,智能体启动时所处的世界和初始位置可能会有很大不同。
因此,研究人员使用不同的种子(类似于一个地图生成码)对每个任务进行了至少 30次的测试,并反馈平均成功率,以确保进行更加全面的评估。
下图左侧展示了Jarvis-1的游戏成功率。还和VPT模型进行了比较。
右侧则展示了Jarvis-1在执行任务中,一些中间物品的获取成功率。可以看到,随着时间的推进,成功率还是非常高的。
参考资料:
https://arxiv.org/pdf/2311.05997.pdf




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
[旅游] 旅行第15季088城 冰岛首都 Reykjavík 的冬天GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评开源版「ChatGPT Plus」来了,能做数据分析、插件调用、自动上网,落地真实世界的智能体乐高集团正式发布7款2024年1月乐高新品:乐高侏罗纪世界、乐高索尼克、乐高我的世界、乐高超级马力欧系列GPT-4完成正确率仅6%!北大等提出首个「多轮、多模态」PPT任务完成基准PPTC清华、小米、华为、 vivo、理想等多机构联合综述,首提个人LLM智能体、划分5级智能水平哈马斯般的突袭战术对哪些国家能造成打击清华、北大等公布2023届本科生毕业数据BUAAC Into | 一月走进「培育钻石的世界」Agent触摸汉堡辨冷热,首次拥有类人感官!UCLA等发布3D多模态交互具身智能大模型ChatGPT Plus暂停新订阅;零一万物发布Yi-34B训练过程说明;面壁智能发布AI智能体SaaS产品丨AIGC大事日报北大等提出MoE-LLaVA:将多模态大模型稀疏化大模型勇闯洛圣都,加封「GTA五星好市民」!南洋理工、清华等发布视觉可编程智能体Octopus:打游戏、做家务全能干芝加哥马拉松经历- -欢乐篇​从产品主义迈向智能主义,安全智能体做对了什么?ICLR'24 大语言模型智能体最新研究进展Meta重磅更新,小扎在元宇宙里养了会做家务的狗!人形化身超逼真,AI智能体在真实物理世界和人互动GPT-4V多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,OpenAI总裁激动转发陌上上海072 我的世界欢迎你来到,光临我的美好|98年应届硕士,给你传递幸运buff清华、北大等公布2023届本科生毕业数据,复旦大学18%直接就业,超七成选择继续深造…AI「cosplay」关键在人设!复旦、人大等发布大五人格+MBTI测试:特质还原率达82.8%,拒绝OOC冷却的不止季节(114)— 严重新冠变体JN.1肆虐!加拿大多所医院急诊室入住率超200%,美国一些主要医院已恢复口罩令[旅游] 旅行第15季085城 - 冰岛Keflavík小镇 蓝湖温泉 地热发电站港大等发布GraphGPT:1/50微调参数,准确率提升10倍!无需超长token,LLM也能读懂图结构游武夷山AI对齐全面综述!北大等从800+文献中总结出四万字,多位知名学者挂帅【新春对对碰】暖场 《我的世界》对碰陈楚生,哈哈~~深航发布最新国际及地区航班计划!厦门航空发布最新国际及地区航班计划!南航发布最新国际及地区新增航班计划香港科技大学校董会主席、美国国家工程院外籍院士沈向洋:未来世界将由人工智能体和人类共同打造研发人员占比超50%,手术机器人和导航上游的隐形冠军NDI制霸空间测量、定位产品赛道OpenAI 删除「禁止用于军事和战争」政策;华为确定「享界」「傲界」车型;NASA「静音超音速」飞机问世 | 极客早知道福建永定土楼美本录取捷报 | USC+1,UMichigan+1,UIUC+1,UBC+1等多校发来喜报!恭喜丽格学子!清华北大等大学能不能撤销闸机自由出入,比对德法六国单边开放更有指标意义!头像|𝐒𝐡𝐚𝐫𝐞·招桃花头像
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。