Redian新闻
>
商汤、清华发布通才智能体完全解锁《我的世界》,像人类一样生存,探索和创造

商汤、清华发布通才智能体完全解锁《我的世界》,像人类一样生存,探索和创造

公众号新闻
机器之心发布

机器之心编辑部

从围棋的 AlphaGo 到星际争霸 II 的 AlphaStar,再到 Dota2 的 OpenAI Five,这些超级智能体研究在越来越拟真和开放的虚拟环境中取得了一个个巨大的突破,现在通才 AI 智能体"Ghost in the Minecraft"(GITM)已经能够玩转《我的世界》游戏!


在全球最畅销的游戏《我的世界》Minecraft 中,我们可以看到生存、探索和创造等各种活动,无一不在紧密地模拟真实世界,《我的世界》好似一个缩小版的现实世界。包括 DeepMind、OpenAI 在内全球许多著名研究团队,都投入到相关 AI 智能体研究中,希望在其中寻求对真实世界的解答。


来自商汤、清华大学、上海人工智能实验室等机构的研究者们提出的能够自主学习解决任务的通才 AI 智能体 Ghost in the Minecraft (GITM),不但能够在《我的世界》中比以往所有智能体,都有更加优秀的表现,并大大减少训练投入。由此该研究在向通用人工智能(AGI)方向迈出了重要一步。通用人工智能(AGI)研究的目标是发展智能体能够在开放世界环境中像人一样的进行感知、理解、和交互。AGI 的研究可以为机器人和自动驾驶等产业带来巨大的突破和进步,推动人工智能技术在产业落地方面取得更大发展。


该智能体能够完全解锁《我的世界》主世界的整体科技树的 262 个物品(以往所有智能体方法包括 OpenAI 和 DeepMind 在内总共只解锁了 78 个)、在标准的 “获取钻石” 任务上将成功率大幅提升了 47.5%(从 OpenAI 提出的 VPT 方法的 20% 提升到 67.5%),而且仅需一个 CPU 节点两天就能完成训练,将与环境交互的所需的训练步数减小到了之前方法的万分之一,远远低于之前 OpenAI 提出的 VPT 方法所需的 6480 个 GPU 天或 DeepMind 提出的 DreamerV3 所需的 17 个 GPU 天。



项目主页:https://github.com/OpenGVLab/GITM


AI 也能应对开放世界,像人类一样生存,探索和创造!


通才 AI 智能体 "Ghost in the Minecraft"(GITM)玩转《我的世界》游戏,生存模式白手起家,拿到主世界的所有物品,挖钻石不在话下,还能制作附魔书!


"Ghost in the Minecraft"(GITM)


成功制造附魔书 —— 主世界科技树的最高级别产物


挖钻石不再是困难


GITM 面对各类地形、环境、白天黑夜场景,甚至遇到怪物也能自如应对


为什么是《我的世界》


在当前的人工智能研究中,我们越来越追求打造拥有通才能力的 AI 智能体。这些智能体被寄予厚望,希望它们能够掌握广泛的技能,适应各种环境变化,更深入地模拟和应对人类在复杂问题上的能力。


在全球最畅销的游戏《我的世界》中,我们可以看到生存、探索和创造等各种活动,无一不在紧密地模拟真实世界。《我的世界》好似一个缩小版的现实世界。研究者们的目标是开发一种能够在《我的世界》中攻克所有技术挑战的 AI 智能体,从而迈向构建一个具备自主学习和掌握整个真实世界技能的通用人工智能的方向。


然而,《我的世界》中的 AI 智能体们却面临着一种有趣的莫拉维克悖论:

一些对于人类而言相对困难的任务,例如下棋,对 AI 来说相对容易;而在《我的世界》这样的开放世界中与环境交互、进行规划和决策等对人类来说较为简单的事情,AI 却面临巨大挑战。

GITM 成功打破了这一悖论的限制,在复杂且类似于现实世界的环境中取得了重大突破。这为推动 AI 技术的进步以及构建更通用的 AI 智能体提供了新的可能性。


GITM 有多强


广泛的任务覆盖:GITM 在《我的世界》内主世界的所有技术挑战上实现了 100% 的任务覆盖率(成功解锁了完整的科技树),而此前所有智能体的总和只能覆盖 30%。



高任务成功率:在最受关注的 “获取钻石” 任务上,GITM 取得了 67.5% 的成功率,相比于目前最佳成绩(OpenAI VPT)提高了 + 47.5%。



极高的训练效率:令人惊喜的是,GITM 的训练效率也达到了新的高度:环境交互步数只需已有方法的万分之一,单一 CPU 节点训练 2 天即可完成,相比之前 OpenAI VPT 所需的 6480 个 GPU 天或 DeepMind DreamerV3 所需的 17 个 GPU 天,无疑是一个巨大的进步。



GITM 是如何搭建的


传统 RL 智能体的困难在于如何将极为复杂的任务映射到最底层的键盘鼠标操作。


GITM 打破传统以 RL 为基础的架构,采用大型语言模型(LLM)作为智能体核心的新范式。



GITM 主要由 LLM Decomposer、LLM Planner、LLM Interface 三个部分组成,逐步将复杂任务分解为子任务、结构化动作、直到最底层的键盘鼠标操作:


  • LLM Decomposer 利用外部知识,如互联网上的游戏知识库,将复杂任务分解为简单的子任务

  • LLM Planner 为每个子任务制规划一系列的结构化动作,并根据反馈信息调整规划,还能通过不断总结成功经验提升自己

  • LLM Interface 使用底层的键盘鼠标操作执行结构化动作,并在与环境交互的过程中获取观察信息



GITM 的高阶应用



GITM 可以进一步应用在《我的世界》更加复杂的任务中,比如生存所需的避难所、农田、铁傀儡,创造自动化设备所需的红石电路、进入下界所需的下界传送门等。这些任务展示了 GITM 强大的能力和可扩展性,使得智能体能够在《我的世界》中长时间生存、发展,探索更加高级的世界。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
商汤、清华通才AI智能体,100%解锁我的世界!单CPU训2天,白手起家打造红石电路《平凡的世界》中最接地气的十句话,值得一读再读像人类一样“会聊天”!亚马逊的智能音箱将加入“类ChatGPT”功能GPT-3.5逆袭GPT-4!谷歌DeepMind华人天团,让LLM像人类一样制作工具,完胜CoT最后1天,速解锁《每天听见吴晓波》盲盒福利5036 血壮山河之武汉会战 鏖战幕府山 5第四范式开源强化学习研究通用框架,支持单智能体、多智能体训练,还可训练自然语言任务!训练速度提升17%那夜的邂逅---北京的春天为了肺癌患者获得高质量长生存,医科院肿瘤医院胸外科正在做的新探索LeCun世界模型首项研究来了:自监督视觉,像人一样学习和推理,已开源蝙蝠宝宝也会像人类幼崽一样“牙牙学语”上影、昆仑万维、商汤、华强…首批嘉宾确认出席上海文娱科创沙龙上影、昆仑万维、商汤、华强…上海文娱科创沙龙首批嘉宾确认出席清华商汤最新AI,征服了《我的世界》闲话CVPR 2023 | LeCun世界模型首个研究!自监督视觉像人一样学习和推理!想像皇室一样生活在城堡里?英国这些待售城堡令人眼前一亮!CubeFS在大数据和机器学习的探索和实践丨ArchSummit峰会实录爆火论文打造《西部世界》雏形:25个AI智能体,在虚拟小镇自由成长《人类简史》作者:人类一心追求更轻松的生活,但结果不是大部分人乐见的……美国战斗机中的丑八怪,却无所不能用ChatGPT和强化学习玩转《我的世界》,Plan4MC攻克24个复杂任务训练成本不到1000元,直降90%!NUS、清华发布VPGTrans:轻松定制类GPT-4多模态大模型斯坦福AI智能体爆火研究!「好奇回放」算法让AI自我反思,主动探索新奇世界防止AI胡说八道!OpenAI公布最新大模型训练方法,监督AI像人类一样思考精准水位在流批一体数据仓库的探索和实践英伟达AI智能体接入GPT-4,完胜AutoGPT!自主写代码独霸我的世界,无需人类插手【糗事,笑话】包治百病人类被AI“毁灭”,一定是从教它玩《我的世界》开始的作业帮多云多活架构的探索和实践大模型战队再添新丁,王小川、商汤、昆仑万维同日官宣!GPT-4玩《我的世界》15倍速攀科技,不看画面全靠代码操作GPT-4竟然有身体,167cm!清华、北师大重磅研究:ChatGPT能像人一样感知行动看了10遍《楚门的世界》,总结出3条人生精华,句句戳心RTS玩法加上Mincraft,《我的世界:传奇》玩家评价为何刚刚及格?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。