Redian新闻
>
DeepMind首发游戏AI智能体SIMA!只用自然语言就能玩转「山羊模拟器」

DeepMind首发游戏AI智能体SIMA!只用自然语言就能玩转「山羊模拟器」

公众号新闻



  新智元报道  

编辑:Mindy
【新智元导读】AI在学会工作之后,终于也能和人一样玩游戏了!DeepMind的SIMA是一个可以感知和理解各种环境的AI代理,能够在多种视频游戏设置中执行任务,未来甚至可能可以与任何虚拟环境进行互动。

谷歌DeepMind在AI和游戏方面有着悠久的历史。
从过去与Atari游戏的密切合作开始,然后发展到AlphaStar系统可以在《星际争霸II》中达到人类大师级水平,到如今,DeepMind从单个游戏转向了通用的、可指导的游戏AI代理。
SIMA,是一个可扩展的、能听从指导的多世界AI代理,这是一个用于3D虚拟环境的通用AI代理。

技术报告:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling%20Instructable%20Agents%20Across%20Many%20Simulated%20Worlds.pdf

想象一下,它完全不需要游戏源代码,也不需要什么特殊的API接口。它只需要两个简单的输入:屏幕上的图像和用户口头提供的简单自然语言指令。然后,SIMA就会像魔术师一样,通过键盘和鼠标控制游戏角色执行这些指令。
这种简单直接的界面,就像是我们人类自己所用的方式,这是一个AI代理首次展示出它能够理解广泛的游戏世界的能力,同时可以按照自然语言的指令在其中执行任务,就像人类一样。

SIMA从视频游戏中学习


SIMA由预先训练好的视觉模型和一个主模型组成,主模型包括一个存储器,可输出键盘和鼠标操作。
它在九款不同的视频游戏上对SIMA进行了训练和测试,例如Hello Games的《无人深空》和Tuxedo Labs的《拆解》。
每款游戏都为SIMA打开了一个新的交互世界,从简单的导航和菜单使用,到挖掘资源、驾驶飞船或制作头盔等一系列技能。
DeepMind团队还使用了四个研究环境,其中包括Unity构建的名为“建造实验室”的新环境。在这个环境中,SIMA需要用建筑块建造雕塑,从而测试其对物体操纵和对物理世界的直观理解能力。
通过从不同游戏世界中学习,SIMA捕捉了语言与游戏行为之间的关系。
例如,它会观察人类玩家的操作,并记录下导致这些游戏行为的指令。这样的训练使得SIMA能够逐渐理解游戏世界中的语言和行为之间的联系。

SIMA的诞生意味着什么


SIMA的诞生并不是为了取得高游戏得分。
对于AI系统来说,即使是学会玩一个视频游戏也是一项技术壮举,但学会在各种游戏设置中遵循指令,可能会为适应任何环境提供更多帮助。
SIMA已经评估了600种基本技能,涵盖了导航、物体交互和菜单使用。它已经可以执行在10秒中内完成的简单任务。
DeepMind希望未来代理能够处理那些需要高级战略规划和多个子任务才能完成的任务,例如“寻找资源并建造营地”。
这对于AI来说是一个重要的目标,因为虽然大型语言模型已经催生了可以捕捉关于世界知识并生成计划的强大系统,但它们目前还缺乏代表人类采取行动的能力。
Jim Fan也对SIMA表达了期许的态度,他补充道,他对于SIMA喜欢的地方包括:

- 这是第一个通过鼠标或键盘进行操作的代理,不需要用语言进行调整

- 适应多种环境,涵盖游戏和3D模拟器

- 拥有强大的数据管道,招募人类玩家以记录行为,以及用语言进行注释

但他也同时指出了一些不足之处,包括环境数量有限;行动时长非常短,只有约10秒;数据管道不够有扩展性等。

跨游戏的泛化和未来

在DeepMind的评估中,SIMA在一组九款3D游戏中表现明显优于仅在每个单独游戏上进行训练的所有专门代理。
更重要的是,SIMA在未见过的游戏上的表现与专门为其进行训练的其他代理相比,平均表现几乎相同。
这种在全新环境中运作的能力突显了SIMA在训练之外的泛化能力。
这是一个令人鼓舞的初步成果,但需要进一步的研究才能让SIMA在已知和未知的游戏中达到与人类相媲美的水平。
结果还表明,SIMA的表现依赖于语言。
在一项控制实验中,当代理没有接受任何语言培训或指令时,它的行为虽然符合逻辑,但缺乏目标性。例如,代理可能会执行一些常见的操作,如收集资源,而不是按照预先指定的路径行动。
SIMA的结果展现的是新的泛化的、由语言驱动的AI代理的潜力。
AI代理的完成态,是达到更加通用、能够帮助虚拟世界和现实世界的人们,理解并安全地执行各种任务。
SIMA只是刚刚开始,我们可以期待在更多的训练环境中继续建立SIMA,并整合更有能力的模型,让它变得更具泛化性和多功能性,而不仅仅局限于游戏。
参考资料:
https://deepmind.google/discover/blog/sima-generalist-ai-agent-for-3d-virtual-environments/




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
[干货] stepmother(继母)的 step 为啥表示“继”?微软“去OpenAI化”引发高层洗牌:必应CEO被DeepMind联创挤跑!纳德拉会见Stable Diffusion老板高质量糊弄娃的小游戏,有嘴就能玩【解字】品“头”论“足”Linux 发行版 Gentoo 宣布禁止提供 AI 自然语言技术协助下创建的内容北京内推 | 新东方教育科技集团招聘高级自然语言处理工程师开源AGI智能体人人可养成:AGI对齐新思路,让智能体在人类世界中接受训练加速知识检索:伯克利&DeepMind联合研究,RaLMSpec让语言模型服务飞速提升2-7倍!DeepMind升级Transformer,前向通过FLOPs最多可降一半奇怪的再会(五)谷歌 DeepMind 联合创始人加入微软,担任新 AI 部门 CEOAI足球教练上岗利物浦,射门机会提高13%!来自DeepMind,网友:这不公平比人类便宜20倍!谷歌DeepMind推出「超人」AI系统Apple Store一条新规,直接让游戏机模拟器登顶了。7036 血壮山河之枣宜会战 “扑朔迷离”南瓜店 13Open AI 八年前的设想被谷歌突破啦!DeepMind官宣SIMA,动动嘴就能完成复杂游戏任务傅盛:离AGI不只一年,Sora还未实现完美模拟器的壮举孩子成了小小非遗传承人!把传统文化做成游戏,不用报班,孩子在家就能体验突发!DeepMind联创空降微软:统领AI团队,还掏空了OpenAI劲敌机器学习测试:使用模拟器测试训练好的功能的见解和经验GPT-4、Gemini同时被曝重大缺陷,逻辑推理大翻车!DeepMind上交校友团队发现LLM严重降智任天堂杀不死Yuzu,还有千千万万个 “转世” 开源模拟器让玩家全程掌控游戏:自然语言指令驱动的游戏引擎到来了Sora场景转「3D资产」!浙大CAD&CG全重实验室提出文本转3D新SOTA:多功能、可拓展脑电合成自然语音!LeCun转发Nature子刊新成果,代码开源CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型YSSNLP2024注册开放丨第二十一届自然语言处理青年学者研讨会全日程公开语言是一门艺术沈颢|他与约恩·福瑟,没有故事利物浦用DeepMind的AI制定战术已有三年了谷歌DeepMind打造基于人工智能的医疗问诊对话工具AMIE曝小扎写信“挖角”DeepMind;我国10亿级参数大模型超百个;Stability AI开源代码生成模型丨AIGC大事日报我们是如何在 IDE 中设计 AutoDev 的 AI 编程开发智能体语言与框架?DeepMind终结大模型幻觉?标注事实比人类靠谱、还便宜20倍,全开源华为Pura70开启先锋计划;任天堂模拟器上线AppStore;微软疑似被诈骗
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。