Redian新闻
>
大猩猩也会玩《我的世界》了,看一遍视频就能get新技能

大猩猩也会玩《我的世界》了,看一遍视频就能get新技能

公众号新闻
机器之心报道
编辑:张倩
训练大猩猩和训练AI有不少通用的技巧。
在教会 GPT-4 玩《我的世界》(Minecraft)之后,人类也教会了大猩猩玩这款游戏。
图中的这个大猩猩名叫 Kanzi,是一个 42 岁的倭黑猩猩(bonobo)。它会通过点击触摸屏来玩游戏:点击屏幕中央向前移动;触摸侧面环顾四周。如果表现出色,研究人员会给予奖励,比如花生或其他零食。
或许是因为之前玩过一些游戏,Kanzi 刚坐到屏幕前就进入了状态,几秒钟就学会了如何操作角色前进。只要它能到达指定区域,屏幕上就会出现零食的图案,同时工作人员也会给它对应零食。在这样的奖励机制下,Kanzi 很快学会了如何在游戏里行走。

接下来的测试任务是在游戏里使用工具(屏幕上方的某个按键)击碎一些积木块。这对 Kanzi 来说有点难度,因为这个操作没有在 Kanzi 之前玩的任何游戏中出现过。为了给 Kanzi 提示,工作人员一直指着屏幕上方的按钮,但 Kanzi 依然不得要领。

无奈之下,工作人员只好换了一种方法:让 Kanzi 看一遍人类示范。

Kanzi 看得很认真,也在积木被击碎时拿到了零食。于是,工作人员决定让它自己试一下。
终于,在走到积木前时,Kanzi 找到了上方的按钮,成功把积木击碎,这引得工作人员一阵欢呼。

经过这两个任务,Kanzi 已经掌握了两项基本技能:在环境中收集零食以及把积木打碎。工作人员接下来的目标是让 Kanzi 在一个全新的环境中利用这些技能并让网线另一端的一位人类玩家相信它是真人。
在此之前,Kanzi 被安排在一个特制的洞穴环境中强化技能,只有打破一道一道的积木墙,Kanzi 才能到达洞穴尽头。

在一路打怪升级的路上,Kanzi 熟悉了刚刚才学到的新技能。不过,它也有被卡在墙角的时候,这种情况下它会寻求工作人员帮助,并在脱困后径直走向积木墙继续通关。
最终,在几乎没有多少帮助的情况下,Kanzi 顺利通过,达到了洞穴尽头。这也意味着,Kanzi 已经做好了去迷惑人类玩家的准备。
在测试过程中,人类玩家被告知他将与一个特殊的玩家一起玩游戏。当然,他也注意到了一些不寻常的行为,例如,Kanzi 在游戏中的移动速度较慢,而且他的操作方式与普通玩家有所不同。但他万万没想到,自己的游戏伙伴是一只大猩猩。因此,当真相揭晓时,Tommy 的反应既震惊又兴奋。

这项与人类玩家一起进行的测试被工作人员称为「多人」模式,接下来,他们又让 Kanzi 挑战了《我的世界》中其他的环境类型,包括乡村、沙漠神殿、下界传送门等等。Kanzi 一路通关,走到了游戏终点。
这个视频在国外视频网站引起了很多人关注。视频制作者、YouTube 博主 ChrisDaCow 的本意是呼吁人类关注野生动物,看到这些动物有趣的一面。

视频链接:https://www.youtube.com/watch?v=UKpFoYqN9-0
不过,在 AI 研究者眼中,这不仅仅是有趣那么简单。他们观察到了一些与智能相关的东西。
英伟达 AI 高级科学家 Jim Fan 表示,他观察到,教 AI 玩《我的世界》和教大猩猩有很多类似的技巧,包括:
  • In-context 强化学习:当 Kanzi 在游戏中达到标记的里程碑时,他会得到水果或花生作为奖励,激励他遵循游戏内的指导。

  • 人类反馈强化学习(RLHF):Kanzi 并不完全理解语言,但他能看到训练师为他加油,他偶尔也会回应加油!这为他提供了一个强烈的信号,表明他走在正确的道路上。

  • 模仿学习:训练师向 Kanzi 展示了一个任务的示范做法,而且只展示了一次,它就理解了其中的概念。这比仅仅使用奖励更加高效。

  • 课程学习:他们从非常简单的环境开始,逐渐教会 Kanzi 控制技能。最终,Kanzi 能够在复杂的洞穴、迷宫和下界之间前行。


「大猩猩的视觉系统如此强大也让我感到惊讶。Kanzi 一生都没见过《我的世界》,他的祖先肯定也没见过。但他很快就适应了《我的世界》里与自然世界截然不同的纹理和物理。这种泛化水平远远超出了我们今天最强大的视觉模型所能做的。我们又一次陷入了莫拉维克悖论:我们最好的人工智能在理解语言方面接近人类的水平,但在解析像素方面远远落后于动物。」Jim Fan 评价说。
莫拉维克悖论是由人工智能 和机器人学者所发现的一个和常识相左的现象。和传统假设不同,人类所独有的高阶智慧能力只需要非常少的计算能力,例如推理。但是无意识的技能和直觉却需要极大的运算能力。这个理念是由汉斯・莫拉维克、布鲁克斯、马文・闵斯基等人于 1980 年代所阐释。如莫拉维克所写:「要让电脑如成人般地下棋是相对容易的,但是要让电脑有如一岁小孩般的感知和行动能力却是相当困难甚至是不可能的。」
但有人对此提出了质疑,认为 Kanzi 其实只是为了得到奖励才一直继续,「它根本不知道发生了什么,」也并没有真正学会玩《我的世界》。

对此,有人反驳说,「这被称为刺激反应学习,或操作性条件反射。这是包括你在内的所有动物学习的基本方式之一。这是很容易理解的。这并不是贬低学习,这是学习的本质。」
这个实验有趣的地方还在于,它让人脑洞大开:现在 ChatGPT 和大猩猩都会玩《我的世界》了,如果未来脑机接口发展顺利还会发生什么?


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
5分钟就能get的温州非遗小吃!超快手看NBA决赛的启示OpenAI创立以来的第一次收购,买了个套皮《我的世界》公司李飞飞朱松纯把《我的世界》变AI的世界,微软Xbox组参与,游戏Agent协作框架来了猩猩学会玩《我的世界》,方法竟和GPT-4智能体相通?|GGView到《西部世界》当镇长,多校联合开源国产AI小镇,戳戳交互界面就能编辑的虚拟世界不开车寸步难行!持旅游签证如何Get新泽西驾照?每斤两块人民币,我的晚餐是大猩猩的脚大人小孩都爱吃的『西贝』,在家不出门也能get门店必吃同款!莎士比亚的诗歌炼金术 | 《镜迷宫:莎士比亚十四行诗的世界》新书分享会99任选4件!无需出门也能get西贝同款招牌美食!免费领 | 美国原版绘本 《Brady’s World 布莱迪的世界》全套30集动画(课程+音频)吊打奶茶的夏日清爽返场!还更便宜了,30秒就能get!《鱼儿笑》&《风雨浓》仅用7分钟!“女外卖员深夜送餐回来车子被偷”的视频就成了爆款....震惊!美动物园“雄性”大猩猩产子 工作人员被哺乳画面吓傻多伦多动物园敦促游客:不要给大猩猩看视频!缅甸诈骗集团提出“删视频就放人”,卧底记者照做,1小时人就被送到国门见证了世界移民史奇迹的绿酱新鲜生活有“折”了?!速来get新玩法升级版《楚门的世界》,真实而残酷3周收益近7万元,在支付宝发视频就有钱赚?性高潮是一种什么体验?自己就能get的快乐,一文说透!第一章 个体的行为法则(全文)破4,000万人口就举国欢庆?加拿大的嗨点,你也能getOpenAI首次收购曝光!团队曾克隆《我的世界》,GPT要搞游戏了?又一头大猩猩被杀,当地人为何要向国家公园“复仇”安守内心,丰盈岁月 《谁念西风——尔雅散文自选集》跋猩猩学会玩《我的世界》,方法竟和GPT-4智能体相通?井贤栋:大模型不是新技术,它是一个全新的世界!这种图,眼睛看一遍就学会了!怎么搞定娃的一日三餐?有它在,挑食娃都能get好胃口中文表达可以多美?这些句子读一遍赞一遍 | 精选今夏最流行什么包?我们挑了23只!百元就能get到!建议所有女性都看一遍!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。