大猩猩也会玩《我的世界》了，看一遍视频就能get新技能

公众号新闻

2023-08-12 05:08

机器之心报道

编辑：张倩

训练大猩猩和训练AI有不少通用的技巧。

在教会 GPT-4 玩《我的世界》（Minecraft）之后，人类也教会了大猩猩玩这款游戏。

图中的这个大猩猩名叫 Kanzi，是一个 42 岁的倭黑猩猩（bonobo）。它会通过点击触摸屏来玩游戏：点击屏幕中央向前移动；触摸侧面环顾四周。如果表现出色，研究人员会给予奖励，比如花生或其他零食。

或许是因为之前玩过一些游戏，Kanzi 刚坐到屏幕前就进入了状态，几秒钟就学会了如何操作角色前进。只要它能到达指定区域，屏幕上就会出现零食的图案，同时工作人员也会给它对应零食。在这样的奖励机制下，Kanzi 很快学会了如何在游戏里行走。

接下来的测试任务是在游戏里使用工具（屏幕上方的某个按键）击碎一些积木块。这对 Kanzi 来说有点难度，因为这个操作没有在 Kanzi 之前玩的任何游戏中出现过。为了给 Kanzi 提示，工作人员一直指着屏幕上方的按钮，但 Kanzi 依然不得要领。

无奈之下，工作人员只好换了一种方法：让 Kanzi 看一遍人类示范。

Kanzi 看得很认真，也在积木被击碎时拿到了零食。于是，工作人员决定让它自己试一下。

终于，在走到积木前时，Kanzi 找到了上方的按钮，成功把积木击碎，这引得工作人员一阵欢呼。

经过这两个任务，Kanzi 已经掌握了两项基本技能：在环境中收集零食以及把积木打碎。工作人员接下来的目标是让 Kanzi 在一个全新的环境中利用这些技能并让网线另一端的一位人类玩家相信它是真人。

在此之前，Kanzi 被安排在一个特制的洞穴环境中强化技能，只有打破一道一道的积木墙，Kanzi 才能到达洞穴尽头。

在一路打怪升级的路上，Kanzi 熟悉了刚刚才学到的新技能。不过，它也有被卡在墙角的时候，这种情况下它会寻求工作人员帮助，并在脱困后径直走向积木墙继续通关。

最终，在几乎没有多少帮助的情况下，Kanzi 顺利通过，达到了洞穴尽头。这也意味着，Kanzi 已经做好了去迷惑人类玩家的准备。

在测试过程中，人类玩家被告知他将与一个特殊的玩家一起玩游戏。当然，他也注意到了一些不寻常的行为，例如，Kanzi 在游戏中的移动速度较慢，而且他的操作方式与普通玩家有所不同。但他万万没想到，自己的游戏伙伴是一只大猩猩。因此，当真相揭晓时，Tommy 的反应既震惊又兴奋。

这项与人类玩家一起进行的测试被工作人员称为「多人」模式，接下来，他们又让 Kanzi 挑战了《我的世界》中其他的环境类型，包括乡村、沙漠神殿、下界传送门等等。Kanzi 一路通关，走到了游戏终点。

这个视频在国外视频网站引起了很多人关注。视频制作者、YouTube 博主 ChrisDaCow 的本意是呼吁人类关注野生动物，看到这些动物有趣的一面。

视频链接：https://www.youtube.com/watch?v=UKpFoYqN9-0

不过，在 AI 研究者眼中，这不仅仅是有趣那么简单。他们观察到了一些与智能相关的东西。

英伟达 AI 高级科学家 Jim Fan 表示，他观察到，教 AI 玩《我的世界》和教大猩猩有很多类似的技巧，包括：

In-context 强化学习：当 Kanzi 在游戏中达到标记的里程碑时，他会得到水果或花生作为奖励，激励他遵循游戏内的指导。
人类反馈强化学习（RLHF）：Kanzi 并不完全理解语言，但他能看到训练师为他加油，他偶尔也会回应加油！这为他提供了一个强烈的信号，表明他走在正确的道路上。
模仿学习：训练师向 Kanzi 展示了一个任务的示范做法，而且只展示了一次，它就理解了其中的概念。这比仅仅使用奖励更加高效。
课程学习：他们从非常简单的环境开始，逐渐教会 Kanzi 控制技能。最终，Kanzi 能够在复杂的洞穴、迷宫和下界之间前行。

「大猩猩的视觉系统如此强大也让我感到惊讶。Kanzi 一生都没见过《我的世界》，他的祖先肯定也没见过。但他很快就适应了《我的世界》里与自然世界截然不同的纹理和物理。这种泛化水平远远超出了我们今天最强大的视觉模型所能做的。我们又一次陷入了莫拉维克悖论：我们最好的人工智能在理解语言方面接近人类的水平，但在解析像素方面远远落后于动物。」Jim Fan 评价说。

莫拉维克悖论是由人工智能和机器人学者所发现的一个和常识相左的现象。和传统假设不同，人类所独有的高阶智慧能力只需要非常少的计算能力，例如推理。但是无意识的技能和直觉却需要极大的运算能力。这个理念是由汉斯・莫拉维克、布鲁克斯、马文・闵斯基等人于 1980 年代所阐释。如莫拉维克所写：「要让电脑如成人般地下棋是相对容易的，但是要让电脑有如一岁小孩般的感知和行动能力却是相当困难甚至是不可能的。」

但有人对此提出了质疑，认为 Kanzi 其实只是为了得到奖励才一直继续，「它根本不知道发生了什么，」也并没有真正学会玩《我的世界》。

对此，有人反驳说，「这被称为刺激反应学习，或操作性条件反射。这是包括你在内的所有动物学习的基本方式之一。这是很容易理解的。这并不是贬低学习，这是学习的本质。」

这个实验有趣的地方还在于，它让人脑洞大开：现在 ChatGPT 和大猩猩都会玩《我的世界》了，如果未来脑机接口发展顺利还会发生什么？

转载请联系本公众号获得授权

投稿或寻求报道：[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章