大猩猩也会玩《我的世界》了,看一遍视频就能get新技能
训练大猩猩和训练AI有不少通用的技巧。
In-context 强化学习:当 Kanzi 在游戏中达到标记的里程碑时,他会得到水果或花生作为奖励,激励他遵循游戏内的指导。
人类反馈强化学习(RLHF):Kanzi 并不完全理解语言,但他能看到训练师为他加油,他偶尔也会回应加油!这为他提供了一个强烈的信号,表明他走在正确的道路上。
模仿学习:训练师向 Kanzi 展示了一个任务的示范做法,而且只展示了一次,它就理解了其中的概念。这比仅仅使用奖励更加高效。
课程学习:他们从非常简单的环境开始,逐渐教会 Kanzi 控制技能。最终,Kanzi 能够在复杂的洞穴、迷宫和下界之间前行。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章