仅用1个小时,这只机器狗从零开始学会了自己走路!
一只机器狗(上图)正在空中挥舞着它的四肢,样子就像一只被激怒的甲虫。在经历了10分钟左右的挣扎后,它成功地翻了个身。半小时后,这只机器狗像一只刚出生的小牛那样,开始笨拙地迈出了自己的第一步。而一个小时之后,这只机器狗已经可以自信地在实验室里昂首阔步了。
这个四条腿的机器人的特别之处在于,它在没有通过计算机模拟演示该如何去做的情况下,能够自己学会完成所有这些事情。
加州大学伯克利分校的 Danijar Hafner 和同事们使用了一种名为强化学习(Reinforcement Learning,2017年《麻省理工科技评论》“全球十大突破性技术”之一)的人工智能技术,通过奖励算法所需的行为来训练算法,从而训练机器人在现实世界中学会从零开始走路。该团队还使用同样的算法成功地训练了另外三个机器人,比如其中有一个机器人能够捡起小球,并将它们从一个托盘转移到另一个托盘中。
通常来说,机器人在现实世界中尝试做任何事情之前,都要在计算机模拟器中接受训练。例如,一对名为 Cassie 的机器人腿,通过强化学习学会了走路,但这是在它完成了计算机模拟之后。
“问题在于你的模拟器永远不会像真实世界那样准确,里面总会有缺失的方面。”Hafner 说道。Hafner 曾与同事 Alejandro Escontrela 和 Philipp Wu 一起参与项目,并且现在是 DeepMind 的实习生。他认为,要让模拟器的课程与现实世界相适应,还需要额外的工程。
该团队的算法被称为 Dreamer,它利用过去的经验建立了一个周围世界的模型。Dreamer 还允许机器人通过预测其潜在行为的潜在未来结果,在计算机程序而非现实世界中进行试错计算。这使得它的学习速度比单纯的去做要更快。一旦机器人学会了走路,它就会不断学习适应意想不到的情况,比如抵抗被一根棍子推倒。
纽约大学专攻机器人和机器学习的计算机科学助理教授 Lerrel Pinto 说:“通过试错来教机器人是一个难题,这种教学需要很长时间的训练,并让问题变得更加困难。”他认为,Dreamer 证明了深度强化学习加上世界模型能够在非常短的时间内教会机器人新技能。
俄勒冈州立大学的机器人学教授 Jonathan Hurst 表示,这些尚未经过同行评审的发现清楚地表明,“强化学习将成为未来机器人控制的基石工具。”
从机器人训练中移除模拟器有很多好处。Hafner 说,该算法可以教会机器人如何在现实世界中学习技能,并适应硬件故障等情形。例如,机器人可以在一条腿的马达出现故障的情况下学习走路。
爱丁堡大学的人工智能助理教授 Stefano Albrecht 表示,这种方法在应对更复杂的事情上也有巨大的潜力,比如需要复杂昂贵的模拟器的自动驾驶。Albrecht 还表示,新一代的强化学习算法可以“超级快速地掌握现实世界环境的运作方式”。
但 Pinto 认为,还有一些大问题尚未解决。
通过强化学习,工程师需要在他们的代码中明确哪些行为是好的并可因此获得奖励,以及哪些行为是不可取的。在这种情况下,翻身行走是好的,不行走则是不好的。Pinto 说:“专家们需要为他们希望机器人解决的每一个任务或问题做这样的工作。”这是非常耗时的,而且很难为意想不到的情况编写相应的行为。
Albrecht 认为,虽然模拟器可能不准确,但世界模型也可能不准确。他说:“世界模型从无到有,所以最初来自这些模型的预测将无处不在。”他们需要一段时间才能获得足够的数据,从而使其变得准确。
Hafner 说,在未来,教机器人理解口头指令会很不错。Hafner 表示,该团队还希望将摄像头连接到机器狗身上,以赋予它视觉。这将使它能够在复杂的室内场景中进行导航,比如走到一个房间,寻找目标物,以及——是的!——玩接球游戏。
近些年,随着强化学习这项技术的快速发展,机器人在灵巧性、敏捷性等方面取得了巨大的进步。除了上述可以自己学会行走的机器狗之外,以波士顿动力公司生产的 Atlas 为代表的人形机器人,则能完成更加引人注目的肢体动作。
Atlas 不仅外形像人,其惊人的“跑酷”能力更是展现了人类一般的敏捷性。不仅可以在狭窄的道路上快速奔跑,还能在崎岖的地形中自由跳跃,甚至能完成翻跟斗等高难度动作。
相较于传统机器人,这种敏捷机器人(Agile Robots,2014年《麻省理工科技评论》“全球十大突破性技术”之一)可以更少的依赖于预先设置的程序,并且在强化学习的帮助下,学会掌握不同的技能来完成各项任务。
参考资料:
https://www.technologyreview.com/2022/07/18/1056059/robot-dog-ai-reinforcement/
微信扫码关注该文公众号作者