Redian新闻
>
从观察、思考到行动,深度强化学习大牛Pieter Abbeel谈如何驯服机器人

从观察、思考到行动,深度强化学习大牛Pieter Abbeel谈如何驯服机器人

公众号新闻

机器之心报道

编辑:大盘鸡

这样学,还能那样学。

人类的大脑具有学习新事物的能力,而且学习方式多种多样,从模仿他人到观看在线解说视频,不一而足。如果机器人也能这样做呢?2021 年 ACM 计算奖获得者 Pieter Abbeel 的职业生涯一直在研究这个问题。

Pieter Abbeel 是 Covariant 的创始人之一。Covariant 是一家人工智能机器人公司,致力于构建一个通用的人工智能,使机器人能够在现实世界中学习和操作,以协助人类完成繁重和劳累的任务,尤其是在仓储和物流行业中。

Covariant 的创始人陈曦、Pieter Abbeel、段岩、张天浩(从左到右)

通过与仓储公司的合作,Covariant 的核心技术「Covariant Brain」能够接触到大量现实生活中物体,从数百万次的拾取任务中学习。Covariant Brain 能够使机器人看、思考并行动。在学习过程中不仅学习既有动作,还通过学会如何学习(元学习)来抓取任何不熟悉的物品,无论形状、大小或包装如何。

最近,ACM 邀请到 Pieter Abbeel,聊一聊有关他的工作,以及那些他为更轻松「教」机器人学习而开发的技术。以下为机器之心对本次访谈进行了不改变原意的编译与整理。

ACM:让我们从深度强化学习和你开发的名为 「信赖域策略优化 」的方法开始。这种方法是如何工作的,你又是如何开发出来的?

Pieter Abbeel:过去,要把机器人放在某个地方,比如汽车厂或电子厂。这时你需要把机器人周围的环境布置好,让一切以完全相同的方式重复一遍又一遍。然后,用某种固定的动作序列对机器人进行编程,这样就能完成任务了。这对于结构化的环境非常有效,但当在可预测性稍差的环境中,我们就无能为力了。

我一直认为,当机器人能够适应不同环境时,就会发生重大变革。而要做到这一点,就意味着机器人必须具备学习能力。

ACM:那么如何让机器人学习呢?

Pieter Abbeel:这是我取得博士学位之后一直在研究的问题。从根本上说,主要有两种方法,它们相辅相成:一种是模仿学习或学徒学习,另一种是强化学习。

在模仿学习中,你告诉机器人该做什么,机器人就会从你的例子中学会做这件事。这很好,因为当你想让机器人做某件事时,你通常较为准确地知道需要它做些什么。但挑战在于,你需要给机器人提供大量的示例,这样它才能在面对新场景时进行归纳总结,并完成任务。这可能会变得非常耗时,并且一旦环境发生变化,总会有一些内容超出你所给出例子的范围。

ACM:强化学习是什么?

Pieter Abbeel:强化学习是关于试错的。在这种方法中,不需要向机器人展示该做什么,机器人只是不断尝试,然后系统会告诉它是否成功。因此原则上,你需要先通过模仿学习向机器人展示该做什么,然后让机器人不断试错,从而学习。

ACM:2012 年,ACM 图灵奖获得者 Geoff Hinton 证明,只要有足够的视觉数据,深度神经网络在训练后就能表现出前所未有的模式识别能力。我想这启发了你,使你的强化学习框架中的模式识别功能更加强大。

Pieter Abbeel:在强化学习中,机器人会自己做一些事情,但它仍然需要识别好的运行模式与差的运行模式有何不同。我和我的学生 John Schulman 开始尝试使用深度神经网络,看看能否改进强化学习算法中的模式识别器。但事实证明,强化学习算法比标准的监督学习要脆弱得多。在监督学习中,有一个输入,输出是一个标签,你只需要识别模式。而在强化学习中,机器人需要在从未运行过的情况下学会运行。在这过程中,信号不多,噪音很大。

ACM:因此,你尝试既要提高模式识别,又要让算法更加稳定。

Pieter Abbeel:我们需要能够保证机器人在持续改进。如果机器人观察最近的经验,它将更新模式识别器。而模式识别器是一种神经网络策略,用于接收当前的传感器输入并生成电机指令。我们知道,如果能想出一种方法让机器人在每一步都能持续改进,那么就有了利用这些庞大神经网络进行强化学习的真正基础。

ACM:这就是信赖域策略优化的作用所在了。

Pieter Abbeel:在传统强化学习中,我们会进行一系列试验,然后计算梯度,找出进步最大的方向。信赖域策略优化定义了一个信赖区域:一个我们知道可以信赖梯度的区域。梯度是 landscape 的一阶线性近似值。我们知道 landscape 不是线性的,但在局部它能够以这种方式近似为线性。因此,我和 John Schulman 想出了一种方法,来量化可以信赖这种线性近似的区域。接下来,我们只需在该区域内迈出一步,就能保证改进效果。

ACM:重复这样做,你就为强化训练打下了值得信赖的基础。

Pieter Abbeel:没错!我们在 YouTube 上有一段视频 ,你可以在视频中看到整个过程。机器人只是不断尝试,不断摔倒,但随着时间的推移,它真的开始运行了。学习的妙处在于,一旦你有了学习算法,你就不需要重新编程,只需再次运行学习算法,它就能学会在新情况下需要什么。


视频来源:https://bit.ly/3nZrQhs

ACM:你创立的公司 Covariant 正试图通过制造一个通用的机器人大脑来商业化这个想法。

Pieter Abbeel:我们的目标是提出一种方法,使机器人能够在学习什么以及如何学习方面通用。当然,机器人不能通过学习过操作堆乐高积木然后学会飞行,堆积木并不是学习飞行的正确数据集,但是代码可以是相同的。就像人类学习如何骑自行车或驾驶汽车,在人脑中,思路都是一样的。

ACM:Covariant 也在为商业应用构建机器人,特别是仓储取放机器人。

Pieter Abbeel:我们可以赋予机器人超越预先编程的固定动作序列的新技能,即使它们不是完全通用的。从我们的学术研究中我们知道这是可能的,我们开始考虑创建 Covariant。我们想到,机器人现在应该具备有用性。另外,我们的产品开发是数据驱动的,如果想要收集大量的数据,则需要制造出真正能激发人们购买需要的机器人。

ACM:当你在 2017 年创建 Covariant 时,自动驾驶汽车获得了大量的资金。是什么吸引了投入仓储取放机器人?

Pieter Abbeel:我们希望找到一个领域,它不需要实时干预,而是在极少数情况下才需要人工支持。实时人工干预很昂贵,无法体现机器人做事的价值。使用机器人操作,你仍然需要非常高的精度,但一旦机器人没有像预期的那样运行,就会有人介入并进行快速修复。

我们研究了许多不同的公司、行业和应用,最后我们把目光集中在仓储上,因为它似乎是一个自然而然的起点,原因有二。首先,取放是机器人几乎所有操作的基础。第二,这是一个快速发展的行业,真正需要自动化来支持我们所有的在线传送。在拾取和放置过程中没有自动化,这种非常重复的工作是对人类来说是很伤脑筋的。

ACM:你还与人共同教授一门关于 AI 业务的课程。你从向非专业人士教授 AI 中发现了什么?

Pieter Abbeel:我决定教授这门课程的原因之一是,我认为对 AI 的基本了解对做出商业决策很重要。许多公司将以某种方式使用 AI 人工智能,无论是在内部开发还是购买某种服务。商业专业的学生必须能够理解今天可能发生的事情,以及在不久的将来可能发生的事情,以及如何评估不同的系统。

这很有趣,因为对于从未真正研究过 AI 的人来说,这有点像解释一个魔术。就其核心而言,AI 是很好解释的。如果你想把它推向下一个技术前沿,你需要大量的训练,但理解基本概念并不需要多年的学习。

原文链接:https://cacm.acm.org/magazines/2023/9/275705-how-many-ways-can-you-teach-a-robot/fulltext
参考链接:
https://redian.news/wxnews/436445




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Transformer+强化学习,DeepMind让大模型成为机器人感知世界的大脑《谢谢你,上海!》「犹太难民与上海」展览来纽约啦新的复盘、思考与几句心里话8大人形机器人参数对比来了!特斯拉、稚晖君的机器人究竟如何?|前哨分享脑内障的症状是发出动物的叫声心若兰兮终不移Transformer+强化学习,谷歌DeepMind让大模型成为机器人感知世界的大脑北京内推 | 微软亚洲研究院数据知识智能组招聘强化学习方向研究实习生机器学习泰斗Michael Jordan最新报告:去中心化机器学习中的契约、不确定性和激励AIGC日报丨Meta向创作者支付数百万美元打造AI聊天机器人;强化学习之父萨顿加入传奇程序员卡马克AI创企重磅课程再次升级,一次性搞定大模型多模态AIGC与强化学习 --《2023秋季AIGC大模型与强化学习前沿技术实战》 招生简章简化生活的35个行动,让你过得高效又轻松 | 一个行动,胜过十个计划ABCNet、Deep TextSpotter、SEE、FOTS…你都掌握了吗?一文总结OCR必备经典模型(三)攀爬、跳跃、过窄缝,开源强化学习策略让机器狗能跑酷了NeurIPS 2023 | 扩散模型解决多任务强化学习问题大模型加持的机器人有多强,MIT CSAIL&IAIFI用自然语言指导机器人抓取物体如何驯服AI大模型“能耗巨兽”狂揽4k star,AI通过强化学习玩宝可梦,两万场后成功拿下计算机视觉大牛卢湖川教授当选IEEE Fellow!直击稀缺高薪岗位!大模型AIGC与强化学习秋季研修班现在开启最后2席|FLAG、咨询、投行大牛导师团队手把手带你做实战项目,助你高效学习求职必备Technical,强化面试技巧!刺激,无人机竞速超越顶级人类玩家,强化学习再登Nature封面迪士尼玩起强化学习,新机器人有星球大战那味了强化学习之父入局AGI创业!联手传奇程序员卡马克,放话不依赖大模型机器人瓦力来了!迪士尼亮出新机器人,用RL学习走路,还能进行社交互动芝加哥马拉松训练及房屋修复双碳三周年,从目标到行动|2023《财经》碳中和高峰论坛机器人迎来ImageNet时刻!谷歌等新作Open X-Embodiment:机器人学习数据集和 RT-X 模型DeepMind创始人新书谈如何遏制AI,AI制药成为新的热点有一种浪费叫美国式浪费“浮盈加仓”到底对不对——如何学习大师的经验斯坦福提出对比偏好学习:无需强化学习即可从人类反馈中学习ICML 2023 | RACE:使用进化算法大幅提升多智能体强化学习算法学习Anthropic创始人访谈:Scaling与强化学习,可解释性与AGI安全人形机器人成新风口!探馆世界机器人大会:"机器人+制造业"国产替代加速
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。