斯坦福机器人炒虾爆火网络,谷歌DeepMind发布机器人最新进展,2024智能机器人元年到来?
作者 | 小戏、王二狗
2024 年,智能机器人开局就给予了我们无限想象。
就在昨日斯坦福华人团队的“炒虾”机器人爆火网络:
大家纷纷惊呼未来科幻电影走进生活,毫不夸张的讲,当这个成本 22 万的开源项目普及再经过一段时间的成本降价后, 2024可能当真是未来的机器人元年!
昨日这个全新移动机器人 Mobile ALOHA给大家带来了无限惊喜,今天该项目的负责人,斯坦福的华人博士 Zipeng Fu 更新了一波后续视频。他将 Mobile ALOHA 带回了家,尝试了诸如洗衣服、扔垃圾、浇花等等一系列“家务活”。
让我们先睹为快 Mobile ALOHA 的表现:
谷歌DeepMind发布智能机器人最新进展
还是在昨日,谷歌 DeepMind 趁热打铁,po 出了一系列关于智能机器人的前沿研究进展,给出了一份名为 《Shaping the future of advanced robotics》 的技术报告,跟上这股东风,让我们一起来了解下目前的智能机器人蕴藏着什么样的潜力吧!
对人类来说,一些事可能天然是很简单的,比如“整理房间”,“做饭”等等,当向一个五岁的小孩发出倒垃圾的指令,他们也会快速的理解语义并进行行动。但是对于机器人这样纯粹的“机械造物”,从简单直接的自然语言到转化为物理世界的行动就要求着机器人具备对世界的高度理解。
那么什么对世界具有高度理解呢?答案呼之欲出——大模型。早在 22 年,谷歌就开源推出了机器人领域的 Transformer——Robotics Transformers(RT-1),并在 23 年成功升级成为了有望实现具身智能的 Robotics Transformers 2(RT-2)
而在 RT 系列的基础上,在这篇技术报告中,谷歌又官宣了 AutoRT、SARA-RT 和 RT-Trajectory 三种技术,帮助应用于现实世界中的智能机器人提高数据收集能力、学习速度与具备更强的泛化能力。
首先是 AutoRT,见名知义,AutoRT 是一个将大模型与机器人控制模型(RT-1 或 RT-2)结合的 AI Agent 系统,具体而言,AutoRT 被谷歌视为一个“数据收集系统”,旨在扩展机器人的学习能力,以使其更好的训练并适应现实世界。
AutoRT 可以同时指挥多个机器人,每个机器人配置有摄像机与执行操作器,系统使用视觉大模型(VLM)帮助理解环境与视线内的物品,而大模型(LLM)会给机器人一系列待执行的任务,譬如移动物品、擦桌子等等。AutoRT 在七个月的评估内可以做到在各种不同的环境下同时协调 20 个机器人,收集了大量多样化的数据,其整体流程如下图所示:
而 SARA-RT,全称 Self-Adaptive Robust Attention for Robotics Transformers 是谷歌提出的为使得 RT 更加精简高效的适用于机器人控制的 Attention 模型架构。SARA-RT 施加在 RT-2 上后,提升 RT-2 模型的准确率超过 10%,并且速度加快 14%。SARA-RT 仍然针对的是 Transformer 的老问题,二次复杂度的注意力模块,而 SARA-RT 提出了一种新的模型微调方法——up-training,up-training 将二次复杂度转化为线性复杂度,大大降低了计算需求,提供了一种加速 Transformer 的通用方法。
最后是 RT-Trajectory,是一个帮助智能机器人更好泛化的系统。回到最开始的问题,许多对人类而言不言自明的任务对机器人而言就要通过多种方式将指令转化为实际的物理运动。而实现这种转化需要模型有高效的数据集进行学习,并在 Learning 的基础上对未知任务有良好的泛化能力。
基于这个出发点,谷歌设计了 RT-Trajectory 模型,可以获取训练数据集中的每个视频,并在执行任务时将其与机器人手臂夹具的 2D 轨迹草图进行叠加,这些轨迹将以 RGB 图像的形式为模型提供视觉上的提示。RT-Trajectory 通过将自然语言中比如向左移动、向右移动这类模糊的控制话语转化为了特定的机器人运动,从而大大提升了模型的泛化能力。
叠加 AutoRT、SARA-RT 和 RT-Trajectory,可以看到一个更强大也更现实的真正智能机器人已然在不远的未来等待我们,不论是已经给予我们视觉震撼的 Mobile ALOHA,还是更加底层的AutoRT、SARA-RT 和 RT-Trajectory 等技术,2024 年希望在机器人领域给我们以新的,如 GPT-4 那样的震撼吧!
微信扫码关注该文公众号作者