谷歌DeepMind发布机器人大模型RT-2,提高泛化与涌现能力|甲子光年
AI模型将视觉和语言转化为机器人动作。
编译 | 朱悦
7月28日,谷歌DeepMind推出了一款新的机器人模型Robotics Transformer 2(RT-2)。
这是一个全新的视觉-语言-动作(VLA)模型,从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令。
高容量视觉-语言模型(VLMs)在web-scale数据集上训练,使得这些系统非常擅长识别视觉或语言模式并跨不同语言进行操作。但是,要使机器人达到类似的能力水平,需要收集每个物体、环境、任务和情况的第一手机器人数据。
在Google DeepMind的论文中介绍了Robotics Transformer 2(RT-2),一个全新的视觉-语言-动作(VLA)模型,它从网络和机器人数据中学习,并将这些知识转化为机器人控制的通用指令,同时保留了web-scale能力。
这项工作建立在Robotic Transformer 1(RT-1)的基础上。RT-1是一个经过多任务演示训练的模型,可以学习机器人数据中看到的任务和对象的组合。更具体地说,Google DeepMind的工作使用了在办公室厨房环境中用13台机器人在17个月的时间内收集的RT-1机器人演示数据。
RT-2表现出了更好的泛化能力,超越了它所接触到的机器人数据的语义和视觉理解,包括解释新命令并通过执行基本推理(例如关于对象类别或高级描述的推理)来响应用户命令。
Google DeepMind研究团队还展示了将思维链推理纳入RT-2中使其能够进行多阶段语义推理,例如决定哪种物体可以用作一把临时锤子(石头),或者哪种饮料最适合疲倦的人(能量饮料)。
1.采用视觉语言模型进行机器人控制
RT-2以视觉-语言模型(VLMs)为基础,将一个或多个图像作为输入,并生成一系列通常表示自然语言文本的标记。此类VLMs已经在大规模网络的数据上成功训练,用于执行视觉问答、图像字幕或对象识别等任务。在Google DeepMind的工作中,将Pathways Language and Image model(PaLI-X)和 Pathways Language model Embodied(PaLM-E)作为RT-2的支柱。
要控制一个机器人,必须对其进行训练以输出动作。Google DeepMind研究团队通过将动作表示为模型输出中的标注(类似于语言标记)来解决这一挑战,并将动作描述为可以由标准自然语言标记化处理的字符串,如下所示:
在RT-2的训练中,动作字符串的表示方式。这种字符串的示例可以是机器人动作标记编号的序列,例如:“1 128 91 241 5 101 127 217”。
该字符串以一个标志开始,指示是继续,还是终止当前情节不执行后续命令,然后机器人根据指示更改末端执行器的位置和旋转以及机器人抓手所需伸展的命令。
Google DeepMind研究团队使用与RT-1中相同的机器人动作离散版本,并表明将其转换为字符串表示使得可以在机器人数据上训练VLM模型,因为此类模型的输入和输出空间无需改变。
2.泛化和涌现能力
每个任务都需要理解视觉-语义概念,并具备执行机器人控制以对这些概念进行操作的能力。例如,“拿起即将从桌子上掉下来的袋子”或“将香蕉移动到2加1的和”,要求机器人对机器人数据中从未见过的对象或场景上执行操作任务,这需要从网络数据转化而来的知识进行操作。
涌现能力评估的成功率:RT-2模型优于之前的RT-1和VC-1基线。
机器人以前未见过的环境示例,RT-2可以推广到新的情况。
RT-2在分布内可见的任务上实现了高性能,在分布外不可见的任务上优于多个基线。
RT-2在真实机器人Language Table任务中表现良好。在训练数据中,除了蓝色立方体之外,没有其他对象存在。
3.推进机器人控制
END.
微信扫码关注该文公众号作者