谷歌RT-1模型让一个机器人干几份活，700条指令成功率达97%

2022-12-16 06:12

编辑：Joey

机器学习 (ML) 研究的多个子领域（如计算机视觉和自然语言处理）的许多最新进展，都是建立在利用大型、多样化的数据集和能够有效吸收所有数据的表达模型。

但这种高性能模型方法在机器人技术领域的应用却相对较少。

原因很简单，首先缺乏大规模和多样化的机器人数据，限制了模型吸收广泛机器人经验的能力。

其次，缺乏可从此类数据集中学习并有效泛化的表达力强、可扩展且速度足够快的实时推理模型。

而这次，谷歌推出的Robotics Transformer 1 (简称RT-1)是一种多任务模型，它可以标记机器人输入和输出动作（例如，相机图像、任务指令和电机命令）以在运行时实现高效推理，并使实时控制成为可能。

RT-1吸收了大量数据，让机器人胜任不同环境下的多种任务，从而提升机器性能和泛化能力

简单来说，就是让一个机器人同时干几份活。

该模型是在一个包含130k个episode的大型真实世界机器人数据集上训练的，该数据集涵盖700多项任务，使用Everyday Robots (EDR) 的13台机器人在17个月内收集而成。

结果表明，与现有技术相比，RT-1可以显著改进对新任务、环境和对象的零样本泛化。

Github链接小编也贴心地放在下面啦，有兴趣的小伙伴赶紧去看看。

https://github.com/google-research/robotics_transformer

RT-1模型具体原理

RT-1建立在Transformer架构上，它能从机器人的相机中获取图像历史记录并以自然语言表达的任务描述作为输入，同时直接输出标记化的动作。

RT-1的架构类似于仅解码器序列模型（decoder-only sequence model）的架构，该模型针对具有因果掩蔽的标准分类交叉熵目标进行训练。

该模型将文本指令和一组图像作为输入，通过预训练的 FiLM EfficientNet 模型将它们编码为标记，并通过 TokenLearner 对其进行压缩，然后经Transformer输出动作标记

其主要功能包括：图像词元化（Image Tokenization）、动作词元化（Action Tokenization）和词元压缩（Token Compression ）。

图像tokenization：我们通过在 ImageNet 上预训练的 EfficientNet-B3 模型传递图像，然后将生成的 9×9×512 空间特征图展平为81个标记。图像分词器以自然语言任务指令为条件，并使用初始化为身份的 FiLM 层在早期提取与任务相关的图像特征。
动作tokenization：机器人的动作维度是手臂运动的 7 个变量（x、y、z、滚动、俯仰、偏航、夹具打开），3 个基本运动变量（x、y、偏航），以及一个额外的离散变量在三种模式之间切换。
Token压缩：该模型自适应地选择图像Token的软组合，这些组合可以根据它们对使用元素注意模块TokenLearner 进行学习的影响进行压缩，从而使推理速度提高2.4倍以上。