谷歌RT-1模型让一个机器人干几份活,700条指令成功率达97%
新智元报道
新智元报道
【新智元导读】Transformer在CV、NLP等领域可谓是大放异彩,这次Google的最新研究将Transformer应用在机器人模型处理上,来看看有多惊艳。
RT-1模型具体原理
图像tokenization:我们通过在 ImageNet 上预训练的 EfficientNet-B3 模型传递图像,然后将生成的 9×9×512 空间特征图展平为81个标记。图像分词器以自然语言任务指令为条件,并使用初始化为身份的 FiLM 层在早期提取与任务相关的图像特征。 动作tokenization:机器人的动作维度是手臂运动的 7 个变量(x、y、z、滚动、俯仰、偏航、夹具打开),3 个基本运动变量(x、y、偏航),以及一个额外的离散变量在三种模式之间切换。 Token压缩:该模型自适应地选择图像Token的软组合,这些组合可以根据它们对使用元素注意模块TokenLearner 进行学习的影响进行压缩,从而使推理速度提高2.4倍以上。
整合异质数据源
实验结果
可见任务表现(Seen tasks performance):在训练期间观测的任务表现; 不可见任务表现(Unseen tasks performance):在看不见的任务上的表现,其中技能和对象在训练集中是分开的; 稳健性(Robustness):在干扰因素介入期间的性能和背景变化(新厨房、照明、背景场景)的性能表现 远景场景(long-horizon scenarios):真实厨房中SayCan类自然语言指令的执行
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章