Redian新闻
>
谷歌RT-1模型让一个机器人干几份活,700条指令成功率达97%

谷歌RT-1模型让一个机器人干几份活,700条指令成功率达97%

公众号新闻



  新智元报道  

编辑:Joey
【新智元导读】Transformer在CV、NLP等领域可谓是大放异彩,这次Google的最新研究将Transformer应用在机器人模型处理上,来看看有多惊艳。

机器学习 (ML) 研究的多个子领域(如计算机视觉和自然语言处理)的许多最新进展,都是建立在利用大型、多样化的数据集和能够有效吸收所有数据的表达模型。

但这种高性能模型方法在机器人技术领域的应用却相对较少。

原因很简单,首先缺乏大规模和多样化的机器人数据,限制了模型吸收广泛机器人经验的能力。

其次,缺乏可从此类数据集中学习并有效泛化的表达力强、可扩展且速度足够快的实时推理模型。

而这次,谷歌推出的Robotics Transformer 1 (简称RT-1)是一种多任务模型,它可以标记机器人输入和输出动作(例如,相机图像、任务指令和电机命令)以在运行时实现高效推理,并使实时控制成为可能。

RT-1吸收了大量数据,让机器人胜任不同环境下的多种任务,从而提升机器性能和泛化能力

简单来说,就是让一个机器人同时干几份活。

该模型是在一个包含130k个episode的大型真实世界机器人数据集上训练的,该数据集涵盖700多项任务,使用Everyday Robots (EDR) 的13台机器人在17个月内收集而成。

结果表明,与现有技术相比,RT-1可以显著改进对新任务、环境和对象的零样本泛化。

Github链接小编也贴心地放在下面啦,有兴趣的小伙伴赶紧去看看。

https://github.com/google-research/robotics_transformer


RT-1模型具体原理


RT-1建立在Transformer架构上,它能从机器人的相机中获取图像历史记录并以自然语言表达的任务描述作为输入,同时直接输出标记化的动作。

RT-1的架构类似于仅解码器序列模型(decoder-only sequence model)的架构,该模型针对具有因果掩蔽的标准分类交叉熵目标进行训练。

该模型将文本指令和一组图像作为输入,通过预训练的 FiLM EfficientNet 模型将它们编码为标记,并通过 TokenLearner 对其进行压缩,然后经Transformer输出动作标记

其主要功能包括:图像词元化(Image Tokenization)、动作词元化(Action Tokenization)和词元压缩(Token Compression )。

  • 图像tokenization:我们通过在 ImageNet 上预训练的 EfficientNet-B3 模型传递图像,然后将生成的 9×9×512 空间特征图展平为81个标记。图像分词器以自然语言任务指令为条件,并使用初始化为身份的 FiLM 层在早期提取与任务相关的图像特征。
  • 动作tokenization:机器人的动作维度是手臂运动的 7 个变量(x、y、z、滚动、俯仰、偏航、夹具打开),3 个基本运动变量(x、y、偏航),以及一个额外的离散变量在三种模式之间切换。
  • Token压缩:该模型自适应地选择图像Token的软组合,这些组合可以根据它们对使用元素注意模块TokenLearner 进行学习的影响进行压缩,从而使推理速度提高2.4倍以上。


我们使用人类通过远程操作提供的演示,并用机器人执行指令的文本描述对每一集进行注释。

而这个机器人执行任务靠的是,「7个自由度的手臂、一个两指夹持器和一个移动底座」。

数据集中表示的一组高级技能包括拾取和放置物品、打开和关闭抽屉、将物品放入和取出抽屉、将细长的物品直立放置、将物体打翻等操作。

整合异质数据源


为进一步推动RT-1,我们使用从另一个机器人收集的数据对其进行训练,以测试 (1) 模型在出现新数据源时是否保持其在原始任务上的性能,以及 (2) 模型是否在泛化方面得到提升具有新的和不同的数据。

我们转换收集的数据以匹配我们使用EDR收集的原始数据集的动作规范和边界,并用任务指令标记每个数据集。

然后在每个训练批次中将Kuka数据与EDR数据以1:2的比例混合,以控制原始EDR技能的回归。

图为从多个机器人收集数据时的训练方法

结果表明,RT-1能够通过观察其他机器人的经验来获得新技能。

当RT-1在Kuka的垃圾箱拣选数据和机器人教室的现有EDR数据上进行训练时,仅使用 EDR 数据进行训练时的22% 「准确率跃升了近2倍」,达到39%。


当单独使用来自Kuka的拣选数据训练RT-1,并使用来自EDR机器人的拣选数据对其进行评估时,准确率为0%。

实验结果


为更好地理解RT-1的泛化能力,我们针对三个基线研究了它的性能:Gato、BC-Z和BC-Z XL(即与 RT-1 具有相同数量参数的 BC-Z)。

并将其分为四个类别:

图为测试环境下RT-1与对照组的表现

  • 可见任务表现(Seen tasks performance):在训练期间观测的任务表现;
  • 不可见任务表现(Unseen tasks performance):在看不见的任务上的表现,其中技能和对象在训练集中是分开的;
  • 稳健性(Robustness):在干扰因素介入期间的性能和背景变化(新厨房、照明、背景场景)的性能表现
  • 远景场景(long-horizon scenarios):真实厨房中SayCan类自然语言指令的执行

RT-1 的高性能和泛化能力可以通过SayCan实现远距离、移动操作任务。

SayCan的工作原理是将语言模型置于机器人可供性中,并利用少量提示将以自然语言表达的长期任务分解为一系列低级技能。

我们在两个真实厨房中使用RT-1和其他两个基线(SayCan with Gato 和 SayCan with BC-Z)评估SayCan。

下面,“Kitchen2”构成了比“Kitchen1”更具挑战性的泛化场景。用于收集大部分训练数据的模拟厨房是在 Kitchen1 之后建模的。


可以看到,SayCan with RT-1在 Kitchen1中的执行成功率为 67%,优于其他基线。

由于新的看不见的厨房带来的泛化困难,SayCan with Gato 和 SayCan with BCZ 的性能下降,但RT-1的成功率并没有因此下降。

参考资料:
https://ai.googleblog.com/2022/12/rt-1-robotics-transformer-for-real.html




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
美国名校商科就业率高达97.7%!芝大布斯商学院毕业率赶超哈佛!谷歌新作!Transformer杀入机器人领域!RT-1:97%成功率,轻松完成700多条控制指令!双足机器人的最新就业方向:波士顿动力机器人「进厂搬砖」了!错误的例子证明错误的结论:论“中国队大胜美国队与中国队大败美国队”每秒1000000000000000000次运算!Cerebras新超级计算机打造世界最大1350万核心AI集群简历精修 | 在职面试官手把手指导,海投成功率猛涨70%!机器狗“成精”了!做足球守门员,拦截成功率比人类高18.5%人形机器人火了,带动三大核心产业,机器人时代来临【附下载】| 智东西内参小心!感染一周惨死!脑袋浸水遭啃咬!死亡率高达97%大姨优必选科技冲刺「人形机器人第一股」,中国人形机器人迈入新阶段|氪金·大事件俄军医总局局长:俄军存活率远超苏军,高达97%!你相信吗?ITX主机,RTX3060Ti、RX6800,7000元档杀入扫地机器人红海,这家扫地机器人创企用“黑科技”构筑护城河大半生就爬過一座山工业机器人企业数量全国第一,江苏省工业机器人产业盘点丨智造者专访科沃斯机器人CEO钱程:全场景、多机协同是机器人未来的发展方向等离子体设备细菌消杀有效率达99.9%,Fourth State Medicine将太空技术引入医疗官宣|“有个机器人”完成数亿元C1轮投资,大钲资本领投曝光!中国留学生回国后出大事:多伦多$97万公寓被偷卖!疑是华人干的!DHL花1500万买波士顿动力机器人产品,物流企业正布局机器人生态|科技前哨China’s open-door policy聊天机器人首秀答错一题,谷歌市值蒸发超1000亿美元临床试验有效性达97%,Moderna开发的 HIV 疫苗已在非洲开展临床试验中国2022年新冠首篇重要论文来了!港大发表北京疫情流行病学建模文章,预计本月底感染率达92.3%注意看,这个机器人在C4D里冒险!谷歌机器人迈入「交互语言」新纪元!开放命令正确率高达93.5%,开源数据量提升十倍人生如白驹过隙,哪有时间把玩悲剧?联想拯救者刃 7000K 2023 台式机新配置:i7-13700KF + RTX 3070「高新兴机器人」获5000万A轮融资,专注巡逻机器人|36氪首发普京下令成立协调委员会Desktop(i7-9700f/16gram/RTX 2070super/500gssd/3t HDD)ChatGPT教你写AI包教包会,7段对话写个识别模型,准确度最高达99.7%普京下令成立!服务成功过千例,对接成功率86%,你想找的服务都在这里
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。