Redian新闻
>
谷歌打造「终结者」!ChatGPT版最强机器人AGI,动嘴操控007

谷歌打造「终结者」!ChatGPT版最强机器人AGI,动嘴操控007

公众号新闻



  新智元报道  

编辑:桃子 Lumina
【新智元导读】谷歌DeepMind带着全新的模型杀回来了!视觉-语言-动作模型(VLM)即将取代类似ChatGPT的大语言模型。

一觉醒来,大模型的版本又更新了?

火遍全球的大语言模型,已经Out了?

本次版本更新的主角是谷歌DeepMind推出的「视觉-语言-动作」(vision-language-action,VLA)模型!

论文地址:https://robotics-transformer2.github.io/assets/rt2.pdf

根据谷歌内部披露,VLA模型已经接入到机器人身上,能够和现实世界进行互动了!

这个机器人被谷歌命名为Robotic Transformer 2 (RT-2) ,它能够从网络、机器人的数据中学习,还能将这些知识自主转化为有效的指令。

简单来说,你只需要对RT-2画个饼,之后就可以等着RT-2把饼喂到你嘴边了。

网友们纷纷表示:这真是泰酷辣!

谷歌DeepMind负责人表示,

长期以来,计算机在分析数据等复杂任务方面表现出色,但在识别和移动物体等简单任务方面却不尽如人意。通过 RT-2,我们正在缩小这一差距,帮助机器人解读世界并与之互动,让其对人类更加有用。

但俗话说,一口吃不成个大胖子,在RT-2成为RT-2之前,它的前辈Robotic Transformer 1 (RT-1)为RT-2打下了坚实的基础。

RT-1升级RT-2,VLM到VLA


RT-1是一种多任务模型,基于Transformer构建,能够将图像、自然语言指令等作为输入,并直接输出标记化动作。

RT-1 的架构:该模型采用文本指令和图像集作为输入,通过预先训练的 FiLM EfficientNet 模型将它们编码为token,并通过 TokenLearner 压缩它们。然后将这些输入到 Transformer 中,Transformer 输出操作token

因此,与一般机器相比,RT-1具有更好的性能和泛化能力。

其中,RT-1所搭载的视觉语言模型(vision-language models ,VLMs)扮演了关键角色。

VLM在互联网级的数据集上进行训练,因此在识别视觉、语言和跨语言合作这块具有极高水平。

在RT-1基础上升级过的RT-2仍以VLM 为基础,是谷歌研究员在办公室、厨房等环境中使用13个RT-1的17个月数据上进行训练的。

但RT-2比RT-1多了一个机器动作(action)的模态。

为了解决模型对机器控制的挑战,研究人员将RT-2的机器操作设置为模型的输出标记,并将其描述为可以由标准自然语言标记器处理的字符串,如下所示:

RT-2 训练中使用的动作字符串的表示形式。这种字符串的示例可以是机器人动作标记编号的序列,例如「1 128 91 241 5 101 127 217」

于是,解决加入动作模态(action)将模型与机器进行联结的挑战后,VLM就升级为了VLA。

RT-2也在一系列的升级换代后,显示出了惊人的学习能力和理解能力:

它能够自己解释全新的命令,通过执行基本推理来响应用户的要求。

甚至在与思想链推理结合的情况下,RT-2能够执行多阶段的语义推理。

如,决定哪个物体可以用作临时的锤子(石头),或者哪种类型的饮料最适合疲倦的人(一种能量饮料)。

RT-2架构和训练:针对机器人和网络数据共同微调预训练的VLM模型。生成的模型接收机器人看到的图像并直接预测机器人要执行的动作

泛化能力提升62%


研究人员在在RT-2模型上进行了一系列定性和定量实验,一共进行了6,000多次机器人试验。

具体来讲,谷歌团队探索了RT-2的三项技能:

- 符号理解
- 推理

- 人类识别

以上的每项任务都需要理解视觉语义概念,以及执行机器人控制的能力。

比如,让RT-2去捡起从桌子上掉下来的袋子,或者将香蕉放到2+1之和的数字的命令。

其中要求机器人对数据中从未见过的物体或场景执行操作任务,将知识从基于网络的数据转化为可操作的。

数据中不存在的技能示例,需要通过网络预训练进行知识迁移 

在所有类别中,研究人员观察到,与之前的基线(例如之前的RT-1模型和Visual Cortex (VC-1) 等模型)相比,泛化性能提高了3倍以上,这些模型是在大型视觉数据集上进行预训练的。

紧急技能评估的成功率:RT-2 模型优于RT-1和VC-1基线

此外,研究人员还进行了一系列定量评估,首先是机器人数据中有实例的原始RT-1 任务,然后对机器人先前未见过的物体、背景和环境。

以上的任务可以让机器人从VLM预训练中学习泛化。

机器人以前未见过的环境示例

RT-2保留了数据中「看到」的原始任务的能力,并提高了机器人在以前未见过场景中的性能,从RT-1的32%提高到了62%。

研究人员还观察到,与仅视觉任务预训练的基线相比有显着改进,例如VC-1和机器人操作的可重用表示 (R3M),以及使用VLM进行对象识别的算法。

RT-2 在可见的分布内任务上取得了高性能,并且在分布外未见的任务上优于多个基线。

团队还在开源语言表(Language Table)机器人任务套件上评估了模型,模拟中的成功率高达90%,比BC-Z(72%)、RT-1(74%)和LAVA(77%)等以前的基线模型有了大幅提高。

然后,他们还在现实世界中评估相同的模型,并展示了其泛化到新对象的能力。

如下所示,其中除了蓝色立方体之外,没有任何物体出现在训练中数据集。

RT-2在真实机器人语言表任务中表现良好

受到LLM中使用的CoT方法的启发,研究人员还将机器人控制与思维链推理相结合,以便能够在单个模型中学习长期规划和低级技能。

特别是,对RT-2的变体进行了几百个梯度步骤的微调,以提高其联合使用语言和动作的能力。

然后,研究人员还对数据进行了扩充,添加了一个额外的「计划」步骤。

首先用自然语言描述机器人即将采取的动作的目的,然后是「动作」和动作标记。

示例如下:

思想链推理能够学习一个独立的模型,该模型既可以规划长期技能序列,又可以预测机器人的动作

通过此过程,RT-2可以执行更多复杂的命令,这些命令需要推理完成用户指令所需的中间步骤。

得益于VLM主干,RT-2还可以根据图像和文本命令进行规划,从而实现基于视觉的规划。

通用机器人前景


RT-2的最新研究表明,视觉语言模型(VLM)可以转化为强大的视觉语言动作(VLA)模型。

通过将VLM预训练与机器人数据相结合,可以直接控制机器人。

基于大模型PaLM-E和PaLI-X的两个实例化,RT-2提升了机器人的策略。

更重要的是,还带来了显着更好的泛化能力、以及应对突发问题的能力,继承了网络规模的视觉语言预-训练。

RT-2不仅是对现有VLM模型的简单,而有效的修改,而且还展示了构建通用实体机器人的前景。

该机器人可以推理、解决问题和解释信息,以在现实中执行各种任务世界。

或许,机器人总动员中,那个聪明的瓦力离我们不远了。


参考资料:
https://twitter.com/GoogleDeepMind/status/1684903412834447360
https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action?utm_source=twitter&utm_medium=social&utm_campaign=rt2



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Python 吞噬世界,GPT 吞噬 Python!ChatGPT 上线最强应用:分析数据、生成代码都精通人形机器人成新风口!探馆世界机器人大会:"机器人+制造业"国产替代加速ChatGPT之父反驳马斯克/高考生喊话取消调休/刘慈欣也用ChatGPT写稿|灵感周报ChatGPT 又断网了!OpenAI 暂时下线 ChatGPT 搜索功能,只因绕过付费墙?真能听懂人话!机器人ChatGPT来了,谷歌发布又一AI大模型黑科技三十二 肃反亚马逊自研AI芯片超车,微软开放Bing AI扩张,谷歌打造云端AI开发平台|前哨今天,ChatGPT「代码解释器」正式解禁!30秒图片变视频,动嘴做表 | 十大惊人魔法全集微软发布基于LLM的代码生成神器,动动嘴就能写代码!场面震撼!9个「世界最强」机器人同登台,亮相联合国AI机器人发布会ChatGPT「看图说话」大变身!动嘴传图秒解答,幕后新模型GPT-4V亮相最强机票省钱攻略!原来之前都买错了!回国的朋友赶紧收藏!当汽车人从「制造者」变成「开发者」,他们需要什么样的工具?拒绝花架子!盘点ChatGPT最强的七个插件:写提示词、学外语、总结视频,让ChatGPT做你的私人秘书谷歌正在像训练人工智能聊天机器人一样训练机器人地平线机器人生态负责人胡春旭:打造智能机器人开发新范式|直播预告耗时2年,Meta联手CMU打造最强「通用机器人智能体」!上茶擦碗多面手,轻松泛化100多种未知任务ChatGPT 再次成为焦点:学生放弃导师,改用 ChatGPT 自学!科技与狠活席卷高校?如何能够战无不胜?2023上海高考作文:ChatGPT版能给几分?AI之下没有秘密:网友诱骗ChatGPT激活 Windows 11,ChatGPT落入陷阱!三十一 插秧新款Model 3「终极爆料」!科技配置重大升级、操控性提升…20万,太值了对机器学习感兴趣?不如先来实践一下!|《ChatGPT聊天机器人语义情绪波动检测》机器人可“自我学习”!谷歌DeepMind发布首个机器人算法模型,“潘多拉魔盒”打开了?【城事】巴黎市长将重修Châtelet 广场以方便行人谁能「终结」巨幅「重油餐具壁画」?顶级洗碗机超量净洗PKChatGPT不再局限于2021年之前的数据;Meta发布AI聊天机器人;李嘉诚捐6000万港元发展AI医疗教学丨AIGC日报GPT-4被骗进「盗梦空间」!IBM发现ChatGPT极易受骗,微软发起红队攻击再投八个亿,谱写新篇章巴黎市长将重修Châtelet 广场以方便行人任意场景,动嘴就能创建专属AI智能体小队的AutoAgents来了Python吞噬世界,GPT吞噬Python!ChatGPT 上线最强应用:分析数据、生成代码都精通5082 血壮山河之武汉会战 黄广战役 14Python 吞噬世界,GPT 吞噬 Python!ChatGPT 上线最强应用
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。