Redian新闻
>
谷歌AGI机器人大招!54人天团憋7个月,强泛化强推理,DeepMind和谷歌大脑合并后新成果

谷歌AGI机器人大招!54人天团憋7个月,强泛化强推理,DeepMind和谷歌大脑合并后新成果

公众号新闻
丰色 萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

爆火的大模型,正在重塑谷歌DeepMind的机器人研究。

最新成果之一,就是他们耗时7个月打造的机器人项目RT-2,狠狠在网上火了一把:

效果究竟有多好?

只需用人话下达命令,面前这个小家伙就能挥动机械臂,思考并完成“主人的任务”。

像是给流行歌手霉霉(Taylor Swift)递水、或是辨认明星球队Logo:

甚至能主动思考,让它“捡起已灭绝的动物”,就能从狮子、鲸鱼、恐龙这三个塑料玩具中准确pick恐龙。

用网友的话来说,别小看这个能力,这是实现了从“灭绝的动物”到“塑料恐龙”的逻辑飞跃

更“要命”的是,它还能轻松解决“给疲惫的人选一种饮料”这种需要结合思想链的多阶段推理问题——一听到命令小手就直奔红牛而去,简直不要太聪明。

有网友看完感叹:

等不及了,赶紧快进到给人类洗碗(手动狗头)

据了解,谷歌DeepMind这项成果由54位研究员合作产出,前前后后拉扯7个月,最终才变成我们看到的这样“so easy”。

《纽约时报》介绍称,谷歌DeepMind机器人技术主管Vincent Vanhoucke认为,大模型彻底改变了他们部门的研究方向:

由于(大模型)这一变化,我们不得不重新考虑整个研究项目。

我们之前研究的很多东西,都已经完全失效了。

所以,RT-2究竟能实现什么样的效果,这研究又具体是怎么一回事儿?

将多模态大模型“塞进”机械臂

这个名叫RT-2(Robotic Transformer 2)的机器人项目,是去年年底发布的RT-1的“进化版”。

相比于其他的机器人研究,RT-2的核心优势在于,不仅能理解“人话”,还能对“人话”进行推理,并转变为机器人能理解的指令,从而分阶段完成任务。

具体来说,它具备三大能力——符号理解(Symbol understanding)推理(Reasoning)人类识别(Human recognition)

第一个能力是“符号理解”,能将大模型预训练的知识,直接延展到机器人此前没见过的数据上。例如机器人数据库中虽然没有“红牛”,但它却能从大模型的知识中理解并掌握“红牛”的外貌,并拿捏物品。

第二个能力是“推理”,这也是RT-2的核心优势,要求机器人掌握数学、视觉推理和多语言理解三大技能。

技能一,包含数学逻辑推理的命令,“将香蕉放到2+1的总和的位置”:

技能二,视觉推理,像是“将草莓放进正确的碗中”:

技能三,多语言理解,即使不用英语也能完成指令,例如用西班牙语命令它“从一堆物品中挑出最与众不同的那个”:

第三个能力是人类识别,准确识别并理解人类的行为,像开头看到的“将水递给泰勒·斯威夫特”例子就是能力展现之一。

那么,这三个能力是怎么实现的?

简单来说,就是将视觉-文本多模态大模型(VLM)具备的“推理”、“识别”、“数学”等能力,和机器人的操作能力结合起来。

为了实现这一点,研究人员直接给视觉-文本大模型(VLM)增加了一个模态,叫做“机器人动作模态”,从而把它变成了视觉-文本-动作大模型(VLA)

随后,将原本非常具体的机器人动作数据,转变成文本token。

例如将转动度数、放到哪个坐标点等数据,转变成文本“放到某个位置”。

这样一来,机器人数据也能被用到视觉-语言数据集中进行训练,同时在进行推理的过程中,原本的文本指令也会被重新转化为机器人数据,实现控制机器人等一系列操作。

没错,就是这么简单粗暴(手动狗头)

在这次的研究中,团队主要基于谷歌的一系列基础大模型来“做升级”,包括50亿和550亿的PaLI-X、30亿的PaLI以及120亿的PaLM-E

为了提升大模型本身的能力,研究人员也下了不少功夫,把最近爆火的思维链、向量数据库和无梯度架构(no-gradient architectures)都用上了。

这一系列操作,也让RT-2和去年发布的RT-1相比,具有了不少新优势。

下面就来看看具体的实验结果。

性能可达RT-1三倍

RT-2使用上一代机器人模型RT-1的数据进行训练(也就是说数据没变,只是方法不同了)

这些数据是用13个机器人在办公室搭建的一个厨房环境中耗时17个月收集到的。

在实际测试中(一共历经6000次),作者给了RT-2许多以前未见过的物体,需要RT-2在微调数据之外进行语义理解来完成任务。

结果完成的都相当不错:

包括从简单的识别字母、国旗、人物到从玩偶中识别陆生动物、选出颜色不相同的那只,甚至是捡起快要从桌上掉下去的零食等复杂的命令。

而从符号理解、推理和人类识别这三个细分能力上来看,RT-2的两个变体都比RT-1和另一种视觉预训练方法VC-1要好很多,性能最高可达3倍。

如前文所述,这两个变体分别在120亿参数的PaLM-E和550亿参数的PaLI-X上进行训练。

具体的泛化能力评估上,通过与多个基线模型的多类细分测试,最终发现RT-2性能提高了大约2倍。

(稍显遗憾的是,我们还没看到它和其他团队最新基于LLM的机器人方法进行对比)

而为了更好地理解RT-2的不同设置如何影响泛化结果,作者又设计了两大类评估:

一是在模型尺寸上,仅在RT-2 PaLI-X变体分别采用50亿参数与550亿参数进行训练;

二是训练方法上,分别采用从头开始训练模型vs微调vs协同微调的方法。

最终结果表明,视觉语言模型预训练权重的重要性以及模型泛化能力有随着模型大小而提高的趋势。

另外,作者还在开源语言表基准上评估了RT-2,结果显示它在模拟基准上实现了SOTA结果(90%vs之前的77%)

最后,由于RT-2 PaLM-E变体是一个视觉-语言-动作模型,可以在单个神经网络中充当LLM、VLM和机器人控制器,因此RT-2还可以执行可控的思想链推理。

如下图所示的5个需要推理的任务中(尤其最后一个非常有意思:选择可以替代锤子的物品),它接到命令后会先输出自然语言步骤,然后再给出具体的动作token。

最最后,总结来说,这个最新的RT-2模型,不仅能更好地适用于不同的、机器此前没见过的场景中,泛化能力更好了;与此同时,由于有了更好的大模型加持,它也掌握了一些有难度的新能力,比如推理。

One More Thing

谷歌将机器人研究的重心放在大模型上,似乎也不是“空穴来风”。

就在这两天,他们和哥伦比亚大学合作的一篇关于“用大模型帮助获取更多机器人操作技能”的论文,同样很火:

这篇论文提出了一种新的框架,不仅能让机器人很好地适应大模型,同时还能保留原本机器人的基础操作和控制能力:

和RT-2有所不同的是,这一项目已经开源:

属实是用大模型带动整个机器人部门升级了。

再联想到前不久李飞飞团队的具身智能成果,可以说,用大模型带动机器人着实成为一种研究趋势,且已经让我们看到了一波非常有潜力的进展。

对于这个研究方向,你有哪些期待?

项目地址:
https://robotics-transformer2.github.io/

参考链接:
[1]https://twitter.com/GoogleDeepMind/status/1684903412834447360
[2]https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action
[3]https://www.nytimes.com/2023/07/28/technology/google-robots-ai.html
[4]https://github.com/columbia-ai-robotics/scalingup

「AIGC算力全景与趋势报告 · 量子位智库」下载

AIGC时代,算力成为「硬通货」。当前大模型的发展对算力产生新的需求,算力行业迎来变革机会。机遇当前,量子位智库发布《AIGC算力全景与趋势报告》,扫描下方二维码即可查看完整报告。

8月9日,我们将在北京举办「量子位AIGC行业沙龙——AIGC时代的算力基石」,欢迎感兴趣的企业联系~

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
用AI控制“人造太阳”,DeepMind团队实现可控核聚变新突破前哨速览:SpaceX招聘14岁软件工程师,DeepMind推出新的Alpha AI工具谷歌AGI机器人大招!54人天团憋7个月,强泛化强推理,DeepMind和谷歌大脑合并后新成果|GGViewLLM推理提速2.8倍,CMU清华姚班校友提出「投机式推理」引擎SpecInfer,小模型撬动大模型高效推理机器人可“自我学习”!谷歌DeepMind发布首个机器人算法模型,“潘多拉魔盒”打开了?微软:AI 芯片不够,数据中心恐中断;马斯克:推特月活 5.4 亿创新高;DeepMind 推全新「机器人模型」 | 极客早知道语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路最痛苦的事情就是看到别人走错了路而自己无能为力谷歌机器人大模型RT-2,李飞飞具身智能新成果,Cathie Wood访谈,特斯拉Ashok演讲可与ViT一较高下,DeepMind从稀疏转向Soft混合专家模型DeepMind首提「统一智能体」!大模型做推理,赋能终身学习,AI王者加冕OpenAI新作,直指DeepMind格局小了!大模型复杂推理应逐步验证西湖大学赵世钰最新成果:基于均值偏移的机器人集群队形控制策略[9月26日]科学历史上的今天——金·赫尔尼(Jean Amédée Hoerni)谷歌DeepMind打破十年算法封印,AlphaDev惊世登场,颠覆人类算法格局!谷歌DeepMind发布机器人大模型RT-2,提高泛化与涌现能力|甲子光年杰出华裔女精英上任新职5081 血壮山河之武汉会战 黄广战役 13GPT-3.5逆袭GPT-4!谷歌DeepMind华人天团,让LLM像人类一样制作工具,完胜CoT李飞飞「具身智能」新成果!机器人接入大模型直接听懂人话,0预训练就能完成复杂指令告诉大模型「深呼吸,一步一步来」有奇效,DeepMind发现最有效的提示方法成功预测90%错义突变,DeepMind团队开发新AI模型AlphaMissense,有望解决人类遗传疾病的最大挑战你爱着既是自编码器,也是RNN,DeepMind科学家八个视角剖析扩散模型Transformer+强化学习,DeepMind让大模型成为机器人感知世界的大脑机器人ChatGPT来了:大模型进现实世界,DeepMind重量级突破笑谈邂逅(6)大会发言后还认识了何宝民先生机器人ChatGPT来了!大模型进现实世界,DeepMind重量级突破!ICML 2023杰出论文奖放榜!北大校友一作斩获大奖,华人作者参与三篇,DeepMind苹果纷纷获选人形机器人成新风口!探馆世界机器人大会:"机器人+制造业"国产替代加速OpenAI 又赢麻了!谷歌 DeepMind 创始人刚称 Gemini 能碾压 GPT-4,OpenAI 的挖人大计就出炉了Transformer+强化学习,谷歌DeepMind让大模型成为机器人感知世界的大脑比人类算法快70%!谷歌DeepMind用AI改进数据排序,登上Nature打破十年算法封印,DeepMind发现更快的排序算法李飞飞团队「具身智能」新成果!机器人接入大模型直接听懂人话,日常操作轻松完成!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。