Redian新闻
>
谷歌AGI机器人大招!54人天团憋7个月,强泛化强推理,DeepMind和谷歌大脑合并后新成果|GGView

谷歌AGI机器人大招!54人天团憋7个月,强泛化强推理,DeepMind和谷歌大脑合并后新成果|GGView

公众号新闻

GGV有话说:


爆火的大模型,正在重塑谷歌DeepMind的机器人研究。最新成果之一,就是他们耗时7个月打造的机器人项目RT-2,狠狠在网上火了一把。效果究竟有多好?

只需用人话下达命令,面前这个小家伙就能挥动机械臂,思考并完成“主人的任务”。甚至能主动思考,让它“捡起已灭绝的动物”,就能从狮子、鲸鱼、恐龙这三个塑料玩具中准确pick恐龙。

更“要命”的是,它还能轻松解决“给疲惫的人选一种饮料”这种需要结合思想链的多阶段推理问题——一听到命令小手就直奔红牛而去,简直不要太聪明。有网友看完感叹:等不及了,赶紧快进到给人类洗碗吧

据了解,谷歌DeepMind这项成果由54位研究员合作产出,前前后后拉扯7个月,最终才变成我们看到的这样“so easy”。

《纽约时报》介绍称,谷歌DeepMind机器人技术主管Vincent Vanhoucke认为,大模型彻底改变了他们部门的研究方向:由于(大模型)这一变化,我们不得不重新考虑整个研究项目。我们之前研究的很多东西,都已经完全失效了。

所以,RT-2究竟能实现什么样的效果,这研究又具体是怎么一回事儿?

今天的GGView,让我们一起来找到答案


丰色 萧箫 发自 凹非寺

来源:量子位 | 公众号 QbitAI


将多模态大模型“塞进”机械臂

这个名叫RT-2(Robotic Transformer 2)的机器人项目,是去年年底发布的RT-1的“进化版”。

相比于其他的机器人研究,RT-2的核心优势在于,不仅能理解“人话”,还能对“人话”进行推理,并转变为机器人能理解的指令,从而分阶段完成任务。

具体来说,它具备三大能力——符号理解(Symbol understanding)推理(Reasoning)人类识别(Human recognition)

第一个能力是“符号理解”,能将大模型预训练的知识,直接延展到机器人此前没见过的数据上。例如机器人数据库中虽然没有“红牛”,但它却能从大模型的知识中理解并掌握“红牛”的外貌,并拿捏物品。

第二个能力是“推理”,这也是RT-2的核心优势,要求机器人掌握数学、视觉推理和多语言理解三大技能。

技能一,包含数学逻辑推理的命令,“将香蕉放到2+1的总和的位置”:

技能二,视觉推理,像是“将草莓放进正确的碗中”:

技能三,多语言理解,即使不用英语也能完成指令,例如用西班牙语命令它“从一堆物品中挑出最与众不同的那个”:

第三个能力是人类识别,准确识别并理解人类的行为,像开头看到的“将水递给泰勒·斯威夫特”例子就是能力展现之一。

那么,这三个能力是怎么实现的?

简单来说,就是将视觉-文本多模态大模型(VLM)具备的“推理”、“识别”、“数学”等能力,和机器人的操作能力结合起来。

为了实现这一点,研究人员直接给视觉-文本大模型(VLM)增加了一个模态,叫作“机器人动作模态”,从而把它变成了视觉-文本-动作大模型(VLA)

随后,将原本非常具体的机器人动作数据,转变成文本token。

例如将转动度数、放到哪个坐标点等数据,转变成文本“放到某个位置”。

这样一来,机器人数据也能被用到视觉-语言数据集中进行训练,同时在进行推理的过程中,原本的文本指令也会被重新转化为机器人数据,实现控制机器人等一系列操作。

没错,就是这么简单粗暴(手动狗头)

在这次的研究中,团队主要基于谷歌的一系列基础大模型来“做升级”,包括50亿和550亿的PaLI-X、30亿的PaLI以及120亿的PaLM-E

为了提升大模型本身的能力,研究人员也下了不少功夫,把最近爆火的思维链、向量数据库和无梯度架构(no-gradient architectures)都用上了。

这一系列操作,也让RT-2和去年发布的RT-1相比,具有了不少新优势。

下面就来看看具体的实验结果。

性能可达RT-1三倍

RT-2使用上一代机器人模型RT-1的数据进行训练(也就是说数据没变,只是方法不同了)

这些数据是用13个机器人在办公室搭建的一个厨房环境中耗时17个月收集到的。

在实际测试中(一共历经6000次),作者给了RT-2许多以前未见过的物体,需要RT-2在微调数据之外进行语义理解来完成任务。

结果完成的都相当不错:

包括从简单的识别字母、国旗、人物到从玩偶中识别陆生动物、选出颜色不相同的那只,甚至是捡起快要从桌上掉下去的零食等复杂的命令。

而从符号理解、推理和人类识别这三个细分能力上来看,RT-2的两个变体都比RT-1和另一种视觉预训练方法VC-1要好很多,性能最高可达3倍。

如前文所述,这两个变体分别在120亿参数的PaLM-E和550亿参数的PaLI-X上进行训练。

具体的泛化能力评估上,通过与多个基线模型的多类细分测试,最终发现RT-2性能提高了大约2倍。

(稍显遗憾的是,我们还没看到它和其他团队最新基于LLM的机器人方法进行对比)

而为了更好地理解RT-2的不同设置如何影响泛化结果,作者又设计了两大类评估:

一是在模型尺寸上,仅在RT-2 PaLI-X变体分别采用50亿参数与550亿参数进行训练;

二是训练方法上,分别采用从头开始训练模型vs微调vs协同微调的方法。

最终结果表明,视觉语言模型预训练权重的重要性以及模型泛化能力有随着模型大小而提高的趋势。

另外,作者还在开源语言表基准上评估了RT-2,结果显示它在模拟基准上实现了SOTA结果(90%vs之前的77%)

最后,由于RT-2 PaLM-E变体是一个视觉-语言-动作模型,可以在单个神经网络中充当LLM、VLM和机器人控制器,因此RT-2还可以执行可控的思想链推理。

如下图所示的5个需要推理的任务中(尤其最后一个非常有意思:选择可以替代锤子的物品),它接到命令后会先输出自然语言步骤,然后再给出具体的动作token。

最最后,总结来说,这个最新的RT-2模型,不仅能更好地适用于不同的、机器此前没见过的场景中,泛化能力更好了;与此同时,由于有了更好的大模型加持,它也掌握了一些有难度的新能力,比如推理。

One More Thing

谷歌将机器人研究的重心放在大模型上,似乎也不是“空穴来风”。

就在这两天,他们和哥伦比亚大学合作的一篇关于“用大模型帮助获取更多机器人操作技能”的论文,同样很火:

这篇论文提出了一种新的框架,不仅能让机器人很好地适应大模型,同时还能保留原本机器人的基础操作和控制能力:

和RT-2有所不同的是,这一项目已经开源:

属实是用大模型带动整个机器人部门升级了。

再联想到前不久李飞飞团队的具身智能成果,可以说,用大模型带动机器人着实成为一种研究趋势,且已经让我们看到了一波非常有潜力的进展。

对于这个研究方向,你有哪些期待?

项目地址:
https://robotics-transformer2.github.io/

参考链接:
[1]https://twitter.com/GoogleDeepMind/status/1684903412834447360
[2]https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action
[3]https://www.nytimes.com/2023/07/28/technology/google-robots-ai.html
[4]https://github.com/columbia-ai-robotics/scalingup

温馨提示:虽然我们每天都有推送,但最近有读者表示因平台推送规则调整,有时候看不到我们的文章~
欢迎大家进入公众号页面,右上角点击“设为星标”点亮⭐️,收藏我们的公众号,新鲜内容第一时间奉上!
*文章观点仅供参考,不代表本机构立场。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
人类数据告急,微软OpenAI开始用AI喂AI,Altman放话:未来所有数据都将变成合成数据|GGView三十六 申请书谷歌AGI机器人大招!54人天团憋7个月,强泛化强推理,DeepMind和谷歌大脑合并后新成果Sam Altman 布局 Web3: 让全人类分享 AI 的利润|GGView马斯克最新演讲:AI是一把“双刃剑”,具有控制人类的潜力|GGViewAI教父Hinton最新采访万字实录:ChatGPT和AI的过去现在与未来 |GGView机器人ChatGPT来了!大模型进现实世界,DeepMind重量级突破!10年烧掉47亿,欧盟「人脑计划」宣告失败?算法重建人类大脑遥不可及,成果支离破碎|GGView东南大学全球首测LK-99零电阻成功!室温超导复现大爆发,人类历史接近跃迁点|GGView苹果首款AR眼镜卖2万5!续航2小时,近视也能用,库克:欢迎来到空间计算时代 |GGView算力=生产力!IT支出每投入7块,就能拉动约207元GDP产出|GGView一个音乐弥漫的午后除了气候,还有很多方面都突破了地球的极限|GGViewDeepMind首提「统一智能体」!大模型做推理,赋能终身学习,AI王者加冕机器人ChatGPT来了:大模型进现实世界,DeepMind重量级突破君子如今不值錢世界首例!中国90后在脑中植入机器,一打开就变快乐了|GGView为什么今年的三伏天超长待机40天?|GGView猩猩学会玩《我的世界》,方法竟和GPT-4智能体相通?|GGViewTransformer+强化学习,DeepMind让大模型成为机器人感知世界的大脑能生成完整剧集的AI来了,GPT-4辅助写剧本,输入提示几秒生成一集《南方公园》|GGView硅谷富豪们砸钱换寿命,Sam Altman也投资,能打败AI的只有长生不老了|GGView谷歌DeepMind发布机器人大模型RT-2,提高泛化与涌现能力|甲子光年人形机器人成新风口!探馆世界机器人大会:"机器人+制造业"国产替代加速六四、天安门—不能忘却的记忆机器人可“自我学习”!谷歌DeepMind发布首个机器人算法模型,“潘多拉魔盒”打开了?美女新难题:如何自证不是AI|GGView科学家发现「返老还童」蛋白!Nature:抗衰老蛋白让老年猴子恢复记忆|GGViewGPT-4满分通过MIT本科数学考试!这套提示词火了|GGView对话黄东旭、关涛、李远策:AI热潮下,用户到底需要怎样的数据平台?|GGView英伟达创业故事:在廉价早餐店里,想象一个空白的市场|GGViewTransformer+强化学习,谷歌DeepMind让大模型成为机器人感知世界的大脑三十五 表扬谷歌机器人大模型RT-2,李飞飞具身智能新成果,Cathie Wood访谈,特斯拉Ashok演讲生命起源的另一种可能 |GGView
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。