Redian新闻
>
全世界机器人共用一个大脑,谷歌DeepMind已经完成了第一步

全世界机器人共用一个大脑,谷歌DeepMind已经完成了第一步

公众号新闻
具身智能,首先就是要共用 AI。
过去一年,生成式人工智能发展的核心关键词,就是「大」。
人们逐渐接受了强化学习先驱 Rich Sutton 充分利用算力「大力出奇迹」的思潮,庞大的数据量是 AI 模型展现出惊人智慧的核心原因。数据规模越大、质量越高、标注越细,模型就能了解到更全面的世界知识,从而拟合出更加智能的结果。
那么,为什么人工智能的进展还没有转化成科幻片中那种全能管家机器人呢?能清理桌子、叠衣服、做早餐的机器人在哪里?
一个重要的原因是机器人领域很难「大力出奇迹」,生成式 AI 的文字或图片训练数据在网络上就能轻松获取,而机器人的训练数据通常是由研究人员在实验室里根据具体的任务一个一个地创建的。这个过程往往漫长而又乏味。
如果没有大量数据的支撑,机器人将无法脱离实验室,无法独立执行做早餐等任务。令人惊艳的机器人研究成果,往往也只是某一个实验室研发出来的某一款机器人在执行某几项任务,对于其他实验室的机器人研究,可参考性有限。                            
特斯拉机器人 Optimus 在远程操控下叠衣服。
如果有一个汇集了许多机器人经验的「课本」,新机器人可以从中一次性学习,让机器人共享训练数据。这种做法是否能突破手动让机器人执行新任务带来的时间与精力限制?
为了得到问题的答案,由谷歌 Deepmind 发起,来自北美、欧洲、亚洲的 34 个机器人实验室共同启动了 RT-X 项目。RT-X 项目的目标是汇集数据、资源和代码,让通用机器人走进现实。该项目的主要参与者加州大学伯克利分校的 Sergey Levine 教授和 Google DeepMind 的资深科学家 Karol Hausman 联合撰写了「THE GLOBAL PROJECT TO MAKE A GENERAL ROBOTIC BRAIN(打造通用机器人大脑的全球合作项目)」一文,总结了 RT-X 项目取得的进展。
RT-X 项目至今都做了哪些努力,让我们一起来看看。
造通用机器人,要从哪方面下手?
人类拥有强大的学习能力。我们的大脑在经过一点练习后,就可以指挥四肢行动,比如拿起工具、骑自行车或上车这种动作。换句话说,也就是我们的躯体发生了一些变化,但大脑能够理解。RT-X 的目标是让机器人也拥有这种「思维方式」:使单个深度神经网络能够控制许多不同类型的机器人。这种能力称为「交叉体现」。
然而「交叉体现」的问题在于,经过机器人数据训练的深度神经网络能否「驾驭」各种各样的机器人。一旦这些外观、物理特性和能力截然不同的机器人能被单个神经网络「大一统」,那么将释放出大型数据集对机器人学习的潜力。
RT-X 项目发布的 Open X-Embodiment 数据集规模庞大,目前它含有 22 种机器人的近 100 万次试验数据,其中包括市场上常用的机器臂。像拾取和放置物体、组装以及电缆布线这种专项任务的数据也都包含在其中,共有约 500 种不同的操作和数千种与其他物体的互动数据。Open X-Embodiment 是目前最大的真实机器人动作开源数据集。
一个惊喜的发现是,大模型从大型数据集学习的思路也适用于机器人领域。使用相对简单的机器学习方法,利用与当前 LLM(如 ChatGPT)相同的模型,研究者能够根据 Open X-Embodiment 数据集训练普遍的机器人控制算法。就像一个人可以通过大脑学习开车或骑自行车一样,在 Open X-Embodiment 数据集上训练的模型可以简单地通过机器人自带的摄像头识别模型所控制的机器人类型。例如摄像头识别出的是 UR10 工业臂,模型将发送适合 UR10 的命令。如果识别出的是低成本的 WidowX hobbyiest 机械臂,模型也会相应地调整指令。
谷歌基于 Open X-Embodiment 数据集训练出来了 RT-X 模型。为了测试「机器人大模型」的能力,参与 RT-X 项目的五个实验室分别对其进行了测试。他们将 RT-X 的训练结果与各自独立开发的最佳控制系统进行了比较。每个实验室的测试项目都涉及其机器人原本的研究任务,如拾取和移动物体、开门和通过夹子布线等。值得注意的是,统一的「大模型」超越了各个实验室的最佳方法,使机器人完成任务的平均成功率提高了约 50%。
更惊人的发现是,如下列动图所示,RT-X 模型可以运用其他机器人的经验来提高不同环境中正在被训练的机器人的鲁棒性。
在同一个实验室中,即使机器人在执行相同的任务,环境稍微不同,它也有可能无法成功完成同一动作。怪不得马斯克要强调在换了衣服、盒子和桌子和之后,特斯拉 Optimus 在未来肯定能学会叠衣服呢。
因此,能够借鉴其他机器人在其他情况下的经验有助 RT-X 模型控制的机器人应对变化和特殊情况。
搭建可以自主推理的机器人
受到以上成果的鼓舞,谷歌 DeepMind 的研究团队继续研究了如何如何将这些数据整合到一个具有更加深入的推理能力的系统中。仅从机器人数据中很难学习到复杂的语义推理。如「在罐子和橘子之间移动苹果」这个复杂任务,需要机器人理解图像中物体之间的语义关系、基本常识还有其他与物理能力不直接相关的符号知识等等。
为了解决复杂语义推理的问题,研究人员决定加入另一个庞大的数据源:全网的图像和文本数据。他们使用了一个现有的大型视觉语言模型,该模型已经精通许多需要理解自然语言和图像之间联系的任务。它是一个类似 ChatGPT 或 Bard 这样公开可用的模型。这个模型可以根据图片输入做出回答,能够解决视觉问答、字幕以及其他开放式视觉理解任务之类的问题。
研究团队发现,经过训练,生成式 AI 模型也能输出机器人动作以响应机器人命令(如「把香蕉放在盘子上」),机器人继而根据命令执行动作。基于这些发现,谷歌 DeepMind 研究团队将这种方法应用到 Open X-Embodiment 数据集中。
为了评估从互联网获取的智能和来自全世界的机器人数据的结合情况,谷歌 DeepMind 用他们的移动机械臂对 RT-X 模型进行了测试。研究人员对它进行了最严格的通用化基准测试。这要求机器人掌握识别物体、成功操纵物体、根据复杂的文本命令、整合文本和图像信息、进行逻辑推理等能力。这种能力正是人类成为通才的原因之一。
研究人员进行了两组评估。他们使用了一个不涉及谷歌的机器人、不包括多机器人数据的模型作为基准。事实上,由于 Open X-Embodiment 数据集中有超过 10 万次演示来自谷歌 DeepMind 的机器人,数据集中其他机器人数据是否起效,这个问题的答案仍然未知。因此,他们又尝试了基于 Open X-Embodiment 整体数据的评估。
对谷歌机器臂而言,「将苹果移到易拉罐和橘子之间」是最难的评估任务之一。这是一项涉及空间关系推理的任务。在「将一个物体放在写着解为 2+3 的纸上」这项任务中,它还需要解数学题。这些挑战旨在测试 RT-X 模型赋予机器臂的推理以及得出结论的能力。
在这种情况下,机器臂推理能力(例如推理出 「之间 」和 「上面 」的含义)来自于视觉语言模型训练中的全网数据,而将推理输出应用于机器人行为的能力(即使机器臂向正确方向移动的命令)来自 RT-X 对机器人数据的训练。下面的视频展示了一个评估实例,研究团队要求机器人执行一项未包含在训练数据中的任务。
即使没有经过专门训练,谷歌的机器臂也能够遵循指令「在罐子和橘子之间移动苹果」。这种能力是由 RT-X 实现的,这是迈向通用机器人大脑的第一步。
虽然这些任务对人类来说可能不值一提,但对通用机器人来说却是一大难题。如果没有具体的机器人演示数据清楚地说明「之间」、「附近」和「上面」是什么意思,即使共享了机器人的训练数据,基于此的系统也无法弄清楚这些命令的含义。
通过整合视觉语言模型中的全网知识,RT-X 的完整系统为机器人研究解决了很多问题。研究团队发现共享机器人数据的加入使谷歌机器人的泛化能力提高了三倍。这表明,Open X-Embodiment 数据集不仅有助于机器人获得各种物理技能,还有助于更好地让与物理动作与视觉语言模型中的语义和符号知识联系起来。这些联系使得机器人具备了一定的常识。有朝一日,机器人能够基于这些方法理解「给我拿早餐」这种复杂和微妙的命令,并为你端上一份热乎乎的早饭。
RT-X 项目的下一步
RT-X 项目展示了机器人社区凝心聚力之后取得的巨大进展。得益于跨地区、跨机构的努力,谷歌 DeepMind 汇集了多样化的机器人数据集,进行了全面的多机器人评估。此前,这对于任何单一机构都是不可能做到的事。RT-X 的发起者希望能有更多的研究人员入这项合作,分享他们的数据。他们还将开发工具、模型和基础设施来支持具身智能研究。
就像大型语言模型已经掌握了广泛的基于语言的任务一样,RT-X 项目目前的进展已经提供了一种大型具身机器人模型改变机器人领域的可能性。在未来,谷歌 DeepMind 将会使用相同的基础模型作为许多现实中的机器人做任务的基础。也许有一天,只通过微调,甚至只向预训练的基础模型输入提示,机器人就能获得新技能。你可以像使用 ChatGPT 一样,无需告诉机器人如何使用裱花袋或要写什么字体,机器人就能在一个蛋糕上做「生日快乐」的裱花。
随着越来越多的实验室参与 RT-X 项目,谷歌 DeepMind 希望进一步推进单个神经网络控制多台机器人的可能。未来他们可能将添加生成的各种模拟数据,加入更多种类的机器人(例如有不同数量的手臂或手指的机器人),引入不同的传感器套件(如深度相机和触觉传感器),结合操纵和运动行为等。
也许在未来,通用化的机器人大脑可以驱动任何机器人,全球所有机器人都可以从共享的数据中受益。

来源:机器之心报道

编辑:佳琪

参考链接:

https://twitter.com/dotey/status/1746414853311377455

https://spectrum.ieee.org/global-robotic-brain

https://mp.weixin.qq.com/s/k3iXMZtdtzoP8ZuA5_Htww


版权声明:部分文章在推送时未能与原作者取得联系。若涉及版权问题,敬请原作者联系我们。联系方式:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
租房?租老婆?加拿大卧室“拼租”:男女共用一张床!女孩还要负责…谷歌DeepMind最新研究:对抗性攻击对人类也有效,人类和AI都会把花瓶认成猫!梅朵:生命的敌人不是死亡LLM准确率飙升27%!谷歌DeepMind提出全新「后退一步」提示技术谷歌DeepMind发布三项机器人研究成果;传苹果将在WWDC发布生成式AI版本Siri丨AIGC日报刚刚,谷歌华人工程师被捕,他用谷歌电脑偷谷歌机密存到谷歌账号...【行业日报】亚麻推出企业AI机器人,谷歌合资成立AI新公司快消外企社招 | Lagardère拉格代尔,世界三大旅行零售商之一,百年外企,平均月薪17.2k,0经验可投,留学生有优势王友琴:关于北京大学1969年8月5日“宽严大会”的一个注解(钱钟书杨绛冯友兰冯宗璞蔡仲德)谷歌 DeepMind 联合创始人加入微软,担任新 AI 部门 CEO66、长篇民国小说《永泰里》第十三章 螳螂捕蝉(5)超越GPT-4!谷歌DeepMind重磅发布Gemini,史上最强最通用大模型!AI颠覆材料学!DeepMind重磅研究登Nature,预测220万晶体结构赢人类800年全新开源AI代码工具诞生!超越谷歌DeepMind旗下AlphaCode谷歌家务机器人单挑斯坦福炒虾机器人!端茶倒水逗猫,连甩三连弹开打租房?租老婆?多伦多卧室“拼租”:男女共用一张床!女孩还要负责…给机器人装上大模型大脑,「若愚科技」获超5000万天使轮融资|36氪首发谷歌DeepMind打造基于人工智能的医疗问诊对话工具AMIEChatGPT狂吐训练数据,还带个人信息:DeepMind发现大bug引争议AI无法颠覆化学?谷歌DeepMind论文被爆重大缺陷,伦敦大学教授建议撤回Nature“人形机器人第一股”诞生!优必选上市首日市值逼近390亿港元,人形机器人加速驶向商业化LLM准确率飙升27%!DeepMind提出全新「后退一步」Prompt技术机器人会煮咖啡了,下一个马斯克押注人形机器人!谷歌DeepMind爆火动画18秒解释LLM原理!旅行的惊喜之“艳遇”ChatGPT狂吐训练数据!还带个人信息!DeepMind发现大bug引争议。。。考完这场期末考试,悲催的中学时光已经完成了十二分之一谷歌DeepMind机器人成果三连发!两大能力全提升,数据收集系统可同时管理20个机器人斯坦福机器人炒虾爆火网络,谷歌DeepMind发布机器人最新进展,2024智能机器人元年到来?硬核观察 #1239 DeepMind 推出 “机器人宪法”谷歌DeepMind科学家「被爆将离职创业」!曾参与AlphaGo、Alphafold工作,首轮融资或超2亿美元UC伯克利等发布多模态基础模型CoDi-2;谷歌DeepMind利用AI工具发现200万种新材料丨AIGC日报斯坦福华人团队炒菜机器人爆火:成本仅3万美元,滑蛋虾仁、干贝烧鸡轻松做!谷歌家务机器人拿放物品越来越溜,解放双手的时代真的来了?家居修理系列:屋顶篇(4)屋顶漏水简单的修补谷歌DeepMind核心大佬被曝离职创业,瞄准AI智能体!曾是Gemini关键负责人
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。