Redian新闻
>
斯坦福机器人炒虾爆火网络,谷歌DeepMind发布机器人最新进展,2024智能机器人元年到来?

斯坦福机器人炒虾爆火网络,谷歌DeepMind发布机器人最新进展,2024智能机器人元年到来?

科技
 夕小瑶科技说 原创
 作者 | 小戏、王二狗

2024 年,智能机器人开局就给予了我们无限想象。

就在昨日斯坦福华人团队的“炒虾”机器人爆火网络:

大家纷纷惊呼未来科幻电影走进生活,毫不夸张的讲,当这个成本 22 万的开源项目普及再经过一段时间的成本降价后, 2024可能当真是未来的机器人元年

昨日这个全新移动机器人 Mobile ALOHA给大家带来了无限惊喜,今天该项目的负责人,斯坦福的华人博士 Zipeng Fu 更新了一波后续视频。他将 Mobile ALOHA 带回了家,尝试了诸如洗衣服、扔垃圾、浇花等等一系列“家务活”。

让我们先睹为快 Mobile ALOHA 的表现:

谷歌DeepMind发布智能机器人最新进展

还是在昨日,谷歌 DeepMind 趁热打铁,po 出了一系列关于智能机器人的前沿研究进展,给出了一份名为 《Shaping the future of advanced robotics》 的技术报告,跟上这股东风,让我们一起来了解下目前的智能机器人蕴藏着什么样的潜力吧!

对人类来说,一些事可能天然是很简单的,比如“整理房间”,“做饭”等等,当向一个五岁的小孩发出倒垃圾的指令,他们也会快速的理解语义并进行行动。但是对于机器人这样纯粹的“机械造物”,从简单直接的自然语言到转化为物理世界的行动就要求着机器人具备对世界的高度理解

那么什么对世界具有高度理解呢?答案呼之欲出——大模型。早在 22 年,谷歌就开源推出了机器人领域的 Transformer——Robotics Transformers(RT-1),并在 23 年成功升级成为了有望实现具身智能的 Robotics Transformers 2(RT-2)

而在 RT 系列的基础上,在这篇技术报告中,谷歌又官宣了 AutoRT、SARA-RT 和 RT-Trajectory 三种技术,帮助应用于现实世界中的智能机器人提高数据收集能力、学习速度与具备更强的泛化能力

首先是 AutoRT,见名知义,AutoRT 是一个将大模型与机器人控制模型(RT-1 或 RT-2)结合的 AI Agent 系统,具体而言,AutoRT 被谷歌视为一个“数据收集系统”,旨在扩展机器人的学习能力,以使其更好的训练并适应现实世界

AutoRT 可以同时指挥多个机器人,每个机器人配置有摄像机与执行操作器,系统使用视觉大模型(VLM)帮助理解环境与视线内的物品,而大模型(LLM)会给机器人一系列待执行的任务,譬如移动物品、擦桌子等等。AutoRT 在七个月的评估内可以做到在各种不同的环境下同时协调 20 个机器人,收集了大量多样化的数据,其整体流程如下图所示:

而 SARA-RT,全称 Self-Adaptive Robust Attention for Robotics Transformers 是谷歌提出的为使得 RT 更加精简高效的适用于机器人控制的 Attention 模型架构。SARA-RT 施加在 RT-2 上后,提升 RT-2 模型的准确率超过 10%,并且速度加快 14%。SARA-RT 仍然针对的是 Transformer 的老问题,二次复杂度的注意力模块,而 SARA-RT 提出了一种新的模型微调方法——up-training,up-training 将二次复杂度转化为线性复杂度,大大降低了计算需求,提供了一种加速 Transformer 的通用方法。


最后是 RT-Trajectory,是一个帮助智能机器人更好泛化的系统。回到最开始的问题,许多对人类而言不言自明的任务对机器人而言就要通过多种方式将指令转化为实际的物理运动。而实现这种转化需要模型有高效的数据集进行学习,并在 Learning 的基础上对未知任务有良好的泛化能力。

基于这个出发点,谷歌设计了 RT-Trajectory 模型,可以获取训练数据集中的每个视频,并在执行任务时将其与机器人手臂夹具的 2D 轨迹草图进行叠加,这些轨迹将以 RGB 图像的形式为模型提供视觉上的提示。RT-Trajectory 通过将自然语言中比如向左移动、向右移动这类模糊的控制话语转化为了特定的机器人运动,从而大大提升了模型的泛化能力。


叠加 AutoRT、SARA-RT 和 RT-Trajectory,可以看到一个更强大也更现实的真正智能机器人已然在不远的未来等待我们,不论是已经给予我们视觉震撼的 Mobile ALOHA,还是更加底层的AutoRT、SARA-RT 和 RT-Trajectory 等技术,2024 年希望在机器人领域给我们以新的,如 GPT-4 那样的震撼吧!

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
夏婳:两情难相知(四十四)ChatGPT狂吐训练数据,还带个人信息:DeepMind发现大bug引争议CMU华人18万打造高能机器人,完爆斯坦福炒虾机器人!全自主操作,1小时学会开12种门斯坦福炒虾机器人爆火全网!华人团队成本22万元,能做满汉全席还会洗碗谷歌DeepMind发布三项机器人研究成果;传苹果将在WWDC发布生成式AI版本Siri丨AIGC日报谷歌DeepMind全新AI天气预报神器GraphCast登上Science!1分钟预测10天全球天气,碾压行业SOTA!谷歌DeepMind打造基于人工智能的医疗问诊对话工具AMIE谷歌家务机器人单挑斯坦福炒虾机器人!端茶倒水逗猫,连甩三连弹开打谷歌DeepMind科学家「被爆将离职创业」!曾参与AlphaGo、Alphafold工作,首轮融资或超2亿美元前尘不扫OpenAI创始人:目前的首要任务是推出新模型;三星发布搭载谷歌AI工具的Galaxy S24智能手机丨AIGC日报超越GPT-4!谷歌DeepMind重磅发布Gemini,史上最强最通用大模型!1分钟预测10天全球天气!谷歌DeepMind全新AI天气预报登上Science,碾压行业SOTALLM准确率飙升27%!谷歌DeepMind提出全新「后退一步」提示技术华裔天才少女火爆网络,杭州→哈佛→斯坦福,打造全球热门人工智能Pika的奇迹斯坦福华人团队研发万能机器人,竟无所不能?阮玲玉,真的很美终于回家了 - 古城风采依旧斯坦福爆火机器人自爆失败内幕!炒虾做家务逗猫都是人类遥控的,AI厨师和女仆还很遥远斯坦福华人团队炒菜机器人爆火:成本仅3万美元,滑蛋虾仁、干贝烧鸡轻松做!谷歌家务机器人拿放物品越来越溜,解放双手的时代真的来了?ChatGPT狂吐训练数据!还带个人信息!DeepMind发现大bug引争议。。。在养老院的生活 之二谷歌DeepMind爆火动画18秒解释LLM原理!UC伯克利等发布多模态基础模型CoDi-2;谷歌DeepMind利用AI工具发现200万种新材料丨AIGC日报谷歌DeepMind机器人成果三连发!两大能力全提升,数据收集系统可同时管理20个机器人解密炒虾机器人远程控制技术:动捕手套/隔空取物/VR远程,都能训练机器人AI要从娃娃抓起!微软谷歌DeepMind推出AI入门课程,零基础进入AI行业谷歌DeepMind核心大佬被曝离职创业,瞄准AI智能体!曾是Gemini关键负责人AI无法颠覆化学?谷歌DeepMind论文被爆重大缺陷,伦敦大学教授建议撤回Nature全新开源AI代码工具诞生!超越谷歌DeepMind旗下AlphaCode2028年第一个AGI将到来?谷歌DeepMind提6条AGI标准,定义5大AGI等级谷歌DeepMind给AGI划等级,猜猜ChatGPT在哪个位置全世界机器人共用一个大脑,谷歌DeepMind已经完成了第一步谷歌DeepMind最新研究:对抗性攻击对人类也有效,人类和AI都会把花瓶认成猫!谷歌DeepMind力证:Transformer模型无法超越训练数据进行泛化!GPT-4终局是人类智慧总和!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。