Redian新闻
>
Google DeepMind 宣布基于 LLM 的机器人控制器 RT-2

Google DeepMind 宣布基于 LLM 的机器人控制器 RT-2

科技

作者 | Anthony Alford
译者 | 张凯峰
策划 | 丁晓昀

Google DeepMind 最近宣布了 Robotics Transformer 2(RT-2),这是一个用于控制机器人的视觉 - 语言 - 动作(VLA)的 AI 模型。RT-2 使用经过精调的 LLM 来输出运动控制命令。它可以执行训练数据中未明确包含的任务,并在新出现技能评估中将基线模型的表现提升了 3 倍。

DeepMind 训练了两个 RT-2 的变体,使用了两个不同的底层视觉 -LLM 基础模型:一个基于 PaLM-E 的 12B 参数版本,以及一个基于 PaLI-X 的 55B 参数版本。LLM 在通用视觉语言数据集和机器人特定数据的混合之上进行了共同微调。该模型学会输出一个机器人运动指令向量,将其简单地视为一个整数字符串:实际上,它是模型学习的一种新语言。最终模型能够接收机器人工作区域的图像和用户命令,例如“捡起即将从桌子上掉下来的袋子”,然后生成执行任务的运动指令。根据 DeepMind 的说法,

RT-2 不仅展示了人工智能的进步如何迅速地渗透到机器人领域,它还展示了更多通用型机器人的巨大潜力。虽然实现在以人类为中心的环境中有用的机器人方面还有大量工作要做,但 RT-2 向我们展示了一个令人兴奋的机器人的未来,它就在我们的掌握之中。

谷歌机器人技术和 DeepMind 已经发布了多个使用 LLMs 进行机器人控制的系统。2022 年,InfoQ 报道了谷歌的 SayCan,它使用 LLM 为机器人生成高级行动计划,以及 Code-as-Policies,它使用 LLM 生成执行机器人控制的 Python 代码。这两个系统都使用纯文本 LLM 来处理用户输入,视觉组件由独立的机器人模块处理。今年早些时候,InfoQ 报道了谷歌的 PaLM-E,它处理来自机器人传感器的多模态输入数据,并输出一系列高级行动步骤。

RT-2 在之前的实现 RT-1 的基础上进行了改进。RT 系列的关键思想是训练一个模型直接输出机器人指令,而不是输出运动的更高级抽象。RT-2 和 RT-1 都接受图像和任务的文本描述作为输入。然而,RT-1 使用了一系列不同的视觉模块来生成输入到 LLM 的视觉令牌,而 RT-2 使用了单一的视觉语言模型,如 PaLM-E。

DeepMind 在超过 6,000 个试验中对 RT-2 进行了评估。特别是,研究人员对其新兴能力表现感兴趣:即能够执行机器人专门训练数据中不存在的任务,但这些任务是通过其视觉语言预训练而出现的。团队将 RT-2 在三个任务类别上进行了测试:符号理解、推理和人类识别。与基准模型相比,RT-2 取得了“超过最佳基准模型平均成功率 3 倍以上”的成绩。然而,该模型未获得机器人训练数据中未包含的任何物理技能。

在 Hacker News 上对这件工作的讨论中,一位用户发表了评论:

似乎这项工作(以及许多机器人学习工作)仍然停留在位置 / 速度控制而不是阻抗控制阶段。这本质上是输出去哪里,可以是通过闭环控制器或开环运动规划器。这似乎极大地降低了数据需求,但感觉对我们可以完成的任务有一种根本性限制。机器人操作之所以困难是因为我们不仅需要考虑世界上正在发生的事情,还需要考虑到我们的互动如何改变它以及我们如何对此作出反应。

尽管 RT-2 尚未开源,但 RT-1 的代码和数据已经公开。

原文链接:

https://www.infoq.com/news/2023/10/deepmind-robot-transformer/

声明:本文为 InfoQ 翻译,未经许可禁止转载。

今日好文推荐
B 站广州研发工作室解散;外媒曝光苹果中国区丑闻;OpenAI 被曝已叫停新大模型项目 | Q资讯
“MySQL 之父”的 MariaDB 要完蛋了?叫停两款核心产品并裁员 28%,分析师:该行为无异于自毁长城
剑指 Kubernetes!微软发布开源平台 Radius:高效构建、运行云原生应用程序
前端根本不需要构建!“技术邪教” Ruby on Rails 之父再出激进言论引争议

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
DeepMind 全新 AI 项目曝光:可控制各类机器人,数据集有望开源Transformer+强化学习,谷歌DeepMind让大模型成为机器人感知世界的大脑你猜,为什么Google和Facebook不用Docker?种植牙必看 续一(国外篇)华人注意!Google宣布将清理不活跃账号,2年不用就要被销号!google flight搜的转机多家的航线到哪家航司订票?谷歌DeepMind爆火动画18秒解释LLM原理!机器人研究迎来ImageNet时刻:一个数据集,让DeepMind具身智能大模型突飞猛进九十二 调任从“轮子上的机器人”到“人形机器人”,车企跨界胜算几何?deepin宣布deepin DTK已完成基于Qt6的全面升级刷完这本Google力荐的LeetCode指南,零基础也能转码上岸!8大人形机器人参数对比来了!特斯拉、稚晖君的机器人究竟如何?|前哨分享LLM准确率飙升27%!DeepMind提出全新「后退一步」Prompt技术智能周报|Google发布Gemini;OpenAI推迟发布GPT商店;微软明年发布新版Windows,AI功能大幅增强…离大谱,google L6输了?High school grad rejected by 16 colleges hired by Google卷!Amazon、Google、Oracle等公司悄悄开启2025校招!香港太平山的豪宅On the frustration of the "Google boy" in his college appli.Google 新手机发布会:Android 14,「买手机,送 AI」玩转围棋、国际象棋、扑克,DeepMind推出通用学习算法SoG每周硅闻 | 突发!Google AI杀手锏来了;微软将推出首款人工智能芯片;多家巨头宣布裁员!直通暑期实习!Google开放STEP Intern大二实习项目被Google导航指引到沙漠迷路了!网友发文怒斥,Google道歉居里夫人语录精选SDE岗位 | Google、Intel、Walmart公司岗位发布!机器人迎来ImageNet时刻!谷歌等新作Open X-Embodiment:机器人学习数据集和 RT-X 模型LLM准确率飙升27%!谷歌DeepMind提出全新「后退一步」提示技术[9月26日]科学历史上的今天——金·赫尔尼(Jean Amédée Hoerni)新MacBook Air或明年春季推出/Google发布Gemini大模型,多领域超越GPT-4/微软Copilot重磅升级九十一 批评Transformer+强化学习,DeepMind让大模型成为机器人感知世界的大脑Google出尔反尔,宣布招聘暂缓!vivo 发布基于 Rust 的操作系统,全球首款?字节跳动宣布除夕统一放假;大妈招女婿要求大模型从业人员 | Q资讯The black and white google港大&百度提出LLMRec:基于LLM增强的多模态图神经网络推荐BELLE-7B-1M逆袭ChatGLM?10B量级开源中文对话LLM,谁成常识问答任务的黑马?微软发布基于LLM的代码生成神器,动动嘴就能写代码!每周硅闻 | 突发!亚马逊计划招25万名员工;Google开发全新AI模型;最新Windows强势登场!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。