Redian新闻
>
Robot Transformers 是什么 Transformer?

Robot Transformers 是什么 Transformer?

公众号新闻

专题解读

事件:

2023 年 12 月中旬,斯坦福大学和普林斯顿大学等多所大学以及英伟达和 Google DeepMind 等多家企业的一个联合研究团队发布了一篇综述报告,总结了基础模型在机器人研究领域的发展情况和未来挑战。


为何要关注Robot Transformer?

在综述《Foundation Models in Robotics: Applications, Challenges, and the Future》中,研究者探讨了基础模型如何为机器人系统带来突破性的改进,以及这些模型在感知、预测、规划和控制等方面的潜在应用。

对于不同种类的基础模型,Robot Transformers 与另四类任务共同被归类于「直接用于机器人的基础模型」。

在背景介绍部分,研究者将用于机器人领域的基础模型分为两类。

一类是间接机器人研究相关联的基础模型,涉及感知(perception)和具身智能(Embodied AI)方向的研究。感知方面基础模型涉及处理「开放词汇对象检测和 3D 分类」、「开放词汇语义分割」、「开放词汇 3D 场景表示」和「可供性(affordances)」;具身智能方面的基础模型则有 Statler、EmbodiedGPT、Voyage、ELLM 等代表性工作。

另一类是直接用于机器人领域的基础模型,Robot Transformer 也归属于此。

图:利用了基础模型的机器人任务概述



所以什么是 Robot Transformers?

研究者在介绍Robot Transformers的小节中指出,通过一个整合感知、决策制定和动作生成的框架,这种基于 Transformer 架构的基础模型能够用于机器人的端到端控制。

综述在该小节列举了近期一系列 Robot Transformers 的工作,如RT系列、PACT、SMART等,探讨了这种基础模型在解锁机器人端到端控制的潜力,相关工作的探索方向包含:

1、自监督视觉预训练:通过使用真实世界的图像进行自监督视觉预训练,学习直接从像素输入进行机器人操纵任务的控制技能,无需任务特定的微调。

2、多模态输入处理:能够处理图像和自然语言指令作为输入,支持机器人根据视觉和语言信息生成动作。

3、泛化能力:通过在多样化的真实世界数据上训练,获得的表征能够适用于广泛的机器人应用。

4、跨领域数据吸收能力:能够有效地吸收和利用来自不同领域(包括仿真和不同机器人)的数据,增强模型的适应性和稳健性。


Robot Transformers 类型的工作是如何探索端到端机器人控制的?

1、机器人操纵任务方面,Xiao 等人和 Radosavovic 等人的工作证明了自监督预训练的优势,解锁了基础模型从多样化和非结构化的视觉数据中学习的可能,进而生成更家稳健和可转移的表征,用于机器人系统中的马达控制任务。

① Xiao 等人的工作《Masked visual pre-training for motor control》针对机器人操纵任务提出的方法无需对预训练的编码器进行任何任务特定的微调,即可直接从像素输入学习马达控制任务。

② Radosavovic 等人的工作《Real-world robot learning with masked visual pre-training》发现在野外多样化视频上使用自监督视觉预训练获得的表征在不同任务和机器人平台上泛化性良好,展示了自监督预训练对真实世界机器人应用的广泛适用性。

2、泛化性方面,RT-1 的工作使用大型的数据集训练了具备可扩展性的模型。它可以在变化的环境中保持稳健,并执行长期的指令,实现在新任务上的适应性。

① RT-1 还展示了该模型具有学习不同领域数据的能力,如仿真和不同类型机器人的数据...

RT-2、RT-X 是如何进一步探索机器人控制能力的?RT 系列之外还有哪些Robot Transformer 的工作?这些工作实现了哪些层面的突破?...查看完整解读请前往「机器之心PRO」业内通讯 · 2024年度#Week 05

本期完整版通讯含 3 个专题解读 +  29 项 AI & Robotics 赛道要事收录
 1. 「Foundation Agent」是下一个 AI 前沿还是「吹水」?   
Foundation Agent 是什么新兴概念?相比于以往的各类 Agent 有哪些关键特点?Foundation Agent 和 Foundation Model 到底是不是一个东西?...
 2. Robot Transformers 是什么 Transformer?   
为何要关注 Robot Transformer?什么是 Robot Transformer?Robot Transformers 都有哪些工作?这些工作分别解锁了什么价值?...
 3. 多模态大型语言模型综述:理清多模态关键技术   

MM-LLM 近期的研究方向如何?MM-LLM 模型的核心架构是什么?26 个最佳 MM-LLM 都有哪些特点?...


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
挑战 Transformer 霸权? Yan 架构竟以半价成本实现百万级参数大模型我在Performer中发现了Transformer-VQ的踪迹童年故事(10):玩冲锑招人嫉恨Hyena成下一代Transformer?StripedHyena-7B开源:最高128k输入,训练速度提升50%现场围观 | 黄仁勋对话Transformer论文作者:世界该给Tranformer翻篇了颠覆Transformer!新架构Mamba引爆AI圈!Transformer升级之路:“复盘”长度外推技术《跌宕起伏心灵煎熬的14天》(6) 【自证清白】亚马逊14亿美元收购iRobot计划被搅黄!iRobot宣布裁员350人张郎郎:\'血统\'鬼魅始终笼罩中国最让我满意的客服,台湾的”问讲“们Transformer仍是2024发论文神器中文实录!黄仁勋集齐Transformer论文七大作者,对话一小时,干货满满那些挑战Transformer的模型架构都在做些什么Mamba可以替代Transformer,但它们也能组合起来使用CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoTAI测出你几岁死亡?Transformer「算命」登Nature子刊,成功预测意外死亡ConvNet与Transformer谁更强?Meta评测4个领先视觉模型,LeCun转赞毛主席《水调歌头,才饮长沙水..》读着玩华为改进Transformer架构!盘古-π解决特征缺陷问题,同规模性能超LLaMAMamba和Transformer合体!Jamba来了:超越Transformer!药物-靶标亲和力预测,上科大团队开发了一种Transformer编码器和指纹图谱相结合的方法CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术Mamba架构第一次做大!混合Transformer,打败TransformerChatGPT的力量来自“变形金刚”(Transformer)? | 白若然、潘瓒你没有看过的全新版本,Transformer数学原理揭秘从20亿数据中学习物理世界,基于Transformer的通用世界模型成功挑战视频生成Arxiv最热论文推荐:揭秘Transformer新身份、谷歌VLM蒸馏、复旦LEGO模型Transformer竟是无限状态RNN?《周处除三害》小美背上的纹身 сэтгэл 是什么开源日报 | 清明节前AI复活亲人成热门生意;中国没有“百模大战”,未来也不会有“十模大战”;谁将替代Transformer?OpenAI官宣开源Transformer Debugger!不用写代码,人人可以破解LLM黑箱MIT斯坦福Transformer最新研究:过度训练让中度模型「涌现」结构泛化能力谁将替代 Transformer?Transformer的无限之路:位置编码视角下的长度外推综述纯加法Transformer!结合脉冲神经网络和Transformer的脉冲Transformer | NeurIPS 2023
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。