Redian新闻
>
VLM 的下一步是会更靠向支持 Robotics 吗?

VLM 的下一步是会更靠向支持 Robotics 吗?

公众号新闻

专题解读

事件:

近日,ByteDance Research 团队发布了基于多模态语言视觉大模型 OpenFlamingo 的 RoboFlamingo 机器人操作模型,仅简单、少量的微调就可以把 VLM 变成 Robotics VLM,适用于语言交互的机器人操作任务。


目前,虽然大型语言模型(LLMs)和视觉-语言模型(VLMs)作为高层规划者被纳入机器人系统中 ,但是直接将它们用于低层控制仍然存在挑战。大多数 VLMs 是在静态图像-语言配对上训练的,而机器人任务需要闭环控制的视频理解。

同时,VLM 的输出主要包含语言标记(token),其表示与机器人动作有很大的差异,且使用使用私有模型适应低层机器人控制的可能解决方案成本较高,需要在大量的视觉-语言数据上进行协同微调以充分展示其效果。

RoboFlamingo 有哪些核心突破?

1、ByteDance Research 提出的视觉语言操作框架 RoboFlamingo,利用预训练的 VLMs 来理解每个决策步骤的视觉观察和语言指令,使用显式策略头建模历史特征,并仅通过模仿学习在语言条件下的操作数据集上进行微调。
2、RoboFlamingo 只需要很少量的数据来使模型适应下游操作任务,而且 RoboFlamingo 还提供了对于开环控制的灵活性,并可在低性能平台上部署。
3、RoboFlamingo 仅需添加一个用于端到端微调的策略头即可适应机器人操作,解决了:
① 将基于静态图像输入的视觉-语言模型调整为视频观测;
② 生成机器人控制信号而不是仅文本输出;
③ 仅需要有限数量的下游机器人操作数据就能以数十亿个可训练参数实现高性能和通用性。
4、RoboFlamingo 包含 vision encoder、feature fusion decoder 和 policy head 三个模块。
① Vision encoder 模块先将当前视觉观测输入到 ViT 中,并通过 resampler 对 ViT 输出的 token 进行 down sample;
② Feature fusion decoder 将 text token 作为输入,并在每个 layer 中先将 vision encoder 的 output 作为 query 进行 cross attention,之后进行 self attention 以完成视觉与语言特征的融合。
③ 最后,对 feature fusion decoder 进行 max pooling 后将其送入 policy head 中,policy head 根据 feature fusion decoder 输出的当前和历史 token 序列直接输出当前的 7 DoF relative action,包括了 6-dim 的机械臂末端位姿和 1-dim 的 gripper open/close。
5、实验结果表明,RoboFlamingo 只利用了 1% 的带语言标注的数据即在一系列机器人操作任务上取得了 SOTA 的性能。

VLM 是什么?

1、视觉-语言模型(VLM)是一种多模态模型,同时接受图像和文本输入。VLM 可以使用互联网上几乎无限可获得的大规模图像-文本对进行预训练,预训练的 VLM 可以直接应用于下游视觉识别任务,无需微调。
2、VLM 预训练通常由某些视觉-语言目标指导,使其能够从大规模图像-文本对中学习图像-文本对应关系。如 CLIP 采用图像-文本对比目标,并通过在嵌入空间中拉近配对的图像和文本,推远其他图像和文本来学习。通过这种方式,预训练的 VLMs 捕获丰富的视觉-语言对应知识,并可以通过匹配任何给定图像和文本的嵌入来进行零样本预测。
3、VLM 的网络架构
1)VLM 两种类型的网络架构被广泛用于学习图像特征,即基于 CNN 的架构和基于 Transformer 的架构 ......


对于具身智能来说,VLM 有哪些价值或潜力?

1、现有的机器人系统被设计用于特定任务,训练在特定数据集上,并部署在特定环境中。这些系统通常需要大量标注数据,依赖于特定任务的模型,在现实世界场景中部署时存在许多泛化问题,并且难以保持对分布变化的稳健性。
2、传统的机器人规划和控制方法通常需要仔细建模世界、自主体的动力学或其他代理的行为。由于这些模型是为每个特定环境或任务构建的,通常需要随着变化而重建,受到分布变化和泛化能力降低的困扰。
3、VLM 等基础模型引入至机器人领域乃至具身智能领域,是为了赋予机器人系统开放世界的感知、任务规划甚至运动控制能力 ......
① VLM 擅长于需要理解视觉内容和语言的任务,如开放集图像分类、目标检测、分割、视觉问答(VQA)等,通过利用大规模数据集和复杂的神经网络架构 ......
② 根据预训练方法大致可以分为两大类,分别为对比学习模型和生成预训练模型 ......
4、机器人的系统或关键组件主要包括三个方面,分别为机器人感知系统、机器人决策与规划系统、机器人动作生成系统。VLMs 通过结合视觉和语言信息,可以为机器人提供了更全面和深入的环境感知,更有效的任务规划,以及更精确的动作执行能力 ......


RoboFlamingo 有哪些核心突破?VLM 与具身智能的关系是什么?VLM 在具身智能领域有哪些价值和潜力?VLM 未来有哪些研究方向?... 查看完整解读请前往「机器之心PRO」业内通讯 · 2024年度#Week 03

「机器之心PRO」业内通讯 · 2024年度#Week 03

1. 推动 LLM-as-Agent 进入下一步的会是代码语料吗?

什么是以代码为中心的范式?代码语料较自然语言优势何在?以后做 LLM 必须要有代码语料吗?代码预训练的 LLM 做 Agent 会更强吗?...

2. VLM 的下一步是会更靠向支持 Robotics 吗?

RoboFlamingo 有哪些核心突破?VLM 与具身智能的关系是什么?VLM 在具身智能领域有哪些价值和潜力?VLM 下一步可以往哪走?...

3. 「AI for ALL」的 CES 2024 为何褒贬不一

CES 2024 展会整体情况如何?为何外媒、网友评价“让人眼前一亮的 AI 产品并不多”?展会中有哪些亮点产品?反映了今年 AI 的哪些趋势?...


↓↓↓ 关注「机器之心 PRO 会员」服务号,点击菜单栏「收件箱」查看往期通讯。


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
咱以为咱是谁纽约市高中收容无证客 学生被迫上网课挨轰!马斯克:下一步是到你家ICLR 2024 | 机器人领域首个开源视觉-语言操作大模型!RoboFlamingo框架激发开源VLMs更大潜能亚马逊14亿美元收购iRobot计划被搅黄!iRobot宣布裁员350人太刚了!Loblaws、Walmart公开反对新法规:"威胁"还要涨价!医疗反腐震动后,下一步是教培、互联网、金融……骁龙888实时运行!美团&浙大等打造移动端多模态大模型MobileVLM骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM里斯亭记录:老师,您辛苦了,抑郁症,小时候LLM准确率飙升27%!DeepMind提出全新「后退一步」Prompt技术Arxiv最热论文推荐:揭秘Transformer新身份、谷歌VLM蒸馏、复旦LEGO模型6054 血壮山河 卢沟桥之变 2352、长篇民国小说《永泰里》第十一章 铁蹄之下(1)买个机器人端茶倒水有希望了?Meta、纽约大学造了一个OK-Robot2024,更好还是会更糟The Royal Mint龙年限定纪念币£13起收!£3.9拿下Bobbi Brown眼霜Roth 401(k)的in-plan Roth Rollover推动 LLM-as-Agent 进入下一步的会是代码语料吗?开年"搞事",美联储降息还有戏吗?机构发"定心丸":2024不必再"躺平当赢"字节发布机器人领域首个开源视觉-语言操作大模型,激发开源VLMs更大潜能亚马逊“逃婚”赔天价分手费!iRobot裁员31%,CEO立即辞职!新一轮裁员潮下,这些公司却加薪了……推动LLM-as-Agent进入下一步的会是代码语料吗?Costco本周优惠:Roborock S7+机器人吸尘器和拖把吸尘器,现价$1099.99,省$200!AI早知道|联想发布新AI 应用;苹果将关闭 121 人的圣地亚哥人工智能团队;1X Robotics筹集 1 亿美元​AAAI 2024 | 视觉定位标注难?浙大赵天成博士团队提出零样本定位新SOTA模型GroundVLP坏男人的诗篇精选DS岗位 | Lucid Software、Kodiak Robotics、Ust Globa岗位发布!真实再现生物脊柱功能,老鼠机器人也能像杰瑞一样灵活,Science Robotics 发布老鼠机器人最新研究成果对话阿迪达斯萧家乐:加码中国市场,下一步是健身赛道Robot Transformers 是什么 Transformer?"蜗牛也是牛"!千亿公募"黄金搭档":用"蜗牛态度"做固收,挖掘"善良"的金融逻辑iRobot供应链迁移,在华业务失去存在感机器人领域首个开源视觉-语言操作大模型,RoboFlamingo框架激发开源VLMs更大潜能LLM 的下一站,推理这步大棋各路玩家都要怎么走?马蔚华、李一梅发声!ESG投资进入"深水区",下一步如何创新?robotics team初中的奖项,对大学申请有任何作用吗?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。