Redian新闻
>
ICCV 2023 | 用“自编码器+多模态学习”更有效地解决3D物体可供性问题

ICCV 2023 | 用“自编码器+多模态学习”更有效地解决3D物体可供性问题

科技
©PaperWeekly 原创 ·作者 | 梁远智
单位 | 悉尼科技大学
研究方向 | 具身智能

论文标题:

MAAL: Multimodality-Aware Autoencoder-based Affordance Learning for 3D Articulated Objects

论文链接:

https://openaccess.thecvf.com/content/ICCV2023/papers/Liang_MAAL_Multimodality-Aware_Autoencoder-Based_Affordance_Learning_for_3D_Articulated_Objects_ICCV_2023_paper.pdf


Affordance 即可供性,指环境属性使得个体的某种行为得以实施的可能性。在 3D 场景下,如果我们想要让机器人和环境中的物体做交互,让机器理解物体可供性是十分基础和必要的一个步骤。机器需要去理解物体在哪里可以施加作用力,并可以施加什么样的动作。例如,如果机器人需要操作桌面上的水瓶,它需要理解何处可以抓取和如何抓取,而后通过执行动作来移动水瓶。


进一步的,类似水瓶这样的简单物体并不要求机器有深刻的理解能力。它可以抓取瓶身、瓶颈等任意地方,都可以挪动瓶子。现实生活中,人类操作物体的需求要远比这复杂。我们会面临大量的,带有铰链的,有特殊结构的物体,比如柜子、水龙头、冰箱、洗衣机等等。这些物体存在相对复杂的内部构造,不仅仅是挪动整个物体,我们常常需要根据物体的内在结果来操作物体,比如打开柜门,按下按钮等等。这一系列带有铰链结构的,相对复杂的物体给机器人的理解和操作能力提出了更高的要求。


目前,一些针对于带铰链物体的可供性问题的研究工作已经展开。Where2act 提供了一个很好的 benchmark, 该工作提供了数据集、基准方法和评价指标等内容,为 3D 铰链物体的可供性问题的研究打下了基础。AdaAfford 更进一步,尝试去理解铰链物体的复杂的隐含的内部信息。通过多个 actor critic 网络,针对性的理解隐含信息和物体结构。


我们的工作进一步改进了可供性学习方法并使之更加高效。本文提出 Multimodality-Aware Autoencoder-based Affordance Learning(MAAL),其中主要提出两点改进:


1. 使用 Autoencoder(AE)来学习 3D 物体的可供性特性。AE 结构很好的解决了现有方法的两点问题:
  • AE 结构通过重建的方式学习物体的可供性特性。学习与重建的过程只需要可成功操作的正样本,而不需要在空间中随机的大量的采样无效的未能成功操作的负样本。这使得 MAAL 只使用较少量的数据即可学习到物体的可供性特征;
  • 基于 AE 的 MAAL 只需要一对 encoder 和 decoder,并不需要多个轮次多个阶段单独训练多个 actor 和 critic。整个训练过程可以一次完成,从而大大降低训练的时间。


2. MAAL进一步引入多模态学习模块,即 MultiModal Energized Encoder(MME)。之前的工作忽视了可供性问题中的多模态特性,3D 物体点云,机械臂动作所在的 SE(3) 空间,以及仿真获得的操作结果,三者的模态和数据分布并不一致。以往的工作没有特殊强调对于多模态数据的学习,往往使用简单直接的融合方法,将不同数据直接连接为一个向量送入网络学习。这一操作使网络难以高效的学习到不同模态的不同层次的信息。MME 对此提出针对性的设计,使得方法能够更有效的处理多模态信息并学习物体可供性。


本文提出的 MAAL 方法示意图如下:

其中包含三个模块:MME,action memory 和 action decoder。MAAL 的整体建构上,我们认为输入动作信息(gripper action,interact point),输入物体信息(object point cloud)和输入整体的交互信息(包含所有信息)都能够重建出当前输入的正确的动作信息。


因此,在模型中,encoder 会通过输入不同信息,分别输出三组不同的 query feature。三组 query feature 在同一个 action memory 中选择合适的 action memory feature。最后三组不同的 action memory feature 送入同一个 action decoder 得到重建的动作信息。


具体地,MME 的示意图如下:

MME 主要有两点:1. 不同于之前方法的简单前融合(early fusion)操作,我们使用相对更合理的中间层融合(intermediate fusion);2. MME 特别考虑不同模态间的交互,并设计有不同层级之间的特征融合。另外,考虑到用以选择的 action memory 对不同模态而言是通用的,因此最后的输出 query feature 的模块(action encoding module)也是 share weights 的。


接下来的 memory 部分,我们参考 memAE 在异常检测中的设计来实现。最后,在 decoder 部分,考虑到我们只需要重建 gripper action 而不需要记住所有的物体信息和交互点信息,这里设计了一个 shortcut 重新输入了point cloud feature 和交互点的信息。


在训练过程中,MAAL 只使用一个简单的重建损失来监督网络学习:

损失函数中,分别计算了不同模态的重建损失,并同时予以优化。


最后,在 MAAL 设计中,我们通过重建损失的大小来衡量当前 gripper action 的好坏。为了更加灵活的确定测试中的重建损失阈值,我们通过在 validation set 上的重建损失来训练一个 KNN model,并用于做测试。


在实验结果中,MAAL 也取得了较好的实验结果。

我们的多模态模块设计也切实的起到了很好的效果。通过更全面的考量多模态特性,MAAL 在 3D 可供性问题上的也获得了更好的效果。

此外,在训练时长上,MAAL 也体现出较大的优势:

而在可视化结果中,也较好的体现出 MAAL 习得 3D 物体可供性的有效性。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
GitHub 的人工智能编码聊天机器人现已可供个人使用NeurIPS 2023 | 浙大等提出C-MCR:连接多模态对比表征,无需配对数据就能学习!2023/08最新民调,台湾人对于独立还是统一是怎么看的?重磅课程再次升级,一次性搞定大模型多模态AIGC与强化学习 --《2023秋季AIGC大模型与强化学习前沿技术实战》 招生简章NeurIPS 2023 | 无需配对数据就能学习!浙大等提出连接多模态对比表征C-MCRSAM拿下ICCV 2023最佳论文荣誉提名奖!这些CV论文仍是顶流!2023 US Open 美国网球公开赛ICCV 2023 | 通用数据增强技术!适用于任意数据模态的随机量化破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型港科大谭平团队突破3D生成领域关键性问题,让多头怪不再出现实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了《编织梦幻的人·达利篇之一》AI具体可以解决哪些营销和运营的问题?如何解决?NeurIPS 2023|北京大学提出类别级6D物体位姿估计新范式,取得新SOTANeurIPS 2023 | 李飞飞团队提出SiamMAE:孪生掩码自编码器,刷榜视觉自监督方法!ICCV 2023 | 实现实时六自由度物体跟踪,深度主动轮廓模型DeepAC来了红色日记 8.1-31阿里夸克蒋冠军:大模型应用要解决知识正确性问题ICCV 2023 | 通向3D感知大模型的必由之路!UniTR:统一多模态Transformer Encoder!EMNLP 2023 | 通过化学知识和自然语言关联以增强生物领域的跨模态学习ICCV 2023 中国遥遥领先!华人拿下最佳论文和最佳学生论文!SAM和ControlNet开启CV新纪元!CVPR、ICCV 2023等顶会论文都在这里了!流程的存在,不是为了制造各种麻烦,而是为了解决3种问题揭秘编码器与解码器语言模型高精度低成本游戏3D人脸重建方案,腾讯AI Lab ICCV 2023论文解读JMT 2023.08.20游莱茵河,漂亮建筑Medusa: 简单高效地解决LLM的生成延迟什么是编码器?有哪些类型?这篇你不能错过。ICCV 2023 | 通用数据增强技术,随机量化适用于任意数据模态也求建议,我上周将前公司401K roll over 到了Fidelity,大概200K左右,准备买大盘股指数,该如何操作才好?基于多模态学习的虚假新闻检测研究ICCV 2023 | SparseBEV:高性能、全稀疏的纯视觉3D目标检测器US News 2023上海内推 | 小红书多模态算法组招聘多模态CV/NLP算法实习生后门准确率降至3%,主任务性能几乎不变!华工JHU提出全新「联邦学习后门攻击识别」解决方案|ICCV2023「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR|NeurIPS 2023偷情的风波旧帖珍藏(2)来自偶像加好友FionaRawson多模态物体幻觉下降23%!UNC斯坦福等推出通用修正器LURE:兼容任意LVLM,专攻三大幻觉成因
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。