ICCV 2023 | 用“自编码器+多模态学习”更有效地解决3D物体可供性问题

科技

2023-10-30 10:10

©PaperWeekly 原创 ·作者 | 梁远智

单位 | 悉尼科技大学

研究方向 | 具身智能

论文标题：

MAAL: Multimodality-Aware Autoencoder-based Affordance Learning for 3D Articulated Objects

论文链接：

https://openaccess.thecvf.com/content/ICCV2023/papers/Liang_MAAL_Multimodality-Aware_Autoencoder-Based_Affordance_Learning_for_3D_Articulated_Objects_ICCV_2023_paper.pdf

Affordance 即可供性，指环境属性使得个体的某种行为得以实施的可能性。在 3D 场景下，如果我们想要让机器人和环境中的物体做交互，让机器理解物体可供性是十分基础和必要的一个步骤。机器需要去理解物体在哪里可以施加作用力，并可以施加什么样的动作。例如，如果机器人需要操作桌面上的水瓶，它需要理解何处可以抓取和如何抓取，而后通过执行动作来移动水瓶。

进一步的，类似水瓶这样的简单物体并不要求机器有深刻的理解能力。它可以抓取瓶身、瓶颈等任意地方，都可以挪动瓶子。现实生活中，人类操作物体的需求要远比这复杂。我们会面临大量的，带有铰链的，有特殊结构的物体，比如柜子、水龙头、冰箱、洗衣机等等。这些物体存在相对复杂的内部构造，不仅仅是挪动整个物体，我们常常需要根据物体的内在结果来操作物体，比如打开柜门，按下按钮等等。这一系列带有铰链结构的，相对复杂的物体给机器人的理解和操作能力提出了更高的要求。

目前，一些针对于带铰链物体的可供性问题的研究工作已经展开。Where2act 提供了一个很好的 benchmark, 该工作提供了数据集、基准方法和评价指标等内容，为 3D 铰链物体的可供性问题的研究打下了基础。AdaAfford 更进一步，尝试去理解铰链物体的复杂的隐含的内部信息。通过多个 actor critic 网络，针对性的理解隐含信息和物体结构。

我们的工作进一步改进了可供性学习方法并使之更加高效。本文提出 Multimodality-Aware Autoencoder-based Affordance Learning（MAAL），其中主要提出两点改进：

1. 使用 Autoencoder（AE）来学习 3D 物体的可供性特性。AE 结构很好的解决了现有方法的两点问题：

AE 结构通过重建的方式学习物体的可供性特性。学习与重建的过程只需要可成功操作的正样本，而不需要在空间中随机的大量的采样无效的未能成功操作的负样本。这使得 MAAL 只使用较少量的数据即可学习到物体的可供性特征；
基于 AE 的 MAAL 只需要一对 encoder 和 decoder，并不需要多个轮次多个阶段单独训练多个 actor 和 critic。整个训练过程可以一次完成，从而大大降低训练的时间。

2. MAAL进一步引入多模态学习模块，即 MultiModal Energized Encoder（MME）。之前的工作忽视了可供性问题中的多模态特性，3D 物体点云，机械臂动作所在的 SE(3) 空间，以及仿真获得的操作结果，三者的模态和数据分布并不一致。以往的工作没有特殊强调对于多模态数据的学习，往往使用简单直接的融合方法，将不同数据直接连接为一个向量送入网络学习。这一操作使网络难以高效的学习到不同模态的不同层次的信息。MME 对此提出针对性的设计，使得方法能够更有效的处理多模态信息并学习物体可供性。

本文提出的 MAAL 方法示意图如下：

其中包含三个模块：MME，action memory 和 action decoder。MAAL 的整体建构上，我们认为输入动作信息（gripper action，interact point），输入物体信息（object point cloud）和输入整体的交互信息（包含所有信息）都能够重建出当前输入的正确的动作信息。

因此，在模型中，encoder 会通过输入不同信息，分别输出三组不同的 query feature。三组 query feature 在同一个 action memory 中选择合适的 action memory feature。最后三组不同的 action memory feature 送入同一个 action decoder 得到重建的动作信息。

具体地，MME 的示意图如下：

MME 主要有两点：1. 不同于之前方法的简单前融合（early fusion）操作，我们使用相对更合理的中间层融合（intermediate fusion）；2. MME 特别考虑不同模态间的交互，并设计有不同层级之间的特征融合。另外，考虑到用以选择的 action memory 对不同模态而言是通用的，因此最后的输出 query feature 的模块（action encoding module）也是 share weights 的。

接下来的 memory 部分，我们参考 memAE 在异常检测中的设计来实现。最后，在 decoder 部分，考虑到我们只需要重建 gripper action 而不需要记住所有的物体信息和交互点信息，这里设计了一个 shortcut 重新输入了point cloud feature 和交互点的信息。

在训练过程中，MAAL 只使用一个简单的重建损失来监督网络学习：