CoRL 2023 | SA6D：针对被遮挡下新物体的自适应少样本6DoF姿态估计器

2023-10-26 04:10

©PaperWeekly 原创 · 作者 | 高宁

单位 | KIT & 博世人工智能中心

研究方向 | 小样本学习、自监督学习等

引言

6D 姿态估计是机器人操作中的关键方面之一。大多数现有方法在扩展预测到引入新物体实例的情况，尤其是在存在严重遮挡的情况下，都存在困难。在这项工作中，我们提出了一种新颖物体的少样本姿态估计（FSPE）方法，称为 SA6D，它使用自适应分割模块来识别新目标物体，并仅使用少量杂乱的参考图像构建目标物体的点云模型。

与现有方法不同，SA6D 不需要物体为中心的参考图像或任何额外的物体信息，使其成为一种更通用和可扩展的跨类别解决方案。我们在真实世界的桌面物体数据集上评估了 SA6D，并证明 SA6D 在杂乱的场景中，特别是在有遮挡的情况下，优于现有的 FSPE 方法，同时只需要更少的参考图像。

论文题目：

SA6D: Self-Adaptive Few-Shot 6D Pose Estimator for Novel and Occluded Objects

论文链接：

https://arxiv.org/abs/2308.16528

https://openreview.net/forum?id=gdkKi_F55h

项目链接：

https://sites.google.com/view/sa6d

引言

准确估计新颖物体的 6D 位姿对于机器人抓取至关重要，尤其是在桌面设置（Tabletop objects）中。之前的研究已经调查了实例级别的 6D 位姿估计，其中物体是预定义的。虽然这些方法在性能上表现出色，但它们容易过拟合到特定物体并且泛化能力差。

最近提出了一些用于进行类别级别的 6D 位姿估计的方法。然而，针对特定物体类别的条件限制了对具有强烈物体变化的新颖类别的泛化。与此同时，一些方法研究了可泛化的 6D 位姿估计，将其视为少样本学习问题，即在已知新物体的少量位姿的情况下以定义物体的规范坐标，预测新物体在不同场景和视角下的的 6D 位姿。

尽管取得了有望的结果，但这些方法迄今仅在未被遮挡和以物体为中心的图像上表现良好，即在没有其他物体干扰的情况下。这限制了在多物体混乱和遮挡场景中的现实场景中的泛化。此外，这些方法还需要额外的物体信息，如物体直径、网格模型、物体的 2D 边界框或真实的 mask，这并不总是适用于新颖物体类别。我们的方法旨在实现一个完全可泛化的少样本 6D 物体位姿估计（FSPE）模型。

因此，我们归纳了当前方法未能充分解决的三个主要挑战：i）在混乱的场景中进行无关类别的 6D 位姿估计，特别是在存在严重遮挡的情况下性能不佳。ii）来自混乱场景的以物体为中心的参考图像是通过目标物体的真实分割或边界框裁剪的，这限制了在现实场景中的泛化。iii）需要广泛的参考图像，涵盖所有不同视角，这在实际中不易获取。

▲ Fig.1 我们提出了一个通用且与类别无关的少样本 6D 物体姿态估计器，它使用少量姿态 RGB-D 图像作为参考。与现有方法相比，我们的方法在新颖物体上提供了鲁棒且准确的预测，不需要重新训练或任何物体信息。

为了解决上述挑战，我们提出了一种强大的自适应 6D 位姿估计方法，称为 SA6D。如上图所示，SA6D 使用 RGB-D 图像作为输入，因为 i）深度图像通常可以在机器人场景中很容易获取，而且 ii）深度图像可以揭示额外的几何特征，并提高对遮挡的预测鲁棒性。

SA6D 采用在线自适应分割模块来对比学习新颖目标物体与混乱场景参考图像的可区分表示。与此同时，从深度图像中构建物体的规范点云模型。在在线适应之后，分割模块能够从新图像中分割出目标物体并从深度中构建局部点云。

我们的工作重点针对用于机器人操作的桌面物体场景下。我们的主要贡献总结如下：

SA6D 可以在不需要任何物体或类别信息，如真实分割、网格模型或物体为中心的图像的情况下，完全泛化到新数据集。相反，只需要少量带有预测物体的真值 6D 姿态的 RGB-D 参考图像。
提出了自适应分割模块，用于在推断过程中学习新颖物体的可区分表示。
SA6D 在完全基于合成数据进行训练的情况下，在现实场景中对抗遮挡的能力明显优于当前最先进的方法。

方法

SA6D 由三个部分组成，即在线自适应模块（OSM）用于从混乱的场景中分割目标对象，区域提案模块（RPM）用于针对遮挡推断目标对象的感兴趣区域（ROI），以及细化模块（RFM）利用视觉和推断的几何特征来精确调整目标对象的预测 6D 姿态。所提出的流程如下图所示。

▲ Fig.2 概览

SA6D 包括三个模块：i）在线自适应模块 利用几张姿势参考的 RGB-D 图像来从混杂的场景中发现和分割目标物体（如图中奶牛）。随后，基于这些分割部分构建了来自参考图像的规范物体点云模型和来自测试图像的局部点云模型。ii）区域提议模块 通过整合视觉和几何特征，输出目标物体的稳定感兴趣区域（ROI）以抵抗遮挡。然后，通过比较裁剪后的测试和参考图像，使用 Gen6D 估计了一个粗略的 6D 姿势，iii）并使用 ICP 在细化模块进行进一步的微调。

3.1 在线自适应模块

▲ Fig.3 在线自适应模块（OSM）

首先，对参考图像应用预训练的分割器以预测分割结果。同时，从初始化自适应分割器。利用参考图像中目标物体的真实平移，可以将物体中心重新映射到图像中。对于每个参考图像，如果包括重新映射的物体中心，就选择一个分割作为正样本，而其余分割被视为负样本。

随后，通过从中平均像素级稠密特征来计算每个分割的物体级表示。然后，对正负物体表示应用对比损失，迭代更新。自适应后，通过对参考图像中所有正样本表示求平均生成目标物体表示。给定一张测试图像，以相同方式获取每个候选分割的表示，并计算每个候选与之间的余弦相似度，选择最相似的候选作为目标物体的分割。同时，基于分割和深度图像计算规范全局和局部物体模型。

在正负分割样本之间，我们采用对比损失函数来更逊自适应分割器，损失函数的定义如下图所示

▲ Fig.4 自适应损失函数

实验结果

我们使用两种与我们工作最相关的基准，即 LatentFusion（LF）和 Gen6D。除了输入图像，LatentFusion 需要目标对象的真实分割作为输入，而 Gen6D 需要物体直径作为输入。相反，我们的方法不需要任何额外的信息。我们还将 SA6D 与以 RGB-D 作为输入的类别级别 SOTA 方法进行比较。值得注意的是，SA6D 没有针对特定类别进行训练，而所有类别级别的基准都是针对同一类别内的对象进行训练和测试的。

▲ Fig.5 Qualitative results。绿色边界框表示真值位姿，蓝色表示预测。在 SA6D 中，蓝色表示 refine 之前的预测，而红色是最终预测。

▲ Fig.6 Quantitative results。LineMOD, LineMOD-OCC, HomeBrewedDB 和 FewSOL 为跨类别泛化实验，Wild6D 为类别级泛化上的实验。

与跨类别方法的比较。如 Table 1 所示，尽管基准方法在 LineMOD 数据集上表现出有望的结果，但它们在遮挡数据集（LineMOD-OCC 和 HomeBrewedDB）上表现不佳，不能泛化。相比之下，即使不需要真实分割或物体直径，SA6D 仍然显著提高了所有数据集的性能，特别是在提供较少参考图像或物体遮挡的情况下。

此外，在没有真实分割的情况下，SA6D 在遮挡数据集上仍然远远优于 LatentFusion。如 Table 2 所示，SA6D 能够泛化到大的物体变化，而 LatentFusion 甚至在没有遮挡的情况下也不能泛化。

我们发现，LatentFusion 需要高质量的深度图像和更多的参考图像来重建潜在表示，并且在扁平物体上表现不佳（示例在 Fig.5 中显示）。此外，即使在精细化模块（RFM）中不使用几何特征，SA6D 在大幅度上优于 Gen6D。原因是，Gen6D 在 FewSOL 数据集中难以定位目标物体，因为 FewSOL 数据集中评估的物体靠近摄像机，并占据比训练数据集大得多的区域，表明 Gen6D 在分布之外的数据上泛化能力差。相比之下，SA6D 中使用的区域提取模块（RPM）缓解了这个问题。

与类别级方法的比较。Table 3 展示了在 Wild6D 数据集上与类别级 SOTA 方法的比较。尽管 SA6D 没有针对每个类别进行专门训练，但它总体上取得了竞争性的性能，甚至在使用更严格标准 5°2cm 时优于基线方法，这表明 SA6D 可以预测比所有基线方法更准确的姿势。在附录中，我们还可视化了 SA6D 和 RePoNet 的预测以进行比较。

▲ Fig.7 消融实验。（a）准确率 vs 参考图像的数量。（b）准确率 vs 在线迭代次数。（c）SA6D（红色）和 Gen6D（蓝色）提出的感兴趣区域（ROI）示例，红色十字标志着目标对象的位置。

准确性与参考图像数量的分析。我们在 Fig.7(a) 中报告了关于参考图像数量的 ADD-0.1d 准确度。增加参考图像的数量通常有利于所有方法，除了 LatentFusion 有时性能会下降，这是因为遮挡严重的参考图像可能会因在线渲染而显著改变其潜在空间中的隐式表示。值得注意的是，SA6D 的性能一直优于 baselines，并且在仅给一张参考图像（one-shot）的情况下仍能显示出合理的预测。

在线自适应分析。在在线自适应模块中，SA6D 相对于迭代次数的性能在 LineMOD-OCC/driller 上显示在 Fig.7(b) 中。刚开始时，SA6D 性能较差，因为自适应分割器无法学习并区分目标对象与其他对象的表示，这也导致性能下降。经过 12 次迭代，具备了可区分的目标对象表示后，SA6D 性能显著提高。随着更多的迭代，性能再次下降，因为更新的分割器开始过度拟合参考图像。

我们通过在 Fig.4 中的对比损失的定义阈值自动停止更新来防止过拟合。在我们的实验中，我们将阈值设置为所有数据集上的而无需在各个数据集上微调就能获得好的效果。