CoRL 2023 | SA6D:针对被遮挡下新物体的自适应少样本6DoF姿态估计器
引言
与现有方法不同,SA6D 不需要物体为中心的参考图像或任何额外的物体信息,使其成为一种更通用和可扩展的跨类别解决方案。我们在真实世界的桌面物体数据集上评估了 SA6D,并证明 SA6D 在杂乱的场景中,特别是在有遮挡的情况下,优于现有的 FSPE 方法,同时只需要更少的参考图像。
论文题目:
SA6D: Self-Adaptive Few-Shot 6D Pose Estimator for Novel and Occluded Objects
https://arxiv.org/abs/2308.16528
https://openreview.net/forum?id=gdkKi_F55h
https://sites.google.com/view/sa6d
引言
因此,我们归纳了当前方法未能充分解决的三个主要挑战:i)在混乱的场景中进行无关类别的 6D 位姿估计,特别是在存在严重遮挡的情况下性能不佳。ii)来自混乱场景的以物体为中心的参考图像是通过目标物体的真实分割或边界框裁剪的,这限制了在现实场景中的泛化。iii)需要广泛的参考图像,涵盖所有不同视角,这在实际中不易获取。
▲ Fig.1 我们提出了一个通用且与类别无关的少样本 6D 物体姿态估计器,它使用少量姿态 RGB-D 图像作为参考。与现有方法相比,我们的方法在新颖物体上提供了鲁棒且准确的预测,不需要重新训练或任何物体信息。
为了解决上述挑战,我们提出了一种强大的自适应 6D 位姿估计方法,称为 SA6D。如上图所示,SA6D 使用 RGB-D 图像作为输入,因为 i)深度图像通常可以在机器人场景中很容易获取,而且 ii)深度图像可以揭示额外的几何特征,并提高对遮挡的预测鲁棒性。
SA6D 采用在线自适应分割模块来对比学习新颖目标物体与混乱场景参考图像的可区分表示。与此同时,从深度图像中构建物体的规范点云模型。在在线适应之后,分割模块能够从新图像中分割出目标物体并从深度中构建局部点云。
我们的工作重点针对用于机器人操作的桌面物体场景下。我们的主要贡献总结如下:
SA6D 可以在不需要任何物体或类别信息,如真实分割、网格模型或物体为中心的图像的情况下,完全泛化到新数据集。相反,只需要少量带有预测物体的真值 6D 姿态的 RGB-D 参考图像。 提出了自适应分割模块,用于在推断过程中学习新颖物体的可区分表示。 SA6D 在完全基于合成数据进行训练的情况下,在现实场景中对抗遮挡的能力明显优于当前最先进的方法。
方法
SA6D 由三个部分组成,即在线自适应模块(OSM)用于从混乱的场景中分割目标对象,区域提案模块(RPM)用于针对遮挡推断目标对象的感兴趣区域(ROI),以及细化模块(RFM)利用视觉和推断的几何特征来精确调整目标对象的预测 6D 姿态。所提出的流程如下图所示。
SA6D 包括三个模块:i)在线自适应模块 利用几张姿势参考的 RGB-D 图像来从混杂的场景中发现和分割目标物体(如图中奶牛)。随后,基于这些分割部分构建了来自参考图像的规范物体点云模型和来自测试图像的局部点云模型。ii)区域提议模块 通过整合视觉和几何特征,输出目标物体的稳定感兴趣区域(ROI)以抵抗遮挡。然后,通过比较裁剪后的测试和参考图像,使用 Gen6D 估计了一个粗略的 6D 姿势,iii)并使用 ICP 在细化模块进行进一步的微调。
3.1 在线自适应模块
▲ Fig.3 在线自适应模块(OSM)
▲ Fig.5 Qualitative results。绿色边界框表示真值位姿,蓝色表示预测。在 SA6D 中,蓝色表示 refine 之前的预测,而红色是最终预测。
与跨类别方法的比较。如 Table 1 所示,尽管基准方法在 LineMOD 数据集上表现出有望的结果,但它们在遮挡数据集(LineMOD-OCC 和 HomeBrewedDB)上表现不佳,不能泛化。相比之下,即使不需要真实分割或物体直径,SA6D 仍然显著提高了所有数据集的性能,特别是在提供较少参考图像或物体遮挡的情况下。
此外,在没有真实分割的情况下,SA6D 在遮挡数据集上仍然远远优于 LatentFusion。如 Table 2 所示,SA6D 能够泛化到大的物体变化,而 LatentFusion 甚至在没有遮挡的情况下也不能泛化。
我们发现,LatentFusion 需要高质量的深度图像和更多的参考图像来重建潜在表示,并且在扁平物体上表现不佳(示例在 Fig.5 中显示)。此外,即使在精细化模块(RFM)中不使用几何特征,SA6D 在大幅度上优于 Gen6D。原因是,Gen6D 在 FewSOL 数据集中难以定位目标物体,因为 FewSOL 数据集中评估的物体靠近摄像机,并占据比训练数据集大得多的区域,表明 Gen6D 在分布之外的数据上泛化能力差。相比之下,SA6D 中使用的区域提取模块(RPM)缓解了这个问题。
▲ Fig.7 消融实验。(a)准确率 vs 参考图像的数量。(b)准确率 vs 在线迭代次数。(c)SA6D(红色)和 Gen6D(蓝色)提出的感兴趣区域(ROI)示例,红色十字标志着目标对象的位置。
准确性与参考图像数量的分析。我们在 Fig.7(a) 中报告了关于参考图像数量的 ADD-0.1d 准确度。增加参考图像的数量通常有利于所有方法,除了 LatentFusion 有时性能会下降,这是因为遮挡严重的参考图像可能会因在线渲染而显著改变其潜在空间中的隐式表示。值得注意的是,SA6D 的性能一直优于 baselines,并且在仅给一张参考图像(one-shot)的情况下仍能显示出合理的预测。
▲ Fig.8 讨论。(a)在重新投影的目标物体(奶牛)中心被另一个物体(黄兔子)遮挡的情况下,选择了一个错误的样本作为正样本。尽管如此,(b)SA6D 提供了具有可解释置信度分数的稳定预测,体现出 OSM 对 false positive sample 的鲁棒性。
总结
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者