Redian新闻
>
CoRL 2023 | SA6D:针对被遮挡下新物体的自适应少样本6DoF姿态估计器

CoRL 2023 | SA6D:针对被遮挡下新物体的自适应少样本6DoF姿态估计器

科技
©PaperWeekly 原创 · 作者 | 高宁
单位 | KIT & 博世人工智能中心
研究方向 | 小样本学习、自监督学习等



引言

6D 姿态估计是机器人操作中的关键方面之一。大多数现有方法在扩展预测到引入新物体实例的情况,尤其是在存在严重遮挡的情况下,都存在困难。在这项工作中,我们提出了一种新颖物体的少样本姿态估计(FSPE)方法,称为 SA6D,它使用自适应分割模块来识别新目标物体,并仅使用少量杂乱的参考图像构建目标物体的点云模型。

与现有方法不同,SA6D 不需要物体为中心的参考图像或任何额外的物体信息,使其成为一种更通用和可扩展的跨类别解决方案。我们在真实世界的桌面物体数据集上评估了 SA6D,并证明 SA6D 在杂乱的场景中,特别是在有遮挡的情况下,优于现有的 FSPE 方法,同时只需要更少的参考图像。

论文题目:

SA6D: Self-Adaptive Few-Shot 6D Pose Estimator for Novel and Occluded Objects

论文链接:

https://arxiv.org/abs/2308.16528

https://openreview.net/forum?id=gdkKi_F55h

项目链接:

https://sites.google.com/view/sa6d




引言

准确估计新颖物体的 6D 位姿对于机器人抓取至关重要,尤其是在桌面设置(Tabletop objects)中。之前的研究已经调查了实例级别的 6D 位姿估计,其中物体是预定义的。虽然这些方法在性能上表现出色,但它们容易过拟合到特定物体并且泛化能力差。
最近提出了一些用于进行类别级别的 6D 位姿估计的方法。然而,针对特定物体类别的条件限制了对具有强烈物体变化的新颖类别的泛化。与此同时,一些方法研究了可泛化的 6D 位姿估计,将其视为少样本学习问题,即在已知新物体的少量位姿的情况下以定义物体的规范坐标,预测新物体在不同场景和视角下的的 6D 位姿。
尽管取得了有望的结果,但这些方法迄今仅在未被遮挡和以物体为中心的图像上表现良好,即在没有其他物体干扰的情况下。这限制了在多物体混乱和遮挡场景中的现实场景中的泛化。此外,这些方法还需要额外的物体信息,如物体直径、网格模型、物体的 2D 边界框或真实的 mask,这并不总是适用于新颖物体类别。我们的方法旨在实现一个完全可泛化的少样本 6D 物体位姿估计(FSPE)模型。

因此,我们归纳了当前方法未能充分解决的三个主要挑战:i)在混乱的场景中进行无关类别的 6D 位姿估计,特别是在存在严重遮挡的情况下性能不佳。ii)来自混乱场景的以物体为中心的参考图像是通过目标物体的真实分割或边界框裁剪的,这限制了在现实场景中的泛化。iii)需要广泛的参考图像,涵盖所有不同视角,这在实际中不易获取。

▲  Fig.1 我们提出了一个通用且与类别无关的少样本 6D 物体姿态估计器,它使用少量姿态 RGB-D 图像作为参考。与现有方法相比,我们的方法在新颖物体上提供了鲁棒且准确的预测,不需要重新训练或任何物体信息。

为了解决上述挑战,我们提出了一种强大的自适应 6D 位姿估计方法,称为 SA6D。如上图所示,SA6D 使用 RGB-D 图像作为输入,因为 i)深度图像通常可以在机器人场景中很容易获取,而且 ii)深度图像可以揭示额外的几何特征,并提高对遮挡的预测鲁棒性。

SA6D 采用在线自适应分割模块来对比学习新颖目标物体与混乱场景参考图像的可区分表示与此同时,从深度图像中构建物体的规范点云模型。在在线适应之后,分割模块能够从新图像中分割出目标物体并从深度中构建局部点云。

我们的工作重点针对用于机器人操作的桌面物体场景下。我们的主要贡献总结如下:

  • SA6D 可以在不需要任何物体或类别信息,如真实分割、网格模型或物体为中心的图像的情况下,完全泛化到新数据集。相反,只需要少量带有预测物体的真值 6D 姿态的 RGB-D 参考图像。
  • 提出了自适应分割模块,用于在推断过程中学习新颖物体的可区分表示。
  • SA6D 在完全基于合成数据进行训练的情况下,在现实场景中对抗遮挡的能力明显优于当前最先进的方法。



方法

SA6D 由三个部分组成,即在线自适应模块(OSM)用于从混乱的场景中分割目标对象,区域提案模块(RPM)用于针对遮挡推断目标对象的感兴趣区域(ROI),以及细化模块(RFM)利用视觉和推断的几何特征来精确调整目标对象的预测 6D 姿态。所提出的流程如下图所示。

▲ Fig.2 概览

SA6D 包括三个模块:i)在线自适应模块 利用几张姿势参考的 RGB-D 图像来从混杂的场景中发现和分割目标物体(如图中奶牛)。随后,基于这些分割部分构建了来自参考图像的规范物体点云模型和来自测试图像的局部点云模型。ii)区域提议模块 通过整合视觉和几何特征,输出目标物体的稳定感兴趣区域(ROI)以抵抗遮挡。然后,通过比较裁剪后的测试和参考图像,使用 Gen6D 估计了一个粗略的 6D 姿势,iii)并使用 ICP 在细化模块进行进一步的微调。

3.1 在线自适应模块

▲ Fig.3 在线自适应模块(OSM)

首先,对参考图像应用预训练的分割器 以预测分割结果。同时,从 初始化自适应分割器 。利用参考图像中目标物体的真实平移,可以将物体中心重新映射到图像中。对于每个参考图像,如果包括重新映射的物体中心,就选择一个分割作为正样本,而其余分割被视为负样本。
随后,通过从 中平均像素级稠密特征来计算每个分割的物体级表示。然后,对正负物体表示应用对比损失,迭代更新 。自适应后, 通过对参考图像中所有正样本表示求平均生成目标物体表示 。给定一张测试图像,以相同方式获取每个候选分割的表示,并计算每个候选与 之间的余弦相似度,选择最相似的候选作为目标物体的分割。同时,基于分割和深度图像计算规范全局和局部物体模型。
在正负分割样本之间,我们采用对比损失函数来更逊自适应分割器 , 损失函数的定义如下图所示

▲ Fig.4 自适应损失函数




实验结果
我们使用两种与我们工作最相关的基准,即 LatentFusion(LF)和 Gen6D。除了输入图像,LatentFusion 需要目标对象的真实分割作为输入,而 Gen6D 需要物体直径作为输入。相反,我们的方法不需要任何额外的信息。我们还将 SA6D 与以 RGB-D 作为输入的类别级别 SOTA 方法进行比较。值得注意的是,SA6D 没有针对特定类别进行训练,而所有类别级别的基准都是针对同一类别内的对象进行训练和测试的。

▲ Fig.5 Qualitative results。绿色边界框表示真值位姿,蓝色表示预测。在 SA6D 中,蓝色表示 refine 之前的预测,而红色是最终预测。

▲ Fig.6 Quantitative results。LineMOD, LineMOD-OCC, HomeBrewedDB 和 FewSOL 为跨类别泛化实验,Wild6D 为类别级泛化上的实验。

与跨类别方法的比较如 Table 1 所示,尽管基准方法在 LineMOD 数据集上表现出有望的结果,但它们在遮挡数据集(LineMOD-OCC 和 HomeBrewedDB)上表现不佳,不能泛化。相比之下,即使不需要真实分割或物体直径,SA6D 仍然显著提高了所有数据集的性能,特别是在提供较少参考图像或物体遮挡的情况下。

此外,在没有真实分割的情况下,SA6D 在遮挡数据集上仍然远远优于 LatentFusion。如 Table 2 所示,SA6D 能够泛化到大的物体变化,而 LatentFusion 甚至在没有遮挡的情况下也不能泛化。

我们发现,LatentFusion 需要高质量的深度图像和更多的参考图像来重建潜在表示,并且在扁平物体上表现不佳(示例在 Fig.5 中显示)。此外,即使在精细化模块(RFM)中不使用几何特征,SA6D 在大幅度上优于 Gen6D。原因是,Gen6D 在 FewSOL 数据集中难以定位目标物体,因为 FewSOL 数据集中评估的物体靠近摄像机,并占据比训练数据集大得多的区域,表明 Gen6D 在分布之外的数据上泛化能力差。相比之下,SA6D 中使用的区域提取模块(RPM)缓解了这个问题。

与类别级方法的比较Table 3 展示了在 Wild6D 数据集上与类别级 SOTA 方法的比较。尽管 SA6D 没有针对每个类别进行专门训练,但它总体上取得了竞争性的性能,甚至在使用更严格标准 5°2cm 时优于基线方法,这表明 SA6D 可以预测比所有基线方法更准确的姿势。在附录中,我们还可视化了 SA6D 和 RePoNet 的预测以进行比较。

▲ Fig.7 消融实验。(a)准确率 vs 参考图像的数量。(b)准确率 vs 在线迭代次数。(c)SA6D(红色)和 Gen6D(蓝色)提出的感兴趣区域(ROI)示例,红色十字标志着目标对象的位置。

准确性与参考图像数量的分析我们在 Fig.7(a) 中报告了关于参考图像数量的 ADD-0.1d 准确度。增加参考图像的数量通常有利于所有方法,除了 LatentFusion 有时性能会下降,这是因为遮挡严重的参考图像可能会因在线渲染而显著改变其潜在空间中的隐式表示。值得注意的是,SA6D 的性能一直优于 baselines,并且在仅给一张参考图像(one-shot)的情况下仍能显示出合理的预测。

在线自适应分析在在线自适应模块中,SA6D 相对于迭代次数的性能在 LineMOD-OCC/driller 上显示在 Fig.7(b) 中。刚开始时,SA6D 性能较差,因为自适应分割器 无法学习并区分目标对象与其他对象的表示,这也导致性能下降。经过 12 次迭代,具备了可区分的目标对象表示后,SA6D 性能显著提高。随着更多的迭代,性能再次下降,因为更新的分割器 开始过度拟合参考图像。
我们通过在 Fig.4 中的对比损失的定义阈值自动停止更新 来防止过拟合。在我们的实验中,我们将阈值设置为所有数据集上的  而无需在各个数据集上微调就能获得好的效果。

▲  Fig.8 讨论。(a)在重新投影的目标物体(奶牛)中心被另一个物体(黄兔子)遮挡的情况下,选择了一个错误的样本作为正样本。尽管如此,(b)SA6D 提供了具有可解释置信度分数的稳定预测,体现出 OSM 对 false positive sample 的鲁棒性。




总结

我们提出了一种能够高效而稳定的对带有严重遮挡的新颖物体的 6D 位姿估计方法,而不需要任何物体信息或物体中心化图像的输入。我们希望我们的方法可以促进机器人应用中的通用性 6D 物体姿态估计。感兴趣的同学欢迎查看论文原文了解更多细节和结果。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
2023 US Open 美国网球公开赛隐形的翅膀缅北一地官方发文:针对中国公民的诈骗将全面清理!我曾经所迷恋的和至今不能忘却的2023/08最新民调,台湾人对于独立还是统一是怎么看的?ICCV 2023 Oral | 南科大提出SGA:针对VLP模型的集合级引导攻击历时7年从小行星取回样本,但NASA打不开样本舱了FBI局长警告:针对美国人恐袭上升到“全新水平”!杰克·卢任美国驻以大使!FBI称反亚裔仇恨犯罪数下降!美将向中东增派3百名美军上海交大&蚂蚁提出四合一物体传送门,向场景中可控传送物体HCSSA|哈佛学联百家谈 - 严飞教授——被遮蔽与被遗忘的:看见看不见的(中国)松了一口气!有人想在波士顿华埠开“新店”,遭强烈反对被否决缅甸一地发文:针对中国公民的诈骗将全面清理"不雅照OUT"iPhone用户快打开这功能帮你挡下骚扰影像US News 2023WACV 2024 | SAFA:高效时空视频超分辨率的尺度自适应特征聚合李飞飞团队新作:脑控机器人做家务,让脑机接口具备少样本学习能力ACM MM 2023 | DecenterNet:解决拥挤场景的去中心化人体姿态估计方法一石二鸟:自适应环境能量收集 | NSR斯里兰卡|总统质疑:针对人权问题,公平何在?!加沙一套,斯里兰卡另一套!求职面试必说3个谎!西雅图招聘经理曝这些事"太诚实"绝对被刷掉Vojtux:针对视力障碍用户改造 Linux | Linux 中国《中国之声》&《下辈子不一定还能遇见你》EMNLP2023 | LLMs也许不擅长少样本信息提取,但可以为候选答案重新排序!NeurIPS 2023|北京大学提出类别级6D物体位姿估计新范式,取得新SOTA芝加哥枪案!男子欲参加万圣节派对被拒,气急败坏用枪射击,至少15人中枪在法庭上对被告拔出上膛的手枪 纽约法官涉种族主义被免职JMT 2023.08.20缅北一地官方发文:针对中国公民的诈骗将全面清理!美将向乌提供贫铀弹,还准备重新在英部署核武器?俄方回应丨早报ICCV 2023 | 面向视觉-语言导航的实体-标志物对齐自适应预训练方法ICCV 2023 | DomainAdaptor:测试阶段自适应新方法【七律】《江南采莲》 押平水韵七阳性能强劲又通用!Meta-CoT: 混合问题场景下的自适应思维链推理七夕何夕​CIKM 2023 | 为序列推荐引入自适应以及个性化全局协同信息的通用框架自适应流媒体智能传输优化研究也求建议,我上周将前公司401K roll over 到了Fidelity,大概200K左右,准备买大盘股指数,该如何操作才好?华人小心!跟踪下班回家下手…警:针对亚裔,已成全国趋势!直播预告 | SemEval 2023最佳论文:针对命名实体识别的统一检索增强方法11月必看!“新世界三大男高音”Juan Diego Flórez首次亮相澳洲!清华智能产业研究院周浩:开发「少样本依赖分子生成模型」以实现鲁棒精准的分子设计
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。