Redian新闻
>
ICLR 2023 | 借助部件级SE(3)等变性的自监督铰接物体位姿估计方法

ICLR 2023 | 借助部件级SE(3)等变性的自监督铰接物体位姿估计方法

科技





研究背景与动机

本文旨在探讨铰接物体位姿估计的自监督解法。这个问题本身的价值、以往有监督解法的局限性,和自监督解法直观上的可行性是我们开展相应研究的动机。

论文链接:
https://arxiv.org/abs/2302.14268

代码地址:

https://github.com/Meowuu7/equi-articulated-pose

项目主页:

https://equi-articulated-pose.github.io

问题层面的价值:铰接物体广泛存在于我们日常生活中的各种场景之中。人类从婴儿时期便开始逐渐接触这些物体并在一系列尝试和反馈之中学到了如何与这些物体进行交互,比如拉开书桌的抽屉。完成这一简单的动作的瞬间,我们的大脑几乎无意识地从所观测的物体之上获得了那个部分是这个书桌的抽屉,这个抽屉是可以被拉开的,以及可以支持多大幅度的拉开(不会飞出去)等等这些信息。
如果我们想要机器也具有这样的感知世界并与世界中的物体进行交互的能力,设计算法使其具有将物体分成不同的部分(在此称之为部件分割),理解每个部分在空间中的位置(称之为部件位姿),和可以怎样操控这些部分就变得十分重要。
数据标注的昂贵:但设计算法使得机器具有如上的理解(在这里我们关注铰接物体位姿估计的问题)远非如人类自身自然而然地产生相应理解般轻松。以往的方法往往依赖于有部件分割、部件位姿等相关的人工标注[1]然而标注相关的数据往往是繁琐和昂贵的。这样的对有标注数据的依赖使得前人的方法往往只能在合成数据集上训练,而无法使用更多的无标注的数据来得到更加强大、泛化能力更强的模型。这也进一步使得他们的算法失去了更为广阔的应用前景。
反之,不依赖于标注的自监督解法可以用更多的、更加接近现实世界的数据来训练。从而我们有望基于此设计更为强大的模型,使得机器真正具有获得人类理解铰接物体的能力。
自监督解法的可行性:通过观察大量的处在不同状态下的铰接物体,比如下图所示的很多被随意摆放的眼镜,人类可以容易地做到如下的事情:人类可以轻松地按照如上的方式解决我们的铰接物体位姿估计问题。这是我们设计算法通过完成如上的分析来在没有标注信息的情况下解决铰接物体位姿估计这个问题的主要信心来源。
1. 将每个眼镜分成不同的运动部分,即部件分割
2. 每个眼镜摆正时的形状,比如下图右下角的眼镜整体正对前方且每个镜腿和镜框夹角为 90° 的眼镜,我们称之为铰接物体标准型
3. 每个眼镜的每个部分相对于它们被摆正的状态的位姿,即部件位姿

1.1 方法设计思想简述

解决该问题需要我们将铰接物体标准型和部件位姿这些信息从输入的形状中解耦出来。这些信息在使用普通的网络(如 PointNet++)所得到的普通的几何特征中往往耦合在一起——这使得仅仅使用自监督信号来从中实现所希望的分解是很困难的。我们观察到铰接物体的部件位姿具有部件级 SE(3) 等变性——即每个部件的位姿只等变于该部件在空间中的位置,而与其他部件无关。同时其标准型具有部件级 SE(3) 不变性,即与任一部件的位置都无关。

上述非常直观的性质促使我们构思设计部件级 SE(3) 等变网络,来从输入物体中获得具有相应等变性质的几何特征。相较于普通的特征,这样的等变特征和部件位姿更相合,从而自监督的强度便足以使我们完成对所关注信息的解耦。
1.2 本文的主要贡献
  • 部件级别 SE(3) 等变运算方法的设计;
  • 结合部件级别 SE(3) 等变特征,设计铰接物体部件位姿估计的方法,从而无需额外监督即可以完成部件位姿估计的任务。



背景知识与相关工作

SE(3) 等变网络及其应用SE(3)等变网络的设计和其应用在近几年取得了广泛的关注 [2.3.4.5.6]。经典的 SE(3) 等变网络通过巧妙设计卷积核 [2,3] 或者扩展表征向量维度并设计对应的卷积方式来实现表征层面上 [5,6] 的等变性。

当输入的数据进行了 SE(3) 空间中的一种变化时,这种网络所得到的特征向量也会以某种方式做相应的变化 (如下图所示,当输入的点云旋转了一个角度,输出的特征会在特征空间中进行相应的“旋转”,图片部分来源于 [7,8])。

借助这样的网络,我们可以更容易地从网络输出的特征之中获得输入物体相关在 SE(3) 空间下的位姿信息。

部件级别 SE(3) 等变网络本文进一步地希望将 SE(3) 等变性从上述的物体全局特征拓展到局部特征。进而我们希望我们的网络可以对输入的铰接物体输出它每个部分的只对这个部分的位姿具有等变性质的特征。和全局 SE(3) 等变性类似,具有局部 SE(3) 等变性的特征应该具有 1)对自己所对应的部分的位姿的变化产生等价的变化;2)对其他部分的位姿的变化不做响应。

具体而言,如下图所示,当眼镜的不同部分的位姿从上图分别按照 的方式变化到了下图,我们期待网络所输出的不同部分的特征向量按照且只按照他们各自部分的位姿变化方法发生相应的变化,即 和  ,而不受到其他部分的位姿变化的影响。我们称这样的特征为具有部件级别等变性质的特征。

进一步地我们希望这样的特征可以降低部件位姿估计的难度,从而我们可以通过设计方法使用完全自监督的方式完成这一任务。



方法:部件级别SE(3)等变网络的设计

为了实现部件级别的 SE(3) 等变性,我们设计了可以获得点级别 SE(3) 等变性的卷积运算方法,和一种交替进行位姿估计与卷积运算的方法来促使这样具有部件级别 SE(3) 等变性的特征的产生。在此我们略述其实现方式如下:

  • 为了实现点级别 SE(3) 等变性,我们将每个点的位姿信息纳入到卷积运算之中。在卷积运算过程中,我们的卷积运算计算邻居节点处在当前节点所定义的局部坐标系下对当前节点特征向量的影响来更新当前节点的特征。如下图所示,当使用点 B 的特征更新点 A 的特征时,这种卷积运算会计算它实际上处在 C 点时的特征,并会用这样的特征来更新点 A 的特征。


  • 上述计算方法并不是廉价的,它需要每个点的准确位姿作为输入才能得到理想的具有点级别的等变性的特征。为此,我们设计了一种方法来交替进行位姿估计和上述卷积的运算。通过给卷积运算输入更为准确的位姿,我们的网络可以产生更好的具有部件级别等变性的特征。




方法:基于部件级别SE(3)等变网络的铰接物体部件位姿估计
基于具有部件级别 SE(3) 等变性质的特征,我们可以进一步设计网络来分解所输入的物体的等变信息(如部件位姿、铰接状态等)和不变信息(如物体分割信息)。在部件级别 SE(3) 等变性的支持下,我们可以在完全自监督的设置下完成如上的分解。抽象流程图(左)及每个模块希望分解的信息(右)如下:

这个分解流程的主要设计点如下:

  • 主要思想为使用合适的具有特定性质的特征来预测相应具有相应性质的信息,如使用 SE(3) 不变特征预测具有位姿不变形的信息,如物体的标准型,使用 SE(3)等变性质的特征来预测具有等变性的信息如部件的铰接状态。


  • 将部件位姿估计分解为 1)基准部件在 SE(3) 空间下的位姿估计, 2)铰接物体的铰接状态如两个部件之间的夹角等信息的预测。这样的分解使得我们可以有效避免直接独立估计每个部件位姿时由部件的对称性所引发的歧义,即两个 SE(3) 空间下不同的位姿对应同一个观测到的部件的位置。
  • 训练过程中使用对位姿不变的特征诱导铰接物体标准型的产生。在自监督的设置下,我们假设没有人为定义的标准型作为参考,反之诉求于使用网络所输出的具有部件级别 SE(3) 不变性的特征来诱导标准型的产生。事实证明了这样设计的有效性和灵活性。



实验结果

通过在来源于三个合成/真实数据集,六个类别,完整观测和部分观测的点云数据上进行测试,该方法可以有效地完成自监督设置下的铰接物体位姿估计任务,得到合理的分割信息和全局位姿及铰接状态对齐状态下的形状(每三列点云的最右边一列)。

同时作为一个完全自监督的方法,我们也取得了一系列可观的定量结果。


参考文献

[1] Xiaolong Li, He Wang, Li Yi, Leonidas J Guibas, A Lynn Abbott, and Shuran Song. Category-level articulated object pose estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 3706–3715, 2020a.
[2] Maurice Weiler, Mario Geiger, Max Welling, Wouter Boomsma, and Taco S Cohen. 3d steerable cnns: Learning rotationally equivariant features in volumetric data. Advances in Neural Information Processing Systems, 31, 2018.
[3] Nathaniel Thomas, Tess Smidt, Steven Kearnes, Lusann Yang, Li Li, Kai Kohlhoff, and Patrick Riley. Tensor field networks: Rotation-and translation-equivariant neural networks for 3d point clouds. arXiv preprint arXiv:1802.08219, 2018.
[4] Fabian Fuchs, Daniel Worrall, Volker Fischer, and Max Welling. Se (3)-transformers: 3d rototranslation equivariant attention networks. Advances in Neural Information Processing Systems, 33:1970–1981, 2020.
[5] Yongheng Zhao, Tolga Birdal, Jan Eric Lenssen, Emanuele Menegatti, Leonidas Guibas, and Federico Tombari. Quaternion equivariant capsule networks for 3d point clouds. In European Conference on Computer Vision, pp. 1–19. Springer, 2020.
[6] Haiwei Chen, Shichen Liu, Weikai Chen, Hao Li, and Randall Hill. Equivariant point network for 3d point cloud analysis. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 14514–14523, 2021.
[7] Xiaolong Li, Yijia Weng, Li Yi, Leonidas Guibas, A. Lynn Abbott, Shuran Song, and He Wang. Leveraging se(3) equivariance for self-supervised category-level object pose estimation, 2021.
[8] Deng, C., Litany, O., Duan, Y., Poulenard, A., Tagliasacchi, A., & Guibas, L. J. (2021). Vector neurons: A general framework for so (3)-equivariant networks. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 12200-12209).



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
我经历的福岛311大地震老公放单飞多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构国际要闻简报,轻松了解天下事(03Eruope 20239岁乔治小王子成熟了,待人接物令人刮目,头发浓密像戴妃!夏洛特也被查尔斯宠爱,将获高大上头衔!无惧大规模GNN,用子图也一样!中科大提出首个可证明收敛的子图采样方法 | ICLR 2023 SpotlightICLR 2023 | 扩散生成模型新方法:极度简化,一步生成CVPR 2023 | 精准、通用、轻量!EqMotion:等变轨迹预测与不变关系推断模型AAAI 2023 | 基于自监督逻辑归纳的可解释模糊时序常识推理​WWW 2023 | 自监督多模态推荐系统ICLR 2023 | MocoSFL: 低成本跨用户联邦自监督学习CVPR 2023 | 可扩展的视频基础模型预训练范式:训练出首个十亿参数量视频自监督大模型英伟达新方法入选CVPR 2023:对未知物体的6D姿态追踪和三维重建​WSDM 2023 | S2GAE: 简单而有效的自监督图自动编码器框架2022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一新雪降癸卯春小扎亲自官宣Meta视觉大模型!自监督学习无需微调,多任务效果超OpenCLIP丨开源国务院联防联控机制最新通报!检出国内首例XBB.1.9、XBB.1.9.1和XBL等变异株→CVPR2023|天大联合卡迪夫大学发布SemanticHuman:部件级、精细语义、灵活可控的3D人体编辑表征AAAI 2023 Oral | 北京大学等提出HandTrackNet:点云序列中手物交互的位姿追踪与重建黑保护伞是走资派邓及徒子徒孙​ICLR 2023 | LightGCL: 简单且高效的图对比学习推荐系统炸裂!最新CVPR2023、ICML2023、AAAI2023、ACL2023论文+Code大合集!LeCun、田渊栋参与撰写,70页「自监督学习」大全来了ICLR 2023 | 无惧大规模GNN:中科大提出首个可证明收敛的子图采样方法2023 春 祝姐妹们周末快乐!Meta视觉大模型来了!完全自监督无需微调,多任务效果超OpenCLIP晶体位错亦可量子纠缠? | Ising专栏麻醉医生应该关注的手术体位之特伦德伦伯卧位ICLR 2023 | 大模型上下文学习的无限扩展方法:kNN PromptingLeCun 70页长篇巨作!自监督学习「葵花宝典」,手把手教你学会斯坦福李飞飞团队新作:孪生掩码自编码器SiamMAE,刷榜视觉自监督方法CVPR 2023 | G2SD: 让小模型也能从自监督预训练中受益的蒸馏方法Npj Comput. Mater.: DFT中的电子密度—等变图神经网络转:2023 回国探亲(5)语言模型自己学会用搜索引擎了?Meta AI提出API调用自监督学习方法Toolformer斯坦福大学李飞飞团队新作:孪生掩码自编码器SiamMAE,刷榜视觉自监督方法当「分割一切」遇上图像修补:无需精细标记,单击物体实现物体移除、内容填补、场景替换军旅故事原创系列(39)呼噜王
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。