ICLR 2023 | 借助部件级SE(3)等变性的自监督铰接物体位姿估计方法

科技

2023-04-11 05:04

研究背景与动机

本文旨在探讨铰接物体位姿估计的自监督解法。这个问题本身的价值、以往有监督解法的局限性，和自监督解法直观上的可行性是我们开展相应研究的动机。

论文链接：

https://arxiv.org/abs/2302.14268

代码地址：

https://github.com/Meowuu7/equi-articulated-pose

项目主页：

https://equi-articulated-pose.github.io

问题层面的价值：铰接物体广泛存在于我们日常生活中的各种场景之中。人类从婴儿时期便开始逐渐接触这些物体并在一系列尝试和反馈之中学到了如何与这些物体进行交互，比如拉开书桌的抽屉。完成这一简单的动作的瞬间，我们的大脑几乎无意识地从所观测的物体之上获得了那个部分是这个书桌的抽屉，这个抽屉是可以被拉开的，以及可以支持多大幅度的拉开（不会飞出去）等等这些信息。

如果我们想要机器也具有这样的感知世界并与世界中的物体进行交互的能力，设计算法使其具有将物体分成不同的部分（在此称之为部件分割），理解每个部分在空间中的位置（称之为部件位姿），和可以怎样操控这些部分就变得十分重要。

数据标注的昂贵：但设计算法使得机器具有如上的理解（在这里我们关注铰接物体位姿估计的问题）远非如人类自身自然而然地产生相应理解般轻松。以往的方法往往依赖于有部件分割、部件位姿等相关的人工标注[1]。然而标注相关的数据往往是繁琐和昂贵的。这样的对有标注数据的依赖使得前人的方法往往只能在合成数据集上训练，而无法使用更多的无标注的数据来得到更加强大、泛化能力更强的模型。这也进一步使得他们的算法失去了更为广阔的应用前景。

反之，不依赖于标注的自监督解法可以用更多的、更加接近现实世界的数据来训练。从而我们有望基于此设计更为强大的模型，使得机器真正具有获得人类理解铰接物体的能力。

自监督解法的可行性：通过观察大量的处在不同状态下的铰接物体，比如下图所示的很多被随意摆放的眼镜，人类可以容易地做到如下的事情：人类可以轻松地按照如上的方式解决我们的铰接物体位姿估计问题。这是我们设计算法通过完成如上的分析来在没有标注信息的情况下解决铰接物体位姿估计这个问题的主要信心来源。

1. 将每个眼镜分成不同的运动部分，即部件分割；

2. 每个眼镜摆正时的形状，比如下图右下角的眼镜整体正对前方且每个镜腿和镜框夹角为 90° 的眼镜，我们称之为铰接物体标准型；

3. 每个眼镜的每个部分相对于它们被摆正的状态的位姿，即部件位姿。

1.1 方法设计思想简述

解决该问题需要我们将铰接物体标准型和部件位姿这些信息从输入的形状中解耦出来。这些信息在使用普通的网络（如 PointNet++）所得到的普通的几何特征中往往耦合在一起——这使得仅仅使用自监督信号来从中实现所希望的分解是很困难的。我们观察到铰接物体的部件位姿具有部件级 SE(3) 等变性——即每个部件的位姿只等变于该部件在空间中的位置，而与其他部件无关。同时其标准型具有部件级 SE(3) 不变性，即与任一部件的位置都无关。

上述非常直观的性质促使我们构思设计部件级 SE(3) 等变网络，来从输入物体中获得具有相应等变性质的几何特征。相较于普通的特征，这样的等变特征和部件位姿更相合，从而自监督的强度便足以使我们完成对所关注信息的解耦。

1.2 本文的主要贡献

部件级别 SE(3) 等变运算方法的设计；
结合部件级别 SE(3) 等变特征，设计铰接物体部件位姿估计的方法，从而无需额外监督即可以完成部件位姿估计的任务。

背景知识与相关工作

SE(3) 等变网络及其应用：SE(3)等变网络的设计和其应用在近几年取得了广泛的关注 [2.3.4.5.6]。经典的 SE(3) 等变网络通过巧妙设计卷积核 [2,3] 或者扩展表征向量维度并设计对应的卷积方式来实现表征层面上 [5,6] 的等变性。

当输入的数据进行了 SE(3) 空间中的一种变化时，这种网络所得到的特征向量也会以某种方式做相应的变化（如下图所示，当输入的点云旋转了一个角度，输出的特征会在特征空间中进行相应的“旋转”，图片部分来源于 [7,8]）。

借助这样的网络，我们可以更容易地从网络输出的特征之中获得输入物体相关在 SE(3) 空间下的位姿信息。

部件级别 SE(3) 等变网络：本文进一步地希望将 SE(3) 等变性从上述的物体全局特征拓展到局部特征。进而我们希望我们的网络可以对输入的铰接物体输出它每个部分的只对这个部分的位姿具有等变性质的特征。和全局 SE(3) 等变性类似，具有局部 SE(3) 等变性的特征应该具有 1）对自己所对应的部分的位姿的变化产生等价的变化；2）对其他部分的位姿的变化不做响应。

具体而言，如下图所示，当眼镜的不同部分的位姿从上图分别按照和的方式变化到了下图，我们期待网络所输出的不同部分的特征向量按照且只按照他们各自部分的位姿变化方法发生相应的变化，即和，而不受到其他部分的位姿变化的影响。我们称这样的特征为具有部件级别等变性质的特征。

进一步地我们希望这样的特征可以降低部件位姿估计的难度，从而我们可以通过设计方法使用完全自监督的方式完成这一任务。

方法：部件级别SE(3)等变网络的设计

为了实现部件级别的 SE(3) 等变性，我们设计了可以获得点级别 SE(3) 等变性的卷积运算方法，和一种交替进行位姿估计与卷积运算的方法来促使这样具有部件级别 SE(3) 等变性的特征的产生。在此我们略述其实现方式如下：

为了实现点级别 SE(3) 等变性，我们将每个点的位姿信息纳入到卷积运算之中。在卷积运算过程中，我们的卷积运算计算邻居节点处在当前节点所定义的局部坐标系下对当前节点特征向量的影响来更新当前节点的特征。如下图所示，当使用点 B 的特征更新点 A 的特征时，这种卷积运算会计算它实际上处在 C 点时的特征，并会用这样的特征来更新点 A 的特征。

上述计算方法并不是廉价的，它需要每个点的准确位姿作为输入才能得到理想的具有点级别的等变性的特征。为此，我们设计了一种方法来交替进行位姿估计和上述卷积的运算。通过给卷积运算输入更为准确的位姿，我们的网络可以产生更好的具有部件级别等变性的特征。

方法：基于部件级别SE(3)等变网络的铰接物体部件位姿估计

基于具有部件级别 SE(3) 等变性质的特征，我们可以进一步设计网络来分解所输入的物体的等变信息（如部件位姿、铰接状态等）和不变信息（如物体分割信息）。在部件级别 SE(3) 等变性的支持下，我们可以在完全自监督的设置下完成如上的分解。抽象流程图（左）及每个模块希望分解的信息（右）如下：

这个分解流程的主要设计点如下：

主要思想为使用合适的具有特定性质的特征来预测相应具有相应性质的信息，如使用 SE(3) 不变特征预测具有位姿不变形的信息，如物体的标准型，使用 SE(3)等变性质的特征来预测具有等变性的信息如部件的铰接状态。

将部件位姿估计分解为 1）基准部件在 SE(3) 空间下的位姿估计， 2）铰接物体的铰接状态如两个部件之间的夹角等信息的预测。这样的分解使得我们可以有效避免直接独立估计每个部件位姿时由部件的对称性所引发的歧义，即两个 SE(3) 空间下不同的位姿对应同一个观测到的部件的位置。

训练过程中使用对位姿不变的特征诱导铰接物体标准型的产生。在自监督的设置下，我们假设没有人为定义的标准型作为参考，反之诉求于使用网络所输出的具有部件级别 SE(3) 不变性的特征来诱导标准型的产生。事实证明了这样设计的有效性和灵活性。

实验结果

通过在来源于三个合成/真实数据集，六个类别，完整观测和部分观测的点云数据上进行测试，该方法可以有效地完成自监督设置下的铰接物体位姿估计任务，得到合理的分割信息和全局位姿及铰接状态对齐状态下的形状（每三列点云的最右边一列）。

同时作为一个完全自监督的方法，我们也取得了一系列可观的定量结果。

参考文献

[1] Xiaolong Li, He Wang, Li Yi, Leonidas J Guibas, A Lynn Abbott, and Shuran Song. Category-level articulated object pose estimation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 3706–3715, 2020a.

[2] Maurice Weiler, Mario Geiger, Max Welling, Wouter Boomsma, and Taco S Cohen. 3d steerable cnns: Learning rotationally equivariant features in volumetric data. Advances in Neural Information Processing Systems, 31, 2018.

[3] Nathaniel Thomas, Tess Smidt, Steven Kearnes, Lusann Yang, Li Li, Kai Kohlhoff, and Patrick Riley. Tensor field networks: Rotation-and translation-equivariant neural networks for 3d point clouds. arXiv preprint arXiv:1802.08219, 2018.

[4] Fabian Fuchs, Daniel Worrall, Volker Fischer, and Max Welling. Se (3)-transformers: 3d rototranslation equivariant attention networks. Advances in Neural Information Processing Systems, 33:1970–1981, 2020.

[5] Yongheng Zhao, Tolga Birdal, Jan Eric Lenssen, Emanuele Menegatti, Leonidas Guibas, and Federico Tombari. Quaternion equivariant capsule networks for 3d point clouds. In European Conference on Computer Vision, pp. 1–19. Springer, 2020.

[6] Haiwei Chen, Shichen Liu, Weikai Chen, Hao Li, and Randall Hill. Equivariant point network for 3d point cloud analysis. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 14514–14523, 2021.

[7] Xiaolong Li, Yijia Weng, Li Yi, Leonidas Guibas, A. Lynn Abbott, Shuran Song, and He Wang. Leveraging se(3) equivariance for self-supervised category-level object pose estimation, 2021.

[8] Deng, C., Litany, O., Duan, Y., Poulenard, A., Tagliasacchi, A., & Guibas, L. J. (2021). Vector neurons: A general framework for so (3)-equivariant networks. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 12200-12209).