©PaperWeekly 原创 · 作者 | 杨雨辰
单位 | 复旦大学、上海人工智能实验室
精确的人体 3D 姿态估计是众多领域的基础,如机器人、运动表现分析等,而获取大量的自然条件下的 3D 姿态标注极其困难。具体而言,3D 姿态真值获取通常需要搭建动作捕捉环境。该方式仍然需要耗费大量人力物力,且数据受限于动作类型和人体外貌多样性,因而使得以 3D 真值为基础的全监督姿态估计算法难以泛化到更多室外场景。上海人工智能实验室的研究团队着眼于无监督的姿态估计,旨在发挥该类算法能够利用大量室外未标注的数据的特性,增强模型性能。考虑到无监督的分割算法 [1] 在室外场景的优秀表现,研究团队探索了利用更易广泛获取的人体掩膜作为监督信号,完成端到端的无监督 3D 姿态估计的算法,近期为 ECCV 2024 接收。Mask as Supervision: Leveraging Unified Mask Information for Unsupervised 3D Pose Estimation
论文链接:
https://arxiv.org/pdf/2312.07051.pdf代码链接(即将公开):
https://github.com/Charrrrrlie/Mask-as-Supervision
- 提出显式利用人体结构先验,消除了以往无监督方法中还存在的有监督后处理(SPP)步骤
- 强调了无监督方法中难以区分人体左右的问题,并提出利用一致性约束进行有效解决
实现 SOTA 无监督 3D 姿态估计结果,推动了 3D 姿态估计在更广泛复杂场景的应用。
Pipeline
动机
无监督姿态估计的难点在于设计无需人工标注的损失函数,为检测器优化提供目标。人体掩膜容易以无监督的方式获得,包括以视频为输入的传统静态背景建模方法,以及利用新兴的 SAM [1] 在丰富图片上的泛化能力。同时,掩膜能够看作是关键点的退化形式。如果人体关键点能从人体掩膜中被发掘,便能够实现监督信号的获取。于是我们将关键点到人体掩膜的过程看作由粗至细粒度的补全过程,设计了包含结构信息的人体骨架掩膜和包含形状信息的人体体型掩膜,深度挖掘掩膜信息,由关键点逐步逼近真实掩膜。
消除有监督后处理步骤
姿态检测中的人体关键点包含有指定顺序和实际物理含义,一类无监督姿态估计算法并未考虑这一点,导致虽然检测的关键点和某些真值关键点相合,但无法确定具体对应关系。较差的可解释性使得该类方法需要检测较多数量的关键点(大于 30 个),并通过训练集上的真值,学习关键点到真值姿态的映射关系,采用有监督后处理(supervised post-processing, SPP)得到最终结果。该类方法仍然需要训练集上的人工标注,与真正无监督的理念相悖。本文算法将人体视作由刚体骨架构成的整体,构造骨架特征图。利用 [2] 扩展的高斯核,以一定宽度的线段显式建模由一对关节点连接的骨骼 B_b。当骨架的连接方式确定时,每一个关键点的物理含义将被确定。同时,其在掩膜中的最优结构,将确定关键点的目标位置。
由于人体的对称性,基于人体形状建模的无监督方法在左右关键点互换后,仍将得到相同的损失,从而并不能区分人体左右状态。使用有监督后处理的诸多方法中,该对称性由有监督的映射解决,并被忽略讨论。本文强调了这一问题,并使用多视角图像进行解决。在多视角图像可用时,用以构建人体掩膜的关键点将利用相机参数投影至二维,从而通过多视角几何约束确保各视角下关键点没有出现对称性错误。
考虑到将显式建模的人体骨架置于人体掩膜中,会出现多种次优的结构,这将对算法的优化产生困难。本文使用了层次化的优化方式,首先将变化范围较小的躯干部分构建人体骨架进行优化,而后将四肢纳入优化过程。此外,我们还设计了基于测地距离的权重掩膜,使得远离掩膜中心的正确关键点能减少更大损失,并容忍接近掩膜区域但位于掩膜外的错误关键点,从而平滑优化的求解空间。
我们在常用的 Human3.6M 和 MPI-INF-3DHP 数据集上进行实验,取得了无监督算法中的 SOTA 结果。Human3.6M数据集
我们标注了不同方法共性的设定,包括 SPP(有监督后处理)、UP(未配对的真值姿态或基于此的先验)、T(人工设计的模板)、SF(有监督翻转,对应左右不分问题)。可以看出,本文算法无需上述限制条件,即可实现无监督 3D 姿态估计,并取得最优性能。同时,在 SPP 的设定下,算法突出的性能也进一步说明利用掩膜信息挖掘特征的有效性。在该数据集上多数方法采用了上述 SPP 或 UP 的设定,我们在同样设定下取得了 SOTA 性能,并展示了 MPI-INF-3DHP 数据集推荐的 PCK 和 AUC 指标,方便后续工作进行比较。为验证本文提出的无监督算法具有利用并学习广泛来源数据的能力,我们设计了多个数据集混合训练的实验,包括引入完全无任何姿态数据标注的 TikTok 视频数据集。在数据量逐步提升时,模型在未参与训练的野外数据集 MPII 中性能表现逐步提升,从模型泛化能力的角度证明本文无监督方法的可适用性。TikTok 数据集单目图像中得到 3D 姿态标注结果:[1] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao, Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C. Berg, Wan-Yen Lo, Piotr Dollar, and Ross Girshick. Segment anything. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 4015–4026, 2023[2] Xingzhe He, Bastian Wandt, and Helge Rhodin. Autolink: Self-supervised learning of human skeletons and object outlines by linking keypoints. Advances in Neural Information Processing Systems, 35:36123–36141, 2022有兴趣实习或者工作的读者请联系:[email protected]
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧