CVPR 2023 | 基于动作元对比学习的无监督骨架动作识别

2023-06-21 05:06

©作者 | 林里浪

来源 | STRUCTatPKU

本期分享 STRUCT 小组 CVPR-2023 的 Highlight 文章。本项工作提出了一种依赖动作元 (Actionlet) 的对比学习方法 (ActCLR)。动作元被定义为人类骨架的运动关节集合。其有效地分解了运动区域与静态区域，以便更好地进行动作建模。通过与不含运动的静态基准对比，提取骨架数据中的运动区域，并将其作为动作元。然后，构建了一个运动适应性数据变换的方法，对运动区域和非运动区域进行不同的数据变换，以在保持运动信息的同时引入更多的多样性。同时，本工作提出了一种语义感知的特征池化方法，以对运动区域建立特征表示。

在 NTU RGB+D 和 PKUMMD 上的大量实验表明，所提出的方法实现了显著的动作识别性能提升。

论文标题：

Actionlet-Dependent Contrastive Learning for Unsupervised Skeleton-Based Action Recognition

论文链接：

https://arxiv.org/abs/2303.10904

项目链接：

https://langlandslin.github.io/projects/ActCLR/

Video：

https://youtu.be/jwX0Zc8s10w

基于自监督的骨架数据动作识别

基于监督的骨架动作识别方法已经取得了令人印象深刻的性能。然而其成功高度依赖于大量的标记的训练数据，而这些数据的获得是很昂贵的。为了摆脱对完全监督的依赖，自监督学习已经被引入到基于骨架的动作识别。它采用了一个两阶段的范式，即首先应用自监督任务进行无监督预训练，然后采用下游任务进行微调。

根据学习范式，所有的方法可以分为两类：基于重建的和基于对比的学习。基于重构的方法通过预测空间-时间掩盖的骨架数据进行学习。基于对比学习的方法采用数据变换来产生正/负样本，通过拉近正例对的特征距离，推远负例对的特征距离来提高特征空间的一致性和均匀性。

解耦运动和静态区域

这些对比学习工作对骨架序列的不同区域进行统一处理。然而，运动区域包含更丰富的动作信息，对动作建模的贡献更大。因此，直接将数据变换应用到所有区域是次优的。这可能会使运动相关的信息在数据变换中丢失。例如，如果掩码变换对举手动作中的手部关节进行了遮盖，举手动作的运动信息就会被完全破坏。这将引起假阳性问题，即由于信息的不一致而导致的语义上的不一致。因此，有必要对运动区域和静态区域进行区分设计。

如图 1 所示，本工作利用动作元定位运动区域，以指导对比学习。

▲ 图1. 基于动作元的对比学习方法

算法框架

本工作首先无监督地获得动作元的定位。如图 2 所示，注意到对数据集中全部骨架数据取平均后得到的平均运动基本是静态的，所以将其作为一个静态基准。通过输入数据和这个静态基准做对比，求取其差异最大的区域就是动作元。

▲ 图2. 基于静态基准的无监督动作元选取方法

如图 3 所示，对于对比学习，本工作采用双路结构，即在线流和离线流。上路是在线流，通过梯度更新。下路是离线流，由动量更新。本工作通过获得的动作元对输入数据进行运动适应性数据转换（MATS）来获得增强的数据。对于动作元的区域，我们采样剪切，旋转和翻转等保持运动语义的数据变换。对于非动作元区域，我们采用高斯噪声，裁剪粘贴等可能改变语义的数据变换。

在离线特征提取中，本工作采用语义感知的特征池化（SAFP）来获得更准确的特征。即仅对动作元区域求取特征。最后，利用相似性挖掘，我们增加了正例之间的相似性，减少了负例之间的相似性。

▲ 图3. 基于动作元的对比学习框架图

实验结果

本工作在 NTU RGB+D 上的无监督线性评估实验表明，所提出的方法实现了显著的动作识别性能提升。

▲ 表1. 线性评估结果

可以看到，在监督微调下，本工作也取得了更优的性能。

▲ 表2. 监督微调结果

本工作在 NTU 数据集上预训练后迁移到 PKUMMD 数据集取得较好的动作识别和分割性能，这证明了本方法的泛化性能。

▲ 表3. 迁移学习结果

▲ 表4. 动作分割结果

参考文献

[1] Lilang Lin, Sijie Song, Wenhan Yang, and Jiaying Liu. MS2L: Multi-task self-supervised learning for skeleton based action recognition. In ACM MM, 2020.

[2] Sijie Song, Cuiling Lan, Junliang Xing, Wenjun Zeng, and Jiaying Liu. Spatio-temporal attention-based lstm networks for 3d action recognition and detection. IEEE TIP, 2018.

[3] Jiaying Liu, Sijie Song, Chunhui Liu, Yanghao Li, and Yueyu Hu. A benchmark dataset and comparison study for multi-modal human action analytics. ACM TOMM, 2020.

更多阅读