AAAI 2023 | HiCo: 一种简单有效的3D骨架动作表示学习框架

2023-02-27 11:02

©Paperweekly 原创 · 作者 | 孙圣凯

单位 | 浙江工商大学

研究方向 | 自监督学习

本文介绍一篇 AAAI 2023 Oral 的工作。基于 3D 骨架的动作识别由于其轻量、鲁棒性好等特点，近年来受到了越来越多的研究关注，但如何利用无标签的数据学习 3D 骨架动作的特征表示以用于下游任务仍存在不少挑战。针对这一场景，本文作者提出了一种简单有效的基于层级对比的无监督 3D 骨架动作表示学习框架 HiCo。

相较于传统无监督对比学习方法将 3D 骨架动作表示为一个特征向量后进行对比，HiCo 结合 3D 骨架自身时空多粒度结构特点将其表示为片段级、部件级、域级和实例级特征并在这些层次上进行层级对比，充分利用不同表示间的互补信息，在动作识别、动作检索等多个下游任务上达到了目前最好的性能，特别是在具有挑战性的 PKU-MMD II 数据集上动作识别任务准确度相比于现有方法提升了 16 点。

论文标题：

Hierarchical Contrast for Unsupervised Skeleton-based Action Representation Learning

收录会议：

AAAI 2023 (Oral Paper)

论文链接：

https://arxiv.org/abs/2212.02082

代码链接：

https://github.com/HuiGuanLab/HiCo

引言

动作识别在人机交互、智能监控、视频内容分析、游戏控制等领域有着广泛的应用。近年来，基于 3D 骨架的动作识别取得了显著进展，然而大多数工作以完全监督的方式训练网络，这需要大量人工标注的骨架数据，花费昂贵且耗时。因此无监督的 3D 骨架动作表示学习方法也逐步受到了研究人员的关注。

早期的相关无监督工作主要聚焦于生成式方法，将 3D 骨架动作编码后在不同的代理任务（像是骨架重构和骨架着色）指导下解码，以达到学习特征表示的目标。但是这类方法效果有限，性能更好、机制更简单的对比学习方法成为了近年来的主流。这些基于对比学习的方法通常将 3D 骨架动作表示为实例级 (instance-level) 特征，然后进行实例间的整体对比。

考虑到 3D 骨架动作具有层次结构的自然特征，这种表示对比方法可能是次优的。3D 骨架动作作为序列，时间维度上可以看作帧 (frame) 的集合，空间维度上可以看作节点 (joint) 的集合。同时帧或节点是基本元素，可以构建为更大粒度的元素，如片段 (clip) 或部件 (part)。

受此启发，作者提出用于无监督 3D 骨架动作表示学习的层级对比框架 HiCo。HiCo 通过层级编码器网络将 3D 骨架动作序列编码为部件级 (part-level)、片段级 (clip-level)、域级 (domain-level)和实例级特征，并在这几个层次上分层地进行多级对比。这种层级对比与 3D 骨架动作的自然特点是一致的，并且提供了更多的监督信号，最终获得一个更好的动作特征表示。

▲ 图1. 典型对比学习和论文提出的HiCo框架示意图

作者贡献总结如下：

1. 作者提出一种从时间域和空间域将3D骨架动作表示为多级特征的层级编码器。同时该方法适用于所有seq2seq编码器，灵活性好；

2. 基于 3D 骨架动作的多级特征表示，作者提出了一种新的无监督层级对比损失，在 3D 骨架动作表示学习中较典型的实例间对比损失更加有效；

3. 大量的实验显示了作者提出的 HiCo 在下游任务上达到了目前最好的性能，同时学习到的特征表示具有良好的迁移能力，对半监督场景也很高效。

方法

HiCo 有两部分组成，首先是在时间域 (temporal domain) 和空间域 (spatial domain)多个粒度上对 3D 骨架序列进行编码的层级编码器网络，得到其部件级、片段级、域级 (和实例级特征表示。然后是无监督层级对比学习模块，即在上述四个层次上共同进行对比学习。

▲ 图2. 具体方法示意图

层级编码网络

层级编码网络包括时间和空间两个分支，分别从时间域和空间域以多粒度方式编码得到多个特征。

片段级特征表示

具体来说，在时间分支中，作者通过从不同长度的片段中提取特征。给定 3D 骨架动作序列（T 为帧数，J 为节点数），首先将其重排为帧列表的形式，即，

以使用 seq2seq 模型提取时间特征。然后使用一个 MLP 将帧信息映射到高维嵌入空间：

为了得到不同长度的 clip，作者提出了一种简单通用的下采样方法 UDM (Unified Downsampling Module)，即通过一维卷积加一维最大池化的可训练方式缩短序列长度。

通过不断调用 UDM，就得到越来越短的序列，这样不同粒度 clip 包含不同时间尺度的信息，具有较强的互补性。

然后使用 seq2seq 模型建模时间上的依赖关系，再通过时间维度上的最大池化将帧级特征聚合为视频级特征，对每个粒度的 clip 都进行这样的操作就可以得到片段级特征。

部件级特征表示

空间分支在空间域上提取不同空间粒度特征形成部件级特征表示也是类似的。将原始 3D 骨架序列重排为节点列表，即

。然后通过上述类似的嵌入、下采样、空间依赖关系建模、特征聚合就可以得到部件级特征。

部件级特征表示

空间分支在空间域上提取不同空间粒度特征形成部件级特征表示也是类似的。将原始 3D 骨架序列重排为节点列表，即。然后通过上述类似的嵌入、下采样、空间依赖关系建模、特征聚合就可以得到部件级特征。

域级和实例级特征表示

最后，作者将不同粒度的片段级特征融合为时间域特征，将不同粒度的部件级特征融合为空间域特征，再将这两个域级特征融合为实例级特征，由此得到了多层级结构的多特征表示。

层级对比

不同于之前的对比学习方法只在实例间进行对比，作者在多特征表示的基础上，构建了更多的监督信号来学习更好的特征表示。

实例级对比

实例间对比与典型对比学习是相同的，即在实例级特征上进行实例判别（对比）任务，具体来说就是在不同数据增强下的同一个样本的两个实例级特征和其他样本的实例级特征间进行正负样本判别。

域级对比

在域级上，作者认为不管时间域还是空间域都是同一样本的不同表示，应有相同的高级语义信息，可以用来相互作为监督信号，所以将它们看作互为正样本。所以使用了跨域的对比方法，希望时间域和空间域特征在嵌入空间中尽可能接近。

片段级和部件级对比

在片段级和部件级上，不同粒度特征也类似地应有相同的高级语义信息，看作互为正样本。不同粒度的特征数量较多，作者做了简化处理，将最小粒度的特征作为 query 去匹配其他样本。

所以最后的优化目标就是在这四个层级上进行正负样本判别。

实验

动作识别任务

将上述训练得的层级编码器冻结与全连接层线性分类器组合在下游动作识别任务上训练。这里作者使用了双向 GRU、双向 LSTM 和 Transformer 作为基础编码器在 NTU-60、NTU-120、PKU-MMD I 及 PKU-MMD II 四个数据集上展开实验。作者提出的 HiCo 使用不同 seq2seq 模型作为基础编码器均能大幅超越之前的工作。在具有挑战性的 PKU-MMD II 数据集上，比现有最好方法高出了将近 16%。这证明了作者提出的方法的有效性。