AAAI 2023 | HiCo: 一种简单有效的3D骨架动作表示学习框架
论文标题:
Hierarchical Contrast for Unsupervised Skeleton-based Action Representation Learning
AAAI 2023 (Oral Paper)
https://arxiv.org/abs/2212.02082
https://github.com/HuiGuanLab/HiCo
引言
动作识别在人机交互、智能监控、视频内容分析、游戏控制等领域有着广泛的应用。近年来,基于 3D 骨架的动作识别取得了显著进展,然而大多数工作以完全监督的方式训练网络,这需要大量人工标注的骨架数据,花费昂贵且耗时。因此无监督的 3D 骨架动作表示学习方法也逐步受到了研究人员的关注。
早期的相关无监督工作主要聚焦于生成式方法,将 3D 骨架动作编码后在不同的代理任务(像是骨架重构和骨架着色)指导下解码,以达到学习特征表示的目标。但是这类方法效果有限,性能更好、机制更简单的对比学习方法成为了近年来的主流。这些基于对比学习的方法通常将 3D 骨架动作表示为实例级 (instance-level) 特征,然后进行实例间的整体对比。
考虑到 3D 骨架动作具有层次结构的自然特征,这种表示对比方法可能是次优的。3D 骨架动作作为序列,时间维度上可以看作帧 (frame) 的集合,空间维度上可以看作节点 (joint) 的集合。同时帧或节点是基本元素,可以构建为更大粒度的元素,如片段 (clip) 或部件 (part)。
受此启发,作者提出用于无监督 3D 骨架动作表示学习的层级对比框架 HiCo。HiCo 通过层级编码器网络将 3D 骨架动作序列编码为部件级 (part-level)、片段级 (clip-level)、域级 (domain-level)和实例级特征,并在这几个层次上分层地进行多级对比。这种层级对比与 3D 骨架动作的自然特点是一致的,并且提供了更多的监督信号,最终获得一个更好的动作特征表示。
▲ 图1. 典型对比学习和论文提出的HiCo框架示意图
作者贡献总结如下:
1. 作者提出一种从时间域和空间域将3D骨架动作表示为多级特征的层级编码器。同时该方法适用于所有seq2seq编码器,灵活性好;
2. 基于 3D 骨架动作的多级特征表示,作者提出了一种新的无监督层级对比损失,在 3D 骨架动作表示学习中较典型的实例间对比损失更加有效;
3. 大量的实验显示了作者提出的 HiCo 在下游任务上达到了目前最好的性能,同时学习到的特征表示具有良好的迁移能力,对半监督场景也很高效。
方法
HiCo 有两部分组成,首先是在时间域 (temporal domain) 和空间域 (spatial domain)多个粒度上对 3D 骨架序列进行编码的层级编码器网络,得到其部件级、片段级、域级 (和实例级特征表示。然后是无监督层级对比学习模块,即在上述四个层次上共同进行对比学习。
层级编码网络
层级编码网络包括时间和空间两个分支,分别从时间域和空间域以多粒度方式编码得到多个特征。
片段级特征表示
为了得到不同长度的 clip,作者提出了一种简单通用的下采样方法 UDM (Unified Downsampling Module),即通过一维卷积加一维最大池化的可训练方式缩短序列长度。
通过不断调用 UDM,就得到越来越短的序列,这样不同粒度 clip 包含不同时间尺度的信息,具有较强的互补性。
然后使用 seq2seq 模型建模时间上的依赖关系,再通过时间维度上的最大池化将帧级特征聚合为视频级特征,对每个粒度的 clip 都进行这样的操作就可以得到片段级特征。
部件级特征表示
部件级特征表示
空间分支在空间域上提取不同空间粒度特征形成部件级特征表示也是类似的。将原始 3D 骨架序列重排为节点列表,即 。然后通过上述类似的嵌入、下采样、空间依赖关系建模、特征聚合就可以得到部件级特征。
域级和实例级特征表示
层级对比
实例级对比
域级对比
片段级和部件级对比
实验
动作识别任务
将上述训练得的层级编码器冻结与全连接层线性分类器组合在下游动作识别任务上训练。这里作者使用了双向 GRU、双向 LSTM 和 Transformer 作为基础编码器在 NTU-60、NTU-120、PKU-MMD I 及 PKU-MMD II 四个数据集上展开实验。作者提出的 HiCo 使用不同 seq2seq 模型作为基础编码器均能大幅超越之前的工作。在具有挑战性的 PKU-MMD II 数据集上,比现有最好方法高出了将近 16%。这证明了作者提出的方法的有效性。
动作检索任务
在下游任务动作检索中,给定一个查询动作,使用 cosine 相似度检索出最相似的动作样本对应种类。下表显示了在 NTU-60 和 NTU-120 数据集上与其他方法的对比。作者提出的方法同样表现更好,再一次证明了其有效性。
其他下游任务
作者还尝试了迁移学习和半监督学习。在迁移学习中,模型现在某个数据集上预训练,然后迁移到 PKU-MMD II 数据集上微调。在半监督学习任务中,预训练后在下游任务训练阶段只使用部分标签。下表为与其他同类方法的比较,作者提出的 HiCo 也展现出了迁移能力好、高效的特点。
消融实验
作者在动作识别下游任务中对方法各个模块进行了消融实验。实验使用 Transformer 在 NTU-60 数据集上展开。首先是对层级编码器中多粒度方法和双分支方法的验证。在时间分支和空间分支中不断增加不同粒度的特征,均可以观察到显著的性能提升,证明了层级编码器中多粒度特征的有效性。
同样地,在层级编码器中结合时间空间双分支特征也有性能提升,证明了时间域、空间域编码方法的有效性。
然后是对层级对比的消融实验。在实例级对比基础上不断添加域级对比、片段级对比和部件级对比,可以观察到性能逐步上升,证明了作者提出的层级对比的有效性。
最后,作者展示了多粒度特征有效性的 t-SNE 可视化结果。在时间分支上不断添加不同粒度特征,可以看到得到的特征聚类效果越来越好(DMI 为衡量聚类效果的指标,越低越好)。
总结
作者提出的多层级编码、多层级对比方法性能好、机制简单、适用性强,在各种下游应用上均能取得良好效果。作者认为HiCo在无监督3D骨架动作表示学习上可以用作新的强baseline。同时简单的机制蕴藏了应用到其他模态数据的可能。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者