Redian新闻
>
AAAI 2023 | HiCo: 一种简单有效的3D骨架动作表示学习框架

AAAI 2023 | HiCo: 一种简单有效的3D骨架动作表示学习框架

科技

©Paperweekly 原创 · 作者孙圣凯
单位 | 浙江工商大学
研究方向 | 自监督学习


本文介绍一篇 AAAI 2023 Oral 的工作。基于 3D 骨架的动作识别由于其轻量、鲁棒性好等特点,近年来受到了越来越多的研究关注,但如何利用无标签的数据学习 3D 骨架动作的特征表示以用于下游任务仍存在不少挑战。针对这一场景,本文作者提出了一种简单有效的基于层级对比的无监督 3D 骨架动作表示学习框架 HiCo

相较于传统无监督对比学习方法将 3D 骨架动作表示为一个特征向量后进行对比,HiCo 结合 3D 骨架自身时空多粒度结构特点将其表示为片段级、部件级、域级和实例级特征并在这些层次上进行层级对比,充分利用不同表示间的互补信息,在动作识别、动作检索等多个下游任务上达到了目前最好的性能,特别是在具有挑战性的 PKU-MMD II 数据集上动作识别任务准确度相比于现有方法提升了 16 点。



论文标题:

Hierarchical Contrast for Unsupervised Skeleton-based Action Representation Learning

收录会议:

AAAI 2023 (Oral Paper)

论文链接:

https://arxiv.org/abs/2212.02082

代码链接:

https://github.com/HuiGuanLab/HiCo





引言


动作识别在人机交互、智能监控、视频内容分析、游戏控制等领域有着广泛的应用。近年来,基于 3D 骨架的动作识别取得了显著进展,然而大多数工作以完全监督的方式训练网络,这需要大量人工标注的骨架数据,花费昂贵且耗时。因此无监督的 3D 骨架动作表示学习方法也逐步受到了研究人员的关注。


早期的相关无监督工作主要聚焦于生成式方法,将 3D 骨架动作编码后在不同的代理任务(像是骨架重构和骨架着色)指导下解码,以达到学习特征表示的目标。但是这类方法效果有限,性能更好、机制更简单的对比学习方法成为了近年来的主流。这些基于对比学习的方法通常将 3D 骨架动作表示为实例级 (instance-level) 特征,然后进行实例间的整体对比。


考虑到 3D 骨架动作具有层次结构的自然特征,这种表示对比方法可能是次优的。3D 骨架动作作为序列,时间维度上可以看作帧 (frame) 的集合,空间维度上可以看作节点 (joint) 的集合。同时帧或节点是基本元素,可以构建为更大粒度的元素,如片段 (clip) 或部件 (part)。 


受此启发,作者提出用于无监督 3D 骨架动作表示学习的层级对比框架 HiCo。HiCo 通过层级编码器网络将 3D 骨架动作序列编码为部件级 (part-level)、片段级 (clip-level)、域级 (domain-level)和实例级特征,并在这几个层次上分层地进行多级对比。这种层级对比与 3D 骨架动作的自然特点是一致的,并且提供了更多的监督信号,最终获得一个更好的动作特征表示。


▲ 图1. 典型对比学习和论文提出的HiCo框架示意图

作者贡献总结如下: 


1. 作者提出一种从时间域和空间域将3D骨架动作表示为多级特征的层级编码器。同时该方法适用于所有seq2seq编码器,灵活性好;


2. 基于 3D 骨架动作的多级特征表示,作者提出了一种新的无监督层级对比损失,在 3D 骨架动作表示学习中较典型的实例间对比损失更加有效;


3. 大量的实验显示了作者提出的 HiCo 在下游任务上达到了目前最好的性能,同时学习到的特征表示具有良好的迁移能力,对半监督场景也很高效。




方法


HiCo 有两部分组成,首先是在时间域 (temporal domain) 和空间域 (spatial domain)多个粒度上对 3D 骨架序列进行编码的层级编码器网络,得到其部件级、片段级、域级 (和实例级特征表示。然后是无监督层级对比学习模块,即在上述四个层次上共同进行对比学习。


▲ 图2. 具体方法示意图

层级编码网络


层级编码网络包括时间和空间两个分支,分别从时间域和空间域以多粒度方式编码得到多个特征。


片段级特征表示


具体来说,在时间分支中,作者通过从不同长度的片段中提取特征。给定 3D 骨架动作序列 T 为帧数,J 为节点数),首先将其重排为帧列表的形式,即, 以使用 seq2seq 模型提取时间特征。然后使用一个 MLP 将帧信息映射到高维嵌入空间:

为了得到不同长度的 clip,作者提出了一种简单通用的下采样方法 UDM (Unified Downsampling Module),即通过一维卷积加一维最大池化的可训练方式缩短序列长度。


通过不断调用 UDM,就得到越来越短的序列,这样不同粒度 clip 包含不同时间尺度的信息,具有较强的互补性。


然后使用 seq2seq 模型建模时间上的依赖关系,再通过时间维度上的最大池化将帧级特征聚合为视频级特征,对每个粒度的 clip 都进行这样的操作就可以得到片段级特征。


部件级特征表示

空间分支在空间域上提取不同空间粒度特征形成部件级特征表示也是类似的。将原始 3D 骨架序列重排为节点列表,即 。然后通过上述类似的嵌入、下采样、空间依赖关系建模、特征聚合就可以得到部件级特征。

部件级特征表示

空间分支在空间域上提取不同空间粒度特征形成部件级特征表示也是类似的。将原始 3D 骨架序列重排为节点列表,即 。然后通过上述类似的嵌入、下采样、空间依赖关系建模、特征聚合就可以得到部件级特征。

域级和实例级特征表示

最后,作者将不同粒度的片段级特征融合为时间域特征,将不同粒度的部件级特征融合为空间域特征,再将这两个域级特征融合为实例级特征,由此得到了多层级结构的多特征表示。


层级对比


不同于之前的对比学习方法只在实例间进行对比,作者在多特征表示的基础上,构建了更多的监督信号来学习更好的特征表示。

实例级对比


实例间对比与典型对比学习是相同的,即在实例级特征上进行实例判别(对比)任务,具体来说就是在不同数据增强下的同一个样本的两个实例级特征和其他样本的实例级特征间进行正负样本判别。

域级对比


在域级上,作者认为不管时间域还是空间域都是同一样本的不同表示,应有相同的高级语义信息,可以用来相互作为监督信号,所以将它们看作互为正样本。所以使用了跨域的对比方法,希望时间域和空间域特征在嵌入空间中尽可能接近。

片段级和部件级对比


在片段级和部件级上,不同粒度特征也类似地应有相同的高级语义信息,看作互为正样本。不同粒度的特征数量较多,作者做了简化处理,将最小粒度的特征作为 query 去匹配其他样本。

所以最后的优化目标就是在这四个层级上进行正负样本判别。



实验


动作识别任务


将上述训练得的层级编码器冻结与全连接层线性分类器组合在下游动作识别任务上训练。这里作者使用了双向 GRU、双向 LSTM 和 Transformer 作为基础编码器在 NTU-60、NTU-120、PKU-MMD I 及 PKU-MMD II 四个数据集上展开实验。作者提出的 HiCo 使用不同 seq2seq 模型作为基础编码器均能大幅超越之前的工作。在具有挑战性的 PKU-MMD II 数据集上,比现有最好方法高出了将近 16%。这证明了作者提出的方法的有效性。



动作检索任务


在下游任务动作检索中,给定一个查询动作,使用 cosine 相似度检索出最相似的动作样本对应种类。下表显示了在 NTU-60 和 NTU-120 数据集上与其他方法的对比。作者提出的方法同样表现更好,再一次证明了其有效性。



其他下游任务


作者还尝试了迁移学习和半监督学习。在迁移学习中,模型现在某个数据集上预训练,然后迁移到 PKU-MMD II 数据集上微调。在半监督学习任务中,预训练后在下游任务训练阶段只使用部分标签。下表为与其他同类方法的比较,作者提出的 HiCo 也展现出了迁移能力好、高效的特点。




消融实验


作者在动作识别下游任务中对方法各个模块进行了消融实验。实验使用 Transformer 在 NTU-60 数据集上展开。首先是对层级编码器中多粒度方法和双分支方法的验证。在时间分支和空间分支中不断增加不同粒度的特征,均可以观察到显著的性能提升,证明了层级编码器中多粒度特征的有效性。



同样地,在层级编码器中结合时间空间双分支特征也有性能提升,证明了时间域、空间域编码方法的有效性。



然后是对层级对比的消融实验。在实例级对比基础上不断添加域级对比、片段级对比和部件级对比,可以观察到性能逐步上升,证明了作者提出的层级对比的有效性。



最后,作者展示了多粒度特征有效性的 t-SNE 可视化结果。在时间分支上不断添加不同粒度特征,可以看到得到的特征聚类效果越来越好(DMI 为衡量聚类效果的指标,越低越好)。





总结


作者提出的多层级编码、多层级对比方法性能好、机制简单、适用性强,在各种下游应用上均能取得良好效果。作者认为HiCo在无监督3D骨架动作表示学习上可以用作新的强baseline。同时简单的机制蕴藏了应用到其他模态数据的可能。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
今日神图 | 就喜欢这种简单纯朴的生活!专访:机会与风险频发的3D开发,Cocos Creator 3.7能有多重要?​AAAI 2023 | 利用脉冲神经网络扩展动态图表示学习​ICLR 2023 | LightGCL: 简单且高效的图对比学习推荐系统太阳底下无新事实用|试了上百套衣服,我们找到2款宝藏单品,总结出4种简单实用的春季穿搭40 个简单又有效的 Linux Shell 脚本示例!跟孩子沟通,有一种方式简单有效,却被大多数父母忽略了230109 有效的调查阳过心悸气喘要查什么?肺炎在家怎么办?医生:这么“趴着”简单有效香港,城市街拍简单有效!美国医生推荐的新冠非药物治疗小技巧EMNLP2022 | SimANS:简单有效的困惑负样本采样方法40 个简单又有效的 Linux Shell 脚本示例CVPR 2023 | Uni3D: 首个多数据集3D目标检测框架​WSDM 2023 | S2GAE: 简单而有效的自监督图自动编码器框架开春后娃鼻屎多、鼻塞、鼻炎,这个简单有效的办法值得试试We阿里达摩院开源:半监督学习框架Dash,刷新多项SOTA!2022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一2023 春 祝姐妹们周末快乐!CVPR2023|天大联合卡迪夫大学发布SemanticHuman:部件级、精细语义、灵活可控的3D人体编辑表征是那种简单、直接、不留情面的好看!!前美团联合创始人王慧文 “正在收购” 国产开源深度学习框架OneFlow房价上涨,更多家庭面临遗产税:在英国,几种简单的方法,可以合法规避遗产税!国际要闻简报,轻松了解天下事(03ICRA 2023 | CurveFormer:基于Transformer的3D车道线检测新网络一副2米多高的巨人骨架被撤展,背后是一场持续200多年的悲剧…解决 IRS 税款债务的 7 种简单方法最新综述:基于语言模型提示学习的推理Eruope 2023ICLR 2023 | 解决VAE表示学习问题,北海道大学提出新型生成模型GWAE达摩院开源半监督学习框架Dash,刷新多项SOTANeurIPS 2022 | 面向图数据分布外泛化的因果表示学习菠萝奶酥吐司电影考研 | 电影史复习框架都给你整理好了!MLPInit:MLP的权重可以直接迁移到GNN上!一种简单的GNN训练加速方法转:2023 回国探亲(5)​ICLR 2023 | 用于类别不平衡图表示学习的统一数据模型稀疏性他乡遇故知
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。