Redian新闻
>
CVPR 2023 | 基于动作元对比学习的无监督骨架动作识别

CVPR 2023 | 基于动作元对比学习的无监督骨架动作识别

公众号新闻


©作者 | 林里浪
来源 | STRUCTatPKU


本期分享 STRUCT 小组 CVPR-2023 的 Highlight 文章。本项工作提出了一种依赖动作元 (Actionlet) 的对比学习方法 (ActCLR)。动作元被定义为人类骨架的运动关节集合。其有效地分解了运动区域与静态区域,以便更好地进行动作建模。通过与不含运动的静态基准对比,提取骨架数据中的运动区域,并将其作为动作元。然后,构建了一个运动适应性数据变换的方法,对运动区域和非运动区域进行不同的数据变换,以在保持运动信息的同时引入更多的多样性。同时,本工作提出了一种语义感知的特征池化方法,以对运动区域建立特征表示。
NTU RGB+D PKUMMD 上的大量实验表明,所提出的方法实现了显著的动作识别性能提升。

论文标题:

Actionlet-Dependent Contrastive Learning for Unsupervised Skeleton-Based Action Recognition

论文链接:

https://arxiv.org/abs/2303.10904

项目链接:

https://langlandslin.github.io/projects/ActCLR/

Video:

https://youtu.be/jwX0Zc8s10w




基于自监督的骨架数据动作识别

基于监督的骨架动作识别方法已经取得了令人印象深刻的性能。然而其成功高度依赖于大量的标记的训练数据,而这些数据的获得是很昂贵的。为了摆脱对完全监督的依赖,自监督学习已经被引入到基于骨架的动作识别。它采用了一个两阶段的范式,即首先应用自监督任务进行无监督预训练,然后采用下游任务进行微调。


根据学习范式,所有的方法可以分为两类:基于重建的和基于对比的学习。基于重构的方法通过预测空间-时间掩盖的骨架数据进行学习。基于对比学习的方法采用数据变换来产生正/负样本,通过拉近正例对的特征距离,推远负例对的特征距离来提高特征空间的一致性和均匀性。




解耦运动和静态区域

这些对比学习工作对骨架序列的不同区域进行统一处理。然而,运动区域包含更丰富的动作信息,对动作建模的贡献更大。因此,直接将数据变换应用到所有区域是次优的。这可能会使运动相关的信息在数据变换中丢失。例如,如果掩码变换对举手动作中的手部关节进行了遮盖,举手动作的运动信息就会被完全破坏。这将引起假阳性问题,即由于信息的不一致而导致的语义上的不一致。因此,有必要对运动区域和静态区域进行区分设计。

如图 1 所示,本工作利用动作元定位运动区域,以指导对比学习。

▲ 图1. 基于动作元的对比学习方法





算法框架


本工作首先无监督地获得动作元的定位。如图 2 所示,注意到对数据集中全部骨架数据取平均后得到的平均运动基本是静态的,所以将其作为一个静态基准。通过输入数据和这个静态基准做对比,求取其差异最大的区域就是动作元。

▲ 图2. 基于静态基准的无监督动作元选取方法

如图 3 所示,对于对比学习,本工作采用双路结构,即在线流和离线流。上路是在线流,通过梯度更新。下路是离线流,由动量更新。本工作通过获得的动作元对输入数据进行运动适应性数据转换(MATS)来获得增强的数据。对于动作元的区域,我们采样剪切,旋转和翻转等保持运动语义的数据变换。对于非动作元区域,我们采用高斯噪声,裁剪粘贴等可能改变语义的数据变换。

在离线特征提取中,本工作采用语义感知的特征池化(SAFP)来获得更准确的特征。即仅对动作元区域求取特征。最后,利用相似性挖掘,我们增加了正例之间的相似性,减少了负例之间的相似性。


▲ 图3. 基于动作元的对比学习框架图


实验结果


本工作在 NTU RGB+D 上的无监督线性评估实验表明,所提出的方法实现了显著的动作识别性能提升。

▲ 表1. 线性评估结果

可以看到,在监督微调下,本工作也取得了更优的性能。

▲ 表2. 监督微调结果

本工作在 NTU 数据集上预训练后迁移到 PKUMMD 数据集取得较好的动作识别和分割性能,这证明了本方法的泛化性能。

▲ 表3. 迁移学习结果

▲ 表4. 动作分割结果


参考文献

[1] Lilang Lin, Sijie Song, Wenhan Yang, and Jiaying Liu. MS2L: Multi-task self-supervised learning for skeleton based action recognition. In ACM MM, 2020. 

[2] Sijie Song, Cuiling Lan, Junliang Xing, Wenjun Zeng, and Jiaying Liu. Spatio-temporal attention-based lstm networks for 3d action recognition and detection. IEEE TIP, 2018. 

[3] Jiaying Liu, Sijie Song, Chunhui Liu, Yanghao Li, and Yueyu Hu. A benchmark dataset and comparison study for multi-modal human action analytics. ACM TOMM, 2020.


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CVPR 2023 | 北大提出UniDexGrasp:通用灵巧手抓取算法CVPR 2023 | 香港理工提出GrowSP:3D场景的无监督语义分割炸裂!最新CVPR2023、ICML2023、AAAI2023、ACL2023论文+Code大合集!2023 希腊陆地游我的私隐真的不想你偷窥---哪种社交App安全?独特的车库风景CVPR 2023 | 谷歌提出CLIPPO:仅从像素理解图像和语言2023 USAMO Awardees 名单CVPR 2023 | MobileOne:移动端仅需1ms的高性能主干!超越MobileViT!​一文速览CVPR 2023掩码图像建模领域最新研究进展作弊成风,斯坦福拟取消实施超百年的无监考政策CVPR 2023 | 小红书提出OvarNet模型:开集预测的新SOTA,“万物识别”有了新玩法回国之旅,衣着被朋友骂了CVPR 2023 | 华科&MSRA新作:基于CLIP的轻量级开放词汇语义分割架构CVPR 2023 | 北大提出DynamicDet:目标检测器的通用动态架构2022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一CVPR 2023 | 基于颜色感知背景的文档图像阴影去除CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型ICLR 2023 | 大模型上下文学习的无限扩展方法:kNN Prompting港中文李教授:基于深度学习的语音识别算法研究|收获一作论文与导师推荐信!今年 CV 热点这么多,不可错过 CVPR 2023 线下论文分享会ICCV 2023 | 北大提出MotionBERT:人体运动表征学习的统一视角当AIGC遇到GAN和Diffusion,CVPR 2023论文大盘点我的私隐真的不想你偷窥---哪种社交App安全?CVPR 2023 | 多车协作让纯视觉3D目标探测媲美激光雷达🥰2023国际棋联国际象棋世界冠军赛(World Chess Championship 2023)🥰直接压缩一切!OpenAI首席科学家Ilya Sutskever这么看无监督学习CVPR'23|一张图重建3D人物新思路:完美复刻复杂动作和宽松衣物,遮挡也不在话下慢跑练习 2023.04.22CVPR 2023 | HPM:在掩码学习中挖掘困难样本,带来稳固性能提升!ICML 2023 | 究竟MAE与对比学习怎样结合才是最优的?ReCon来告诉你答案CVPR 2023 | LED阵列+LCD面板=3072个投影仪:浙大-相芯联合团队实现复杂物体高质量数字化建模《灯火阑珊》&合唱《雪白和玫瑰红》​ACL 2023 | 用二分类解决无监督常识问答ICCV 2023 | K400首次90%准确率!UniFormerV2开源:基于ViT的高效视频识别上海AI实验室联合团队获CVPR最佳论文奖 | CVPR 2023CVPR 2023 | RCF:完全无监督的视频物体分割CVPR 2023 | 何恺明团队开源FLIP:MAE助力CLIP更快更高精度!CVPR 2023 | LeCun世界模型首个研究!自监督视觉像人一样学习和推理!CVPR 2023 | 完全无监督的视频物体分割 RCF
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。