顶刊TPAMI 2022封面文章!基于3D骨架的行人重识别:一个具有局部性感知的自监督步态编码框架
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
点击进入—> CV 微信技术交流群
简介
本文提出了一个基于3D骨架的自监督步态编码框架,结合基于注意力的多个自监督语义目标和基于运动连续性的对比学习机制,从无标签的骨架数据上来学习辨别性的骨架表示用于行人重识别。在五个公开的数据集基准上显著地超过基于骨架的同类方法15-40%的准确率,该框架亦适用于基于RGB视频估计的骨架数据,性能优于大多数多模态的方法,代码已开源。本文被精选为TPAMI封面文章(Featured Article of October 2022 Issue)
https://www.computer.org/csdl/journal/tp
https://www.computer.org/csdl/journal/tp/2022/09/09428530/1twaJR3AcJW
代码(已开源):
https://github.com/Kali-Hac/Locality-Awareness-SGE
单位:中科院深圳研究院(Haocong Rao, NTU), 国防科技大学, 华南理工大学等
背景介绍、具体贡献
利用三维骨架数据进行行人重识别是计算机领域一个极具挑战的新兴研究方向,在构建轻量级安全认证、行人追踪等方面具有广阔的应用前景。由于现有骨架数据规模有限以及骨架噪声的干扰,如何学习有效、鲁棒的区分性骨架特征成为该领域的最大挑战。
图:从深度传感器Kinect估计的骨架数据和利用姿势估计模型提取的骨架数据,用于行人重识别(Person re-ID)任务。
图:带局部性感知注意力机制和对比学习机制的自监督步态编码方法
本文首次提出了一种带局部性感知(Locality-Awareness)的自监督步态编码方法,该方法能够在无标签的骨架数据上来学习骨架表示,通过可扩展的自监督学习目标,即序列反向重建、预测和排序任务来挖掘和学习骨架序列中丰富的高级语义信息以获得可区分的骨架步态特征。同时,为充分利用运动的连续性在步态学习中的作用,本文进一步提出了局部性感知的对比学习机制和注意力机制,分别用于学习相邻骨架序列间和同一序列内相邻骨架帧间的局部相关性,以促进自监督学习并获得更好的骨架步态表示。本文方法通过这两个协同的机制学习的上下文向量构造了基于对比注意力的步态编码特征(Contrastive Attention-based Gait Encodings)来实现行人重识别,在五个公开的数据集上显著地超过基于骨架的同类方法15-40%的准确率,并且能够获得与利用额外RGB或深度信息的多模态方法相当甚至更好的性能。相比目前已有的手工骨架描述符或监督学习方法,该方法可以在无标记骨架数据上直接学得有效表示,具有更强的通用性;同时,该方法可以扩展并适配多种不同的自监督任务,其预训练模型也可以迁移应用于不同的数据集,具有高度的可扩展性和可迁移性。此外,本文的方法亦适用于更多潜在的现实场景,例如本文首次探索了利用从大规模多视角的RGB视频中估计的骨架数据进行行人重识别,并验证所提出方法性能优于许多基于视觉特征(人体外观轮廓)的模型。本文也对目前基于骨架的行人重识别的挑战、局限性、未来方向和伦理问题进行了全面的讨论。
本文的贡献总结如下:
1. 我们提出了一个新的自监督学习范式用于基于3D骨架的行人重识别的步态编码。该范式使我们能够通过学习骨架的反向序列重建来从无标签的3D骨架序列中学习有效的步态表示。
2. 我们全面探索了所提出的自监督学习范式的其他潜在的前置任务(Pretext tasks),并验证它们在进一步加强步态编码方面的有效性。
3. 我们设计了一种具有局部性感知(Locality-Awareness)的注意力机制,利用骨架序列内的运动局部连续性来增强在自监督学习中的骨架重建和步态编码。
4. 我们提出了一种具有局部性感知的对比学习方案,以学习时序上相邻的骨架序列之间的运动局部连续性,该方案能够鼓励模型在序列层次上更好地编码步态。
5. 我们从提出的模型中构建最终的步态表示,也就是基于对比的注意力步态编码(CAGEs),该步态表示的有效性在多个行人重识别任务中得到验证。
(表2) 在已有的多个公开数据集(BIWI, IAS, KS20, KGBD)上,我们的方法性能不仅显著超过已有的同类模型,也优于基于深度图和多模态的主流模型。其中,结合多个自监督语义任务的模型(Rev. Rec. Plus)在部分数据集上能取得更高的性能。
(表5部分) 我们的方法可结合多个互相兼容的自监督语义任务进行学习,并能通过潜在的组合进一步增强步态编码和下游任务的性能表现。
(表 9) 在基于大规模RGB视频估计的骨架数据集(CASIA-B)上,我们的方法能够取得比基于视觉特征(外观轮廓)的经典模型更好的性能,证明了该方法的对不同源骨架数据的通用性。
(图 8) 相比不使用注意力、普通的注意力机制和直接局部遮掩的注意力机制,我们提出的具有局部性感知的注意力机制在不同的骨架序列长度上都能取得更好的性能。
(图 9) 我们的方法(预训练模型)能够迁移应用于不同的数据集并取得相近的性能,具有高度的可扩展性和可迁移性。
CVPR 2022论文和代码下载
后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF
目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer222,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!
▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
微信扫码关注该文公众号作者