Redian新闻
>
顶刊TPAMI 2022封面文章!基于3D骨架的行人重识别:一个具有局部性感知的自监督步态编码框架

顶刊TPAMI 2022封面文章!基于3D骨架的行人重识别:一个具有局部性感知的自监督步态编码框架

科技

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—> CV 微信技术交流群


简介


本文提出了一个基于3D骨架的自监督步态编码框架,结合基于注意力的多个自监督语义目标和基于运动连续性的对比学习机制,从无标签的骨架数据上来学习辨别性的骨架表示用于行人重识别。在五个公开的数据集基准上显著地超过基于骨架的同类方法15-40%的准确率,该框架亦适用于基于RGB视频估计的骨架数据,性能优于大多数多模态的方法,代码已开源。本文被精选为TPAMI封面文章(Featured Article of October 2022 Issue) 

https://www.computer.org/csdl/journal/tp


https://www.computer.org/csdl/journal/tp/2022/09/09428530/1twaJR3AcJW

代码(已开源):

https://github.com/Kali-Hac/Locality-Awareness-SGE

单位:中科院深圳研究院(Haocong Rao, NTU), 国防科技大学, 华南理工大学等


背景介绍、具体贡献


利用三维骨架数据进行行人重识别是计算机领域一个极具挑战的新兴研究方向,在构建轻量级安全认证、行人追踪等方面具有广阔的应用前景。由于现有骨架数据规模有限以及骨架噪声的干扰,如何学习有效、鲁棒的区分性骨架特征成为该领域的最大挑战。

图:从深度传感器Kinect估计的骨架数据和利用姿势估计模型提取的骨架数据,用于行人重识别(Person re-ID)任务。


图:带局部性感知注意力机制和对比学习机制的自监督步态编码方法


本文首次提出了一种带局部性感知(Locality-Awareness)的自监督步态编码方法,该方法能够在无标签的骨架数据上来学习骨架表示,通过可扩展的自监督学习目标,即序列反向重建、预测和排序任务来挖掘和学习骨架序列中丰富的高级语义信息以获得可区分的骨架步态特征。同时,为充分利用运动的连续性在步态学习中的作用,本文进一步提出了局部性感知的对比学习机制和注意力机制,分别用于学习相邻骨架序列间和同一序列内相邻骨架帧间的局部相关性,以促进自监督学习并获得更好的骨架步态表示。本文方法通过这两个协同的机制学习的上下文向量构造了基于对比注意力的步态编码特征(Contrastive Attention-based Gait Encodings)来实现行人重识别,在五个公开的数据集上显著地超过基于骨架的同类方法15-40%的准确率,并且能够获得与利用额外RGB或深度信息的多模态方法相当甚至更好的性能。相比目前已有的手工骨架描述符或监督学习方法,该方法可以在无标记骨架数据上直接学得有效表示,具有更强的通用性;同时,该方法可以扩展并适配多种不同的自监督任务,其预训练模型也可以迁移应用于不同的数据集,具有高度的可扩展性和可迁移性。此外,本文的方法亦适用于更多潜在的现实场景,例如本文首次探索了利用从大规模多视角的RGB视频中估计的骨架数据进行行人重识别,并验证所提出方法性能优于许多基于视觉特征(人体外观轮廓)的模型。本文也对目前基于骨架的行人重识别的挑战、局限性、未来方向和伦理问题进行了全面的讨论。


本文的贡献总结如下:


1. 我们提出了一个新的自监督学习范式用于基于3D骨架的行人重识别的步态编码。该范式使我们能够通过学习骨架的反向序列重建来从无标签的3D骨架序列中学习有效的步态表示。

2. 我们全面探索了所提出的自监督学习范式的其他潜在的前置任务(Pretext tasks),并验证它们在进一步加强步态编码方面的有效性。

3. 我们设计了一种具有局部性感知(Locality-Awareness)的注意力机制,利用骨架序列内的运动局部连续性来增强在自监督学习中的骨架重建和步态编码。

4. 我们提出了一种具有局部性感知的对比学习方案,以学习时序上相邻的骨架序列之间的运动局部连续性,该方案能够鼓励模型在序列层次上更好地编码步态。

5. 我们从提出的模型中构建最终的步态表示,也就是基于对比的注意力步态编码(CAGEs),该步态表示的有效性在多个行人重识别任务中得到验证。


(表2) 在已有的多个公开数据集(BIWI, IAS, KS20, KGBD)上,我们的方法性能不仅显著超过已有的同类模型,也优于基于深度图和多模态的主流模型。其中,结合多个自监督语义任务的模型(Rev. Rec. Plus)在部分数据集上能取得更高的性能。


(表5部分) 我们的方法可结合多个互相兼容的自监督语义任务进行学习,并能通过潜在的组合进一步增强步态编码和下游任务的性能表现。


(表 9) 在基于大规模RGB视频估计的骨架数据集(CASIA-B)上,我们的方法能够取得比基于视觉特征(外观轮廓)的经典模型更好的性能,证明了该方法的对不同源骨架数据的通用性。


(图 8) 相比不使用注意力、普通的注意力机制和直接局部遮掩的注意力机制,我们提出的具有局部性感知的注意力机制在不同的骨架序列长度上都能取得更好的性能。



(图 9) 我们的方法(预训练模型)能够迁移应用于不同的数据集并取得相近的性能,具有高度的可扩展性和可迁移性。



点击进入—> CV 微信技术交流群


CVPR 2022论文和代码下载


后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer222,进交流群


CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!


扫码进群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
EGFR外显子突变2022丨二聚体结构频登顶刊,TP53、RNF43、Wnt等通路的交叉影响思路或可直接借鉴2022 Top10自监督学习模型发布!美中两国8项成果霸榜CoRL 2022 | 清华&天津大学提出SurroundDepth:自监督环视深度估计网络NeurIPS 2022 | 基于精确差异学习的图自监督学习《中国金融》封面文章丨白涛:奋力谱写金融保险服务高质量发展新篇章儿科医生教你1秒识别:孩子到底是感冒还是流感!RISC-V有局限性,英国芯片初创公司,选择了Open PowerFury:一个基于JIT动态编译的高性能多语言原生序列化框架NeurIPS 2022 | 香港理工提出OGC:首个无监督3D点云物体实例分割算法已成功移植全球首例3D生物打印耳朵!3D Bio Therapeutics引领3D生物打印技术CIKM 2022最佳论文提名:证据感知的文档级关系抽取方法古人类DNA与重症新冠有关?2022诺奖得主Pääbo,竟是前诺奖得主私生子EMNLP'22 | 基于结构统一M叉编码树的数学问题求解器“我们的祖先到底是谁?为何智人胜出?”丨2022诺奖深入回答了这些问题。附Svante Pääbo趣闻基于自监督学习的多模态推荐算法​“波霸奶茶”老板娘,穿衣性感被举报:一个弱女子的性感营销小儿已是一个全劳力了!在美国186.挣30元?可随时去玩​ICDE 2022 | 时空间隔感知的序列POI推荐NeurIPS 2022 | 清华提出首个退化可感知的展开式TransformerTPAMI 2022 | 自动搜索文本识别网络的高性能特征提取器ACS Appl. Mater. Interfaces:具有自感知能力的软体驱动器畅游法国(6)-王国的边城交通运输部 国家铁路局 中国民用航空局 国家邮政局《关于加快建设国家综合立体交通网主骨架的意见》VideoMAE:简单高效的视频自监督预训练新范式|NeurIPS 2022MICCAI 2022 | 基于对比学习和视觉Transformer的弱监督视频肠息肉检测3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,给一个文本提示就能生成3D模型!周末欣赏一下高雅的音乐剧;Moulin Rouge龙卷风健康快递 197EMNLP 2022 | SentiWSP: 基于多层级的情感感知预训练模型清华提出首个退化可感知的展开式Transformer|NeurIPS 2022自监督榜首!字节跳动提出视觉预训练模型dBOT,重新审视Masked Image Modeling基于无监督预训练的语音识别技术落地实践 火山语音表示有话要说ECCV 2022 Oral | ​Language Matters:面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。