CVPR 2024 竞赛冠军方案!复杂场景下的视频对象分割
点击下方卡片,关注“CVer”公众号
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
AI/CV重磅干货,第一时间送达
添加微信:CVer5555,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
添加微信:CVer5555,小助手会拉你进群!
扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!
由鹏城实验室、哈工大深圳和University of California at Merced组成的团队在CVPR2024 PVUW比赛的MOSE视频对象分割赛道获得冠军。
竞赛及数据集:
https://henghuiding.github.io/MOSE/ChallengeCVPR2024
技术报告:https://arxiv.org/abs/2406.04600
视频对象分割(VOS)是一项广泛应用于自动驾驶、增强现实和交互式视频编辑等领域,其主要任务是从视频序列中跟踪和分割目标对象。然而,当前的VOS方法面临许多挑战,如目标外观的显著变化、遮挡以及由于类似对象和背景杂乱导致的身份混淆,尤其在处理长视频和复杂真实环境视频时,这些问题更加突出。
为了应对这些挑战,团队提出了一种新的VOS框架,通过学习语义先验和辨别性查询表示来提升性能, 如图1所示。
图1 整体框架
由于VOS任务涉及的是没有类别标签的通用对象,从VOS数据集中直接学习语义表示具有一定挑战性。然而,预训练的视觉Transformer中的CLS token能够捕捉整个图像的语义信息,提供图像内容的全面、全局表示。通过将CLS Token与卷积神经网络(CNN)生成的多尺度特征结合,可以在不同尺度上获取详细的语义特征。报告中作者团队使用交叉注意力机制来进行VOS的语义先验和空间依赖关系学习。这一设计不仅能够捕捉目标的细节信息,还能有效处理目标外观随时间变化的问题。
作者团队注意到,直接使用基于在线预测掩码生成的整个对象区域更新目标查询记忆鲁棒性不足,因为预测掩码通常覆盖背景噪声,降低了目标的独特性,并导致错误随时间累积。为了在帧之间有效传播目标查询,作者们使用目标对象最具辨别力的特征来更新目标查询。通过将目标查询与目标的相关特征图中的每个通道进行比较,并选择最相似的一个,从而选择目标的辨别性特征。基于从新目标样本生成的辨别性目标特征,可以通过动态计算显著查询和显著像素特征之间的关系,以叠加的方式更新目标查询。
所提出的辨别性查询生成方法能够自适应地选择最具代表性的特征来优化目标查询,这有助于应对长视频中目标外观剧烈变化的挑战。通过这一方法,有效地提高了模型在复杂场景和目标变化情况下的视频对象分割性能。该方法在MOSE数据集上进行了严格的验证。MOSE数据集包含复杂且具有挑战性的场景,包括遮挡和拥挤的对象,专注于现实环境中的问题。实验结果表明,该方法在处理目标外观变化、遮挡和ID混淆等问题上表现出色,完成了在复杂场景下实现高精度目标跟踪和分割的任务,显著提升了VOS在真实世界应用中的效果。更详细的论文正在评阅中。
表1 MOSE Track最终结果和排名
图2 复杂环境中目标的跟踪与分割效果
图3 极小目标的跟踪与分割效果
何恺明在MIT授课的课件PPT下载
何恺明在MIT授课的课件PPT下载
在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!
CVPR 2024 论文和代码下载
CVPR 2024 论文和代码下载
在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集
Mamba、多模态和扩散模型交流群成立
扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer5555,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
▲扫码或加微信号: CVer5555,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!
▲扫码加入星球学习
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
微信扫码关注该文公众号作者