Redian新闻
>
ICCV 2023 | 刷新多项记录!武大&快手提出DVIS:解耦视频实例分割框架

ICCV 2023 | 刷新多项记录!武大&快手提出DVIS:解耦视频实例分割框架

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【图像分割和论文投稿】交流群

作者:zt1999(源:知乎)| 编辑:CVer

https://zhuanlan.zhihu.com/p/645334685

更详细的对比结果如下:

PR一下团队 ICCV2023 中稿的视频实例分割工作DVIS。DVIS在OVIS、YouTube-VIS、VIPSeg等数据集上均取得了SOTA表现。DVIS在OVIS数据集上从2月霸榜至今,并在CVPR 2023的 2nd Pixel-level Video Understanding in the Wild Challenge (Video Panoptic Segmentation Track) 中取得了冠军。

DVIS: Decoupled Video Instance Segmentation Framework
Paper:https://arxiv.org/pdf/2306.03413
Code:https://github.com/zhang-tao-whu/DVIS

主要特性

  1. DVIS可以实现视频通用分割,可以处理视频实例分割(VIS)、视频语义分割(VSS)以及视频全景分割(VPS)三大任务。

  2. DVIS可以在online以及offline模式下运行。

  3. 解耦的设计使得DVIS训练所需要的计算资源较少。

  4. DVIS在多个VIS以及VPS的数据集上均取得SOTA性能。

效果展示:

任务简介

视频实例分割(Video Instance Segmentation, VIS)由图像实例分割任务扩展而来,旨在同时分割、检测、追踪视频中的所有实例,是一项比图像实例分割更具挑战的基础任务,对于自动驾驶、图像编辑等下游任务有着重要作用。视频语义分割(Video Semantic Segmentation, VSS)同样由图像语义分割扩展而来,其要求对视频所有的语义类进行分割并在时间维度上保持时序稳定性。视频全景分割(Video Panoptic Segmentation, VPS)可以看做视频实例分割与视频语义分割的结合,对于视频中的"thing"与"stuff"目标都要求进行分割与追踪。

研究背景以及Motivation

近年来,Transformer[1]在CV中各个领域被广泛应用。DETR[2]作为基于Transformer的经典工作之一,在图像目标检测、图像实例分割领域展现出了强大的潜力。相比于基于ROI的实例表征方式,DETR所采用的基于Query的实例表征方式展现出了更强劲的表征能力以及灵活性。受到图像目标检测领域进展的启发,VisTR首次将Transformer应用于VIS领域,展现出了巨大的性能提升。随后基于Transformer的方法在VIS领域成为了主流。

目前视频分割领域的方法可以分为在线(online)与离线(offline)方法。在线方法在预测当前帧结果时以当前帧及历史帧作为输入,主要应用于需要实时处理的需求场景,如自动驾驶中的实时感知。离线方法在预测当前帧结果时可以利用视频中任意帧作为输入,主要应用于离线处理的需求场景,如视频编辑等。

现有的SOTA的online方法(MinVIS[3]、IDOL[4]等)遵循着先执行图像分割后逐帧关联实例的技术路线。这种技术路线并未根据其他帧的信息来优化当前帧的分割结果,因此缺乏对于视频信息的有效利用。

现有的SOTA的offline方法(SeqFormer[5]、Mask2Former-VIS[6]、VITA[7]、IFC[8]等)采用一个紧耦合网络来端到端地处理视频分割任务。虽然这种技术路线理论上可以更加有效地利用视频信息,但是在长视频以及复杂场景中,性能却不尽人意。如以下视频所示,当视频中出现很多个同类目标发生相互遮挡换位等情况时,Mask2Former-VIS的目标跟踪结果出现错乱,分割精度也受到影响。

offline方法相比于online方法可以利用更多的信息,因此理论上应该有着更好的表现。然而事实并非如此,在复杂场景下现有的offline方法的性能显著低于online方法。我们认为这是由于现有的offline方法对实例表征的设定所导致的。现有的offline方法采用单一的可学习的query来表征视频中的一个实例,这种可学习的query可以被看作位置以及大小先验。然而在实际场景中,某个实例的表观和空间位置都可能发生大幅变化,因此仅靠位置与大小先验很难从所有帧中都探测到该实例的正确特征。正如上面视频demo所示,3号query(红色掩码覆盖)学习到的先验位置信息处在视频的右侧,然而视频前段所标记的大象在视频结束时已运动至视频左侧。

那么如何充分利用视频信息以使得offline方法发挥出理论上应有的潜力?我们尝试在DVIS中回答了该问题。既然直接建模实例在整个视频上的表征是困难的,那么是否可以首先在单帧中建模实例,然后逐帧关联实例来获取同一实例在所有帧的表征,最后再对实例的时序信息加以利用。毫无疑问,逐帧关联的难度要比直接关联所有视频帧上的同一实例小得多。在给出时间上良好对齐的实例特征的情况下,有效地对这些特征加以利用也是轻而易举的。

此时,DVIS的架构呼之欲出,我们将VIS任务分解为图像分割、物体关联、时序精化三个子步骤,相应的我们分别设计segmenter、tracker和refiner三个网络模块来处理这三个子步骤。其中图像分割即为在单帧中分割出目标并获取目标的表征。物体关联即为关联相邻帧的目标表征,为refiner提供一个良好对齐的初值。时序精化即为基于对齐好的物体时序信息来优化物体的分割结果以及追踪结果。

方法简介

当DVIS的架构确定好后,我们需要针对图像分割、物体关联、时序精化三个子步骤分别设计合理的segmenter、tracker以及refiner网络。图像分割子步骤中,我们采用了SOTA的图像通用分割网络Mask2Former作为segmenter来提取物体的表征;物体关联子步骤中,我们将追踪建模为参考去噪/重建任务,并设计了Referring Tracker来进行稳健的目标关联;在时序精化子步骤中,我们基于1D卷积以及Self Attention实现了Temporal Refiner来有效地利用物体的时序信息。

1. Referring Tracker

DVIS将相邻帧物体的关联任务建模为根据上一帧物体query来重建当前帧对应的物体query,即给定上一帧物体的query作为reference query,然后从segmenter输出的当前帧的object query中聚合信息,最后输出reference query相应的实例在当前帧的掩码和类别。Referring Tracker通过Referring Cross Attention来学习以上过程。Referring Cross Attention充分利用refrence query来指导信息的聚合并阻隔了reference query与当前信息的混杂,其由标准Cross Attention稍作改动而得到:

2. Temporal Refiner

在Referring Tracker输出在时间维度上基本对齐的目标query后,就可以很容易的通过标准操作(如1D卷积以及Self Attention)来对时序特征进行有效利用。我们设计的Temporal Refiner也非常简单,由1D卷积以及Self Attention来聚合时序特征。Temporal Refiner基于物体的时序特征来优化分割结果以及追踪结果。

值得一提的是DVIS的设计很灵活,Referring Tracker可以叠加于任何query-based的图像分割器来实现在线的视频分割,Temporal Refiner同样可以叠加于任何在线的视频分割器来获取更强大的分割性能。

实验结果

我们在OVIS数据集上对于Referring Tracker和Temporal Refiner的作用进行了消融实验。Tracker的主要作用是实现更鲁棒的目标关联,尤其是对于中度遮挡和重度遮挡的物体有较大改善(如下表所示,为中度遮挡以及重度遮挡的目标分别带来了5.2 AP和4.3 AP的性能提升)。Refiner的主要作用是充分利用时序信息,结果显示由于时序信息的有效利用,Temporal Refiner对于被轻度、中度、重度遮挡物体的性能都有显著提升(如下表所示,为轻度、中度以及重度遮挡的目标分别带来了2.4 AP和1.8 AP和5.1 AP的性能提升)。

并且,由于Referring Tracker和Temporal Refiner仅处理object query,因此计算代价很小,计算量总和少于Segmenter的5%(见下表):

DVIS在OVIS、YouTube-VIS(2019,2021)以及VIPSeg等数据集上均取得SOTA:

DatasetOVISYTVIS19YTVIS21VIPSeg
之前SOTA45.4 AP
(GenVIS,CVPR2023)
64.3 AP
(IDOL,ECCV2022)
59.6 AP
(GenVIS, CVPR2023)
48.0 VPQ
(TarVIS, CVPR2023)
DVIS49.9 AP64.9 AP60.1 AP57.6 VPQ
涨幅+4.5+0.6+0.5+9.4

结论

在本文中,我们提出了DVIS,一种将VIS任务解耦的框架,将VIS任务分为三个子任务:分割,跟踪和细化。我们的贡献有三个方面:1)我们将解耦策略引入了VIS任务并提出了DVIS框架,2)我们提出了Referring Tracker,通过将帧间关联建模为引用去噪来增强跟踪的鲁棒性,3)我们提出了Temporal Refiner,利用整个视频的信息来精化分割结果,弥补了之前工作在这方面的缺失。结果表明,DVIS在所有VIS数据集上实现了SOTA性能。

虽然DVIS的设计来源于对VIS领域内既有方法不足的反思,但是DVIS的设计并不局限于视频实例分割领域,其可以无任何改动的在VIS,VPS和VSS上都取得SOTA性能,这证明了DVIS的通用性与强大潜力。我们希望,DVIS将成为一个强大且基础的基准,并且我们的解耦洞见将激发在线和离线VIS领域的未来研究。

参考文献

[1] Attention Is All You Need. NeurIPS2017

[2] End-to-End Object Detection with Transformers. ECCV2020

[3] MinVIS: A Minimal Video Instance Segmentation Framework without Video-based Training. NeurIPS2022

[4] In Defense of Online Models for Video Instance Segmentation.ECCV 2022

[5] SeqFormer: a Frustratingly Simple Model for Video Instance Segmentation. ECCV 2022

[6] Mask2Former for Video Instance Segmentation.

[7] Video Instance Segmentation via Object Token Association. NeurIPS2022

[8] Video Instance Segmentation using Inter-Frame Communication Transformers. NeurIPS2021

[9] A generalized framework for video instance segmentation. CVPR2023.

[10] Tarvis: A unified approach for target-based video segmentation. CVPR2023.

点击进入—>【图像分割和论文投稿】交流群


ICCV / CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

图像分割和论文投稿交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-图像分割或者论文投稿 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如图像分割或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
NeurIPS 2023 | 中科院&旷视提出DropPos:全新的自监督视觉预训练代理任务​ICCV 2023 | 华科大提出NVDS:即插即用的视频深度预测框架🔴🟢🟡求分享做酱肉包的馅的方法&分享个苹果手机功能以表感谢。细说出嫁和跳槽ICCV 2023 | 中科大&微软提出AFFNet:轻量级视觉新主干ICCV 2023 | 动态蛇形卷积(Dynamic Snake Convolution)用于管状结构分割ICCV 2023 | 清华&天津大学提出SurroundOcc:自动驾驶的环视三维占据栅格预测ICCV 2023最佳论文候选!谷歌提出Zip-NeRF:照片转视频,像航拍一样丝滑!​ICCV 2023 | 超越SAM!EntitySeg:更少的数据,更高的分割质量比Meta「分割一切AI」更早实现交互式开集分割!港科大开放词表分割大法入选ICCV 2023花姐,这是我自己读的ICCV 2023 | 发挥offline方法的潜力:解耦合的视频实例分割框架DVIS阿里云倚天实例技术公开课上线,两节课直播讲解倚天实例技术架构、应用实践与软件迁移中科大&微软提出DragNUWA:拖拽下图像就能生成视频!连破多项记录,这部电影有望问鼎今年全球票房冠军ICCV 2023 | 只需过一次CLIP!美团&港大提出高效的开放字典语义分割框架DeOP俄乌战况14ICCV 2023 | PointCLIP V2:结合CLIP和GPT的3D开放世界分类、分割网络Holiday Special 七月上 望七月 ~~ poem & song by 盈盈 & APCVPR 2023 | 浙大&南洋理工提出PADing:零样本通用分割框架ControlNet、「分割一切」等热门论文获奖,ICCV 2023论文奖项公布ICCV 2023 | 比分割一切SAM更早实现交互式开集分割!港科大提出OpenSeeD:开放词表图像分割和检测Ng?g? wa Thiong’o - giant of African writing.ICCV 2023|南洋理工大学开源大规模语言视频分割数据集MeViS阿大提出:视听分割合成新数据集和声音图像分割新网络【美国春天印象5年飞兔藏龙卧虎跨年音乐会】《岳阳楼记先天下之忧而忧》范仲淹 &《陋室铭山不在高有仙则名,水不在深有龙则灵ICCV 2023 | 复旦&微软提出ILA:基于可学习隐式对齐的时序建模方法ICCV 2023 | 上交提出CCD:基于自监督字符到字符蒸馏的文本识别ICCV 2023开奖了!2160篇录用论文,Meta「分割一切」被接收ICCV 2023 | TUM&谷歌提出md4all:挑战性条件下的单目深度估计【美国风流才女春天传奇夏至父亲端午节5年现场舞台风格流派三部曲原创演唱会】励志春天跑步歌《阳光下奔跑》&《白色衣裙女孩》ICCV 2023 | CLIP驱动的器官分割和肿瘤检测通用模型牧羊曲0参数量 + 0训练,3D点云分析方法Point-NN刷新多项SOTA女机器人ICCV 2023 | 发挥offline方法的潜力,武大&快手提出解耦合的视频实例分割框架DVISCVPR 2023 | 香港理工提出GrowSP:3D场景的无监督语义分割ICCV 2023 | 即插即用!上海交大提出AccFlow:跨帧光流估计框架ICCV 2023 | 清华&西电提出HumanMAC:人体动作预测新范式ICCV 2023 | 更快更强!北理工&旷视提出StreamPETR:纯视觉感知与激光雷达终有一战之力!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。