Redian新闻
>
ICCV 2023 | 发挥offline方法的潜力,武大&快手提出解耦合的视频实例分割框架DVIS

ICCV 2023 | 发挥offline方法的潜力,武大&快手提出解耦合的视频实例分割框架DVIS

公众号新闻

机器之心专栏

作者:张韬、田兴业


视频分割任务 (Video Segmentation) 由图像分割任务扩展而来,旨在同时分割、检测、追踪视频中的所有目标,是一项比图像分割更具挑战的基础任务。


相比于逐帧处理视频帧的图像分割算法,视频分割算法可以提供时序稳定、准确的分割结果,并追踪每一个单独的目标,实现视频中实例级别的理解与编辑功能。视频分割在视频编辑、短视频基础工具、自动驾驶、监控安防等下游任务有着重要作用。


视频编辑(目标擦除)[a]


视频编辑(视频换背景)[b]


自动驾驶(车辆与行人分割与追踪)


近年来,Transformer [1] 在 CV 中各个领域被广泛应用。DETR [2] 作为基于 Transformer 的经典工作之一,在图像目标检测、图像实例分割领域展现出了强大的潜力。相比于基于 ROI 的实例表征方式,DETR 所采用的基于 Query 的实例表征方式展现出了更强劲的表征能力以及灵活性。受到图像目标检测领域进展的启发,VisTR [9] 首次将 Transformer 应用于 VIS 领域,展现出了巨大的性能提升。随后基于 Transformer 的方法在 VIS 领域成为了主流。


目前视频分割领域的方法可以分为在线 (online) 与离线 (offline) 方法。在线方法在预测当前帧结果时以当前帧及历史帧作为输入,主要应用于需要实时处理的需求场景,如自动驾驶中的实时感知。离线方法在预测当前帧结果时可以利用视频中任意帧作为输入,主要应用于离线处理的需求场景,如视频编辑等。


现有的 SOTA 的 online 方法 (MinVIS [3]、IDOL [4] 等) 遵循着先执行图像分割后逐帧关联实例的技术路线。这种技术路线并未根据其他帧的信息来优化当前帧的分割结果,因此缺乏对于视频信息的有效利用。


现有的 SOTA 的 offline 方法 (SeqFormer [5]、Mask2Former-VIS [6]、VITA [7]、IFC [8] 等) 采用一个紧耦合网络来端到端地处理视频分割任务。虽然这种技术路线理论上可以更加有效地利用视频信息,但是在长视频以及复杂场景中,性能却不尽人意。如以下视频抽帧所示,当视频中出现很多个同类目标发生相互遮挡换位等情况时,Mask2Former-VIS 的目标跟踪结果出现错乱,分割精度也受到影响。


Mask2Former-VIS 在换位场景极易追踪出错(ID 请放大观看)


offline 方法相比于 online 方法可以利用更多的信息,因此理论上应该有着更好的表现。然而事实并非如此,在复杂场景下现有的 offline 方法的性能显著低于 online 方法。我们认为这是由于现有的 offline 方法对实例表征的设定所导致的。现有的 offline 方法采用单一的可学习的 query 来表征视频中的一个实例,这种可学习的 query 可以被看作位置以及大小先验。然而在实际场景中,某个实例的表观和空间位置都可能发生大幅变化,因此仅靠位置与大小先验很难从所有帧中都探测到该实例的正确特征。 正如上面视频 demo 所示,3 号 query(红色掩码覆盖)学习到的先验位置信息处在视频的右侧,然而视频前段所标记的大象在视频结束时已运动至视频左侧。


那么如何充分利用视频信息以使得 offline 方法发挥出理论上应有的潜力?来自武汉大学与快手 Y-tech 的研究者共同研发了一种新的视频实例分割算法——DVIS,回答了该问题。研究论文已被 ICCV2023 接收。



  • 论文地址:https://arxiv.org/pdf/2306.03413.pdf

  • 项目地址:https://github.com/zhang-tao-whu/DVIS


DVIS 在 OVIS、YouTube-VIS、VIPSeg 等数据集上均取得了 SOTA 表现,在 OVIS 数据集上从 2023 年 2 月霸榜至今,并在 CVPR 2023 的 PVUW 挑战赛、ICCV2023 的 LSVOS 挑战赛等多项赛事中取得冠军。 


具体来说,DVIS 具有以下特性:


  • DVIS 可以实现视频通用分割,可以处理视频实例分割 (VIS)、视频语义分割 (VSS) 以及视频全景分割 (VPS) 三大任务。

  • DVIS 可以在 online 以及 offline 模式下运行。

  • 解耦的设计使得 DVIS 训练所需要的计算资源较少,相比于 segmenter 仅带来了不足 5% 的额外计算代价,DVIS-R50 可以在 2080Ti 上一天内完成训练。

  • DVIS 在多个 VIS 以及 VPS 的数据集上均取得 SOTA 性能。


效果展示


在本文之前,VIS 领域的 SOTA 方法 MinVIS 在复杂视频上的表现较差,主要体现在目标跟踪 ID 容易发生错乱、分割掩码破碎等现象。本文提出的 DVIS 则可以在复杂长视频中追踪并稳定分割目标。MinVIS 和 DVIS 的对比如下视频所示。



除此之外,DVIS 在目标占画面比例较小时依然表现良好:



方法简介


既然直接建模实例在整个视频上的表征是困难的,那么是否可以首先在单帧中建模实例,然后逐帧关联实例来获取同一实例在所有帧的表征,最后再对实例的时序信息加以利用。毫无疑问,逐帧关联的难度要比直接关联所有视频帧上的同一实例小得多。在给出时间上良好对齐的实例特征的情况下,有效地对这些特征加以利用也是轻而易举的。


我们将 VIS 任务分解为图像分割、物体关联、时序精化三个子步骤,相应的我们分别设计 segmenter、tracker 和 refiner 三个网络模块来处理这三个子步骤。其中图像分割即为在单帧中分割出目标并获取目标的表征。物体关联即为关联相邻帧的目标表征,为 refiner 提供一个良好对齐的初值。时序精化即为基于对齐好的物体时序信息来优化物体的分割结果以及追踪结果。


当 DVIS 的架构确定好后,我们需要针对图像分割、物体关联、时序精化三个子步骤分别设计合理的 segmenter、tracker 以及 refiner 网络。图像分割子步骤中,我们采用了 SOTA 的图像通用分割网络 Mask2Former 作为 segmenter 来提取物体的表征;物体关联子步骤中,我们将追踪建模为参考去噪 / 重建任务,并设计了 Referring Tracker 来进行稳健的目标关联;在时序精化子步骤中,我们基于 1D 卷积以及 Self Attention 实现了 Temporal Refiner 来有效地利用物体的时序信息。 



1. Referring Tracker



DVIS 将相邻帧物体的关联任务建模为根据上一帧物体 query 来重建当前帧对应的物体 query,即给定上一帧物体的 query 作为 reference query,然后从 segmenter 输出的当前帧的 object query 中聚合信息,最后输出 reference query 相应的实例在当前帧的掩码和类别。Referring Tracker 通过 Referring Cross Attention 来学习以上过程。Referring Cross Attention 充分利用 refrence query 来指导信息的聚合并阻隔了 reference query 与当前信息的混杂,其由标准 Cross Attention 稍作改动而得到:



2. Temporal Refiner



在 Referring Tracker 输出在时间维度上基本对齐的目标 query 后,就可以很容易的通过标准操作(如 1D 卷积以及 Self Attention)来对时序特征进行有效利用。我们设计的 Temporal Refiner 也非常简单,由 1D 卷积以及 Self Attention 来聚合时序特征。Temporal Refiner 基于物体的时序特征来优化分割结果以及追踪结果。


值得一提的是 DVIS 的设计很灵活,Referring Tracker 可以叠加于任何 query-based 的图像分割器来实现在线的视频分割,Temporal Refiner 同样可以叠加于任何在线的视频分割器来获取更强大的分割性能。


实验结果


我们在 OVIS 数据集上对于 Referring Tracker 和 Temporal Refiner 的作用进行了消融实验。Tracker 的主要作用是实现更鲁棒的目标关联,尤其是对于中度遮挡和重度遮挡的物体有较大改善(如下表所示,为中度遮挡以及重度遮挡的目标分别带来了 5.2 AP 和 4.3 AP 的性能提升)。Refiner 的主要作用是充分利用时序信息,结果显示由于时序信息的有效利用,Temporal Refiner 对于被轻度、中度、重度遮挡物体的性能都有显著提升(如下表所示,为轻度、中度以及重度遮挡的目标分别带来了 2.4 AP 和 1.8 AP 和 5.1 AP 的性能提升)。 



并且,由于 Referring Tracker 和 Temporal Refiner 仅处理 object query,因此计算代价很小,计算量总和少于 Segmenter 的 5%(见下表): 



DVIS 在 OVIS、YouTube-VIS (2019,2021) 以及 VIPSeg 等数据集上均取得 SOTA:



结论


在本文中,我们提出了 DVIS,一种将 VIS 任务解耦的框架,将 VIS 任务分为三个子任务:分割,跟踪和细化。我们的贡献有三个方面:1)我们将解耦策略引入了 VIS 任务并提出了 DVIS 框架,2)我们提出了 Referring Tracker,通过将帧间关联建模为引用去噪来增强跟踪的鲁棒性,3)我们提出了 Temporal Refiner,利用整个视频的信息来精化分割结果,弥补了之前工作在这方面的缺失。结果表明,DVIS 在所有 VIS 数据集上实现了 SOTA 性能。


虽然 DVIS 的设计来源于对 VIS 领域内既有方法不足的反思,但是 DVIS 的设计并不局限于视频实例分割领域,其可以无任何改动的在 VIS,VPS 和 VSS 上都取得 SOTA 性能,这证明了 DVIS 的通用性与强大潜力。我们希望,DVIS 将成为一个强大且基础的基准,并且我们的解耦洞见将激发在线和离线 VIS 领域的未来研究。


从未来技术发展的角度上,我们将会继续探索面向图像、视频以及更多模态的基础视觉感知技术,从模型通用性、开放类别等角度进一步拓展基础视觉感知技术的边界。


参考文献

[1] Attention Is All You Need. NeurIPS2017

[2] End-to-End Object Detection with Transformers. ECCV2020

[3] MinVIS: A Minimal Video Instance Segmentation Framework without Video-based Training. NeurIPS2022

[4] In Defense of Online Models for Video Instance Segmentation.ECCV 2022

[5] SeqFormer: a Frustratingly Simple Model for Video Instance Segmentation. ECCV 2022

[6] Mask2Former for Video Instance Segmentation.

[7] Video Instance Segmentation via Object Token Association. NeurIPS2022

[8] Video Instance Segmentation using Inter-Frame Communication Transformers. NeurIPS2021

[9] End-to-End Video Instance Segmentation with Transformers

[a] https://github.com/zllrunning/video-object-removal

[b] https://github.com/PeterL1n/RobustVideoMatting




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Holiday Special 七月上 望七月 ~~ poem & song by 盈盈 & APNeurIPS 2023 | 旷视张祥雨等人提出RevColV2:当解耦学习遇见自监督训练!视觉预训练新思路ICCV 2023 中国遥遥领先!华人拿下最佳论文和最佳学生论文!SAM和ControlNet开启CV新纪元!ICCV 2023 | 浙大&阿里提出:基于Transformer的可泛化人体表征来了!AT&T客服为啥挂我电话?ICCV 2023 | 清华&天津大学提出SurroundOcc:自动驾驶的环视三维占据栅格预测Gunn HS​ICCV 2023 | 超越SAM!EntitySeg:更少的数据,更高的分割质量ICCV 2023 | 更快更强!北理工&旷视提出StreamPETR:纯视觉感知与激光雷达终有一战之力!老海归金蝉脱壳ControlNet、「分割一切」等热门论文获奖,ICCV 2023论文奖项公布ICCV 2023 | 即插即用!上海交大提出AccFlow:跨帧光流估计框架比Meta「分割一切AI」更早实现交互式开集分割!港科大开放词表分割大法入选ICCV 2023ICCV 2023 | 中科大&微软提出AFFNet:轻量级视觉新主干ICCV 2023 | PointCLIP V2:结合CLIP和GPT的3D开放世界分类、分割网络ICCV'23论文颁奖“神仙打架”!Meta分割一切和ControlNet共同入选,还有一篇让评委们很惊讶ICCV 2023 | 比分割一切SAM更早实现交互式开集分割!港科大提出OpenSeeD:开放词表图像分割和检测ICCV 2023 | 复旦&微软提出ILA:基于可学习隐式对齐的时序建模方法ICCV 2023开奖了!2160篇录用论文,Meta「分割一切」被接收ICCV 2023 | 刷新多项记录!武大&快手提出DVIS:解耦视频实例分割框架5104 血壮山河之武汉会战 浴血田家镇 12ICCV 2023 | 只需过一次CLIP!美团&港大提出高效的开放字典语义分割框架DeOP《雨巷佳人》&《我记得你眼里的依恋》​ICCV 2023 | 华科大提出NVDS:即插即用的视频深度预测框架ICCV 2023 | 动态蛇形卷积(Dynamic Snake Convolution)用于管状结构分割ICCV 2023 | TUM&谷歌提出md4all:挑战性条件下的单目深度估计最高法院的给了平权行动猛烈一击有用吗?节日快乐&请教抽烟烟机修理维护CVPR 2023 | RCF:完全无监督的视频物体分割《老和尚的身教》【夏日狂欢Fiesta】撬锁 【夜半轻私语】&【悲歌问句天】ICCV 2023 | 上交提出CCD:基于自监督字符到字符蒸馏的文本识别ICCV 2023 | 新注意力!清华黄高团队提出FLatten Transformer视觉新主干清华&港大提出LanguageMPC:将大语言模型和MPC相结合的新型类人智驾系统ICCV 2023 | 清华&西电提出HumanMAC:人体动作预测新范式ICCV 2023|南洋理工大学开源大规模语言视频分割数据集MeViSICCV 2023 | 发挥offline方法的潜力:解耦合的视频实例分割框架DVIS想读武大的第N天!为学生安排夫妻宿舍,武大的回应亮了ICCV 2023最佳论文候选!谷歌提出Zip-NeRF:照片转视频,像航拍一样丝滑!CVPR 2023 | 完全无监督的视频物体分割 RCF
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。