Redian新闻
>
CVPR 2024 | 港理工联合OPPO提出统一且通用的视频分割大模型

CVPR 2024 | 港理工联合OPPO提出统一且通用的视频分割大模型

科学


尽管统一图像分割取得了很不错的进展,但开发统一视频分割模型仍然是一个挑战。这主要是因为不同视频分割任务的侧重点不同,这使得使用相同架构处理不同任务变得异常困难,尤其在保持物体时序一致性方面。具体来说,类别为导向的视频分割任务更侧重检测并跟踪视频中特定类别的对象,而以提示为导向的 VS 任务侧重于在根据视觉/文本提示在视频中重新识别目标。

近日, 由香港理工大学和 OPPO 研究院提出了一种新颖且简洁的统一视频分割架构,名为 UniVS,旨在通过使用视觉和文本提示作为查询来明确地解码物体的掩码。对于每一个目标物体,UniVS 取先前帧中的提示特征的平均值作为其初始查询,从而明确地解码出目标物体的掩码。

同时,本文在掩码解码器中引入了一个目标感知的提示交叉注意力层,以传递内存池中的提示特征到当前帧中。在推理阶段,通过将先前帧中预测的物体掩码作为它们的视觉提示,UniVS 将不同的视频分割任务转化为以提示为导向的目标分割,消除了启发式的帧间匹配过程。

本文提出的框架不仅统一了不同的视频任务,还自然地实现了统一的训练和测试,确保在不同场景下具有稳健的性能。在视频实例、语义、全景、对象和文本指代分割任务的 10 个具有挑战性的 VS 基准测试上,UniVS 取得了非常不错的视频分割性能,并且在多个场景下展示了其强大的通用能力。

论文地址:
https://arxiv.org/abs/2402.18115

代码地址:

https://github.com/MinghanLi/UniVS/

项目主页:

https://sites.google.com/view/unified-video-seg-univs


引言

视频分割(VS)将视频序列划分为不同的区域或片段,为视频理解、区域引导的视频生成、交互式视频编辑和增强现实等许多应用提供了便利。视频分割的任务可以分为两组:类别指定的视频分割和提示指定的视频分割。前者侧重于从预定义的类别集合中分割和跟踪实体。

典型的任务包括视频实例分割(VIS)、语义分割(VSS)和全景分割(VPS),其中需要指定对象类别信息。另一组任务侧重于在整个视频中识别和分割特定目标,需要提供目标的视觉提示或文本描述。提示导向的 VS 任务包括视频对象分割(VOS)、全景视频对象分割(PVOS)和引用式视频对象分割(RefVOS)。每种 VS 任务都有自己的数据集注释和模型评估协议。

▲ 图1. 比较现有的视频分割方法和 UniVS。在现有的类别指定分割任务方法中(a1),需要首先在每帧中检测实体,然后在帧间进行匹配;而在提示指定分割任务方法中(a2),需要从预测的掩码中识别目标物体。相比之下,本文提出的 UniVS(b)使用预测的掩码作为伪视觉提示以在后续帧中解码掩码,避免了启发式后处理。

现有的统一 VS 模型大多受到统一图片分割模型的启发。它们逐帧分割视频序列,然后使用相似性匹配步骤来关联多帧间的共同的对象或找到类别/提示指定的目标物体。

然而,现有模型在处理 VS 任务时仍然存在一些限制,例如无法在不同 VS 任务中保持物体的时序一致性,或者无法在同一个框架中兼容可数(如人,车)和不可数的物体(如天空,草地),或者无法很好地编码语言信息来解决以语言为导向的目标物体分割。

究其根本,这主要是因为类别指定和提示指定的 VS 任务有不同的侧重点导致的。详细来说,类别指定的分割主要关注每帧的精确检测和共同对象的帧间关联,而提示指定的分割则侧重于在视频序列中使用文本/视觉提示准确跟踪目标,其中目标可以是不常见的对象或对象的一部分。这两种类型的 VS 任务的不同重点使得在单个框架内集成它们并取得令人满意的结果变得具有挑战性。

为了缓解上述问题,本文提出了一种新颖的统一 VS 架构,即 UniVS,它使用提示作为查询。对于每个感兴趣的目标,UniVS 将先前帧的提示特征平均作为其初始查询。在掩码解码器中引入了一种目标导向提示交叉注意力(ProCA)层,以整合存储在内存池中的全面提示特征。初始查询和 ProCA 层在显式和准确解码掩码中起着关键作用。

另一方面,通过将先前帧的实体预测掩码作为它们的视觉提示,UniVS 可以将不同的 VS 任务转化为以提示为导向的目标分割任务,消除了启发式的帧间匹配。UniVS 的整个过程如图所示。

UniVS 不仅统一了不同的 VS 任务,还自然地实现了通用的训练和测试,在不同场景下表现出稳健的性能。它在 10 个具有挑战性的 VS 基准测试中展现了出色的性能和通用性,涵盖了 VIS、VSS、VPS、VOS、RefVOS 和 PVOS 任务。据我们所知,UniVS 是第一个成功将所有现有的 VS 任务统一在一个模型中的工作。


方法介绍

▲ 图2. 本文提出的 UniVS 框架的训练示意图。UniVS 包含三个主要模块:图像编码器(灰色矩形)、提示编码器(紫色矩形)和统一视频掩码解码器(黄色矩形)。
UniVS 包含三个主要模块:图像编码器、提示编码器和统一视频掩码解码器,如图所示。图像编码器将输入的 RGB 图像转换为图片令牌,而提示编码器将原始的视觉/文本提示转换为提示嵌入。统一视频掩码解码器明确地解码视频中任何实体的掩码或以提示为导向的目标的掩码。
2.1 图像编码器和提示编码器

图像编码器包含一个主干网络和一个像素解码器。主干网络将 RGB 图像映射为多尺度特征,像素解码器进一步融合不同尺度的特征以增强表示能力。多尺度特征图的分辨率分别是输入图像的 1/32、1/16、1/8 和 1/4。

提示编码器将输入的视觉/文本提示转换为提示嵌入。视觉提示可以是点击点、框、掩码和涂鸦等。

为了将视觉提示转换为图像嵌入,采用了 SEEM 中提出的 Visual Sampler 策略。它从每个目标的指定像素中随机采点,并从图像编码器输出的图像特征图中提取对应点的特征作为其视觉提示嵌入语言提示可以是类别名称(如“人”)或文本表达式(如“一个人正在滑板”)。将类别名称或表达式输入分词器以获取其字符串令牌,并将其输入到 CLIP 文本编码器中获取文本嵌入。

然后使用单个交叉注意力层实现语言-图像嵌入的交互,其中查询是文本嵌入,键和值是扁平化的多尺度图像嵌入。最后,使用一个映射矩阵将文本嵌入从文本维度映射到视觉维度的特征空间。注意,为了利用 CLIP 强大的开放词汇能力,本文冻结了 CLIP 文本编码器的权重。

2.2 统一视频掩码解码器

统一视频掩码解码器旨在解码提示指定目标的掩码,可以描述为:

其中 是第 个目标的提示特征和相关的物体 ID, 是其在第 帧中的预测掩码。 分别是视频中的目标物体总数和视频包含的总帧数。本文改编了 Mask2Former 的掩码解码器,它最初设计用于具有一组可学习查询来处理类别为导向的物体分割,比如实例分割,语义分割和全景分割。
在本文中,作者通过引入一个侧流使其可以处理提示为导向的物体分割,该侧流以提示特征的均值作为输入查询。如图 2 中右侧的黄色区域所示,本文提出的统一视频掩码解码器包括四个关键组件:目标级提示交叉注意力层、图像交叉注意力层、分离的自注意力层和前馈网络。
初始提示查询(PQ): 个目标的视觉/文本提示嵌入 包含 个提示令牌,这些令牌可以是来自视觉提示的点特征,或者是类别名称和表达式的字符串令牌。
本文计算与目标相关的所有提示令牌的平均值作为目标的初始查询:如果输入包含 帧的视频片段,则初始查询将重复 次,生成一个片段级的初始查询 。使用提示特征的均值作为初始查询可以提供一个信息丰富且稳定的起点,用于统一视频掩码解码器。
提示交叉注意力(ProCA):初始查询可能不足以为目标提供独特的表示,特别是对于具有相似特征的目标,如图 2 中的“人”和“黑色T恤”。为了增强表示的独特性,本文引入了一个实体级的提示交叉注意力层,学习提示信息以更好地区分目标:
其中查询是 ,键和值是提示令牌 表示投影权重。ProCA 层位于图像交叉注意力层之前,以避免随着解码器层的加深而遗忘提示信息。
图像交叉注意力和分离的自注意力:ProCA 层有助于融合提示信息,而图像交叉注意力层专注于从输入帧中提取实体细节。本文只计算每帧查询与相应图像特征之间的图像交叉注意力,以减少内存开销。
此外,分离的自注意力(Sep-SA)层具有两个目的。一方面,它隔离了可学习查询和提示查询之间的交互作用,最小化了不必要的负面影响。另一方面,通过在时间维度上对可学习/提示查询进行扁平化,它促进了对所关注目标在时空域中的内容交互。Sep-SA 层可以表示为:

* 其中 分别表示扁平化后的可学习查询和提示查询, 是它们的数量。

整体网络架构:除了 ProCA、图像交叉注意力和 SepSA 层之外,FFN 进一步允许掩码解码器从数据中学习非线性关系。这四个关键组件构成了一个 Transformer 层,UniVS 的统一视频掩码解码器由九个这样的 Transformer 层组成。此外,UniVS 被设计为两个掩码解码流,它们共享相同的权重,分别用于解码可学习查询和提示查询。



统一的训练和推理

训练阶段:UniVS 的训练过程包括三个阶段:图像级训练、视频级训练和长视频微调。


在第一阶段,UniVS 在多个图像分割数据集上进行训练,使用图像级注释对模型进行预训练,以获得良好的视觉表示。


在第二阶段,作者将一个包含三帧的短视频剪辑输入预训练模型,并在视频分割数据集上进行微调,以感知短时间内的物体运动轨迹的变化。


在第三阶段,作者使用包含超过五帧的长视频序列进一步微调统一视频掩码解码器,鼓励其在更长的时间范围内学习更具区分性的特征和轨迹信息。


为了优化内存使用,作者在最后两个阶段冻结了主干网络的权重,并在最后一个阶段进一步冻结像素解码器。在每次迭代中,批次中的所有样本来自同一个数据集。与从不同数据集中混合采样相比,本文发现这种采样策略可以使训练更加稳定。具体的训练数据集和训练策略请查看文章正文及补充材料。

统一流式推理过程:在 UniVS 中,模型的输入可以是单帧或多帧的视频剪辑。本文以单帧作为输入为例,阐述了用于通用类别指定和提示指定的统一推理过程。对于提示指定的 VS 任务,UniVS 以视频帧和视觉/文本提示作为输入,推理过程如图 3 中的黄色框所示。UniVS 可以同时处理多个目标。


首先,图像编码器将第一帧转换为多尺度图像嵌入。随后,提示编码器将目标的视觉/文本提示转换为提示标记。在本文的设计中,每个目标都有其专用的内存池,用于存储相关的提示标记,并通过求平均来获得其提示查询。这些查询被掩码解码器用于预测当前帧中目标的掩码,然后将其作为目标的视觉提示反馈给提示编码器,从而使用新的提示信息更新目标的内存池。


简而言之,UniVS 利用存储在内存池中的目标对象的提示信息来识别和分割后续帧中的目标,消除了其他统一模型(如 SEEM 和 UNINEXT)中繁琐的后处理匹配步骤,其需要从所有预测的实体中过滤出目标物体。针对类别指定的 VS 任务,UniVS 采用周期性目标检测策略,并将分割转化为基于提示的目标分割问题。详细过程如图 3 中的浅绿色框所示。


首先,UniVS 使用可学习的查询来识别出第一帧中的所有实体掩码,然后使用非极大值抑制(NMS)和分类阈值来过滤掉冗余的掩码和分类置信度较低的掩码。剩余的目标对象也作为它们的视觉提示,UniVS 利用基于提示的目标分割流来直接预测它们在后续帧中的掩码,消除了以前方法中跨帧实体匹配的需求。

此外,为了识别出后续帧中出现的新对象,UniVS 使用可学习的查询对每隔几帧进行目标检测,并将其与存储在内存池中的先前检测到的对象进行比较。作者使用 BiSoftmax 方法来区分视频中的旧对象和新对象。


现有的 VS 方法大多假设短视频剪辑中的目标运动平滑,以实现跨帧关联实体。然而,对于包含复杂轨迹或大场景变化的视频,这种假设不成立导致跟踪精度下降。相比之下,本文提出的 UniVS 通过使用提示作为查询来实现显式的掩码解码,这种可学习的追踪策略可以在复杂场景中性能更好也更鲁棒。



实验和可视化

在表 1 和表 2 中,本文提出的 UniVS 在六个 VS 任务的 10 个基准测试上进行了定量性能比较,包括 VIS、VSS、VPS、VOS、RefVOS 和 PVOS。表 1 展示了针对特定单个 VS 任务设计的分割模型的结果,表 2 展示了可以同时处理多个任务上的统一模型的结果。


总的来说,在最近的高性能 VS 模型中,单独模型在特定任务上取得了很高的性能,但缺乏泛化能力。相反,联合训练的统一模型可以处理多个任务,但在某些任务上可能存在性能下降。更多实验分析,消融实验,和可视化结果请参见原文及附加材料。 

下图展示了 UniVS 在六个视频分割任务上的分割结果。可以观察到,UniVS 在这些任务中实现了令人满意的分割结果,展示了其出色的泛化能力。UniVS 不仅适用于类别引导的分割,还在几乎所有的视觉提示引导的物体和物体实体分割任务中表现出色。


与此同时,UniVS 展示了在表达引导的跨模态对象分割任务中的能力。其多模态融合能力和一致的分割性能使 UniVS 在整合语言和视频信息方面具有很高的潜力。 



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CVPR 2024 Workshop "非接触健康监测",邀你来投稿!CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型《大寒》BREAKING: Ron DeSantis drops out of 2024 presidential raceCVPR 2024 | 擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNetCVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型2024 AMC8 又漏题了CVPR 2024 | 南洋理工提出动态人体渲染新范式,高度还原跳舞时飞扬的裙摆CVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRF精度最高降幅60%!SOTA只是假象?CVPR 2024为你揭示CLIP和LLaVA-Next等模型“骗局”!每周一新 2024CVPR 2024 | 中科大&微软提出:迈向更统一的上下文视觉理解WWW 2024 | 港理工等联合提出线性时间图神经网络,适用于大规模推荐系统CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型CVPR 2024 | 跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式上海城隍庙,地标景点CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度CVPR 2024 | 中大哈佛等提出全新训练方法CLoT,探究大模型幽默创新力天亮了吗;汽车兼职;买到事故车;新能源车主的车险焦虑Sabalenka vs. Zheng: Australian Open 2024 women's finalCVPR 2024 | 北大提出HoT:高效3D人体姿态估计新框架CVPR 2024 | 腾讯提出LORS:低秩残差结构,瘦身模型不掉点!CVPR 2024满分论文,英伟达开源BOP排行榜6D物体姿态第一名方法CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT视觉特征在语言空间中如何分布?武大、上海交大提出统一多模态自回归建模框架CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务《今天天气好晴朗》&《两两相忘》CVPR 2024 | COCO数据集升级!字节提出新一代数据集COCONut健康投资项目总结还得是抖音,字节推出竖屏视频理解数据集,入选CVPR2024CVPR 2024 | SAM-6D:分割一切遇见零样本6D位姿估计CVPR 2024 | 浙大提出近似平均方向求解器,快速扩散模型数值采样CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题CVPR 2024 | OmniParser:统一图文解析模型:文字检测识别、视觉信息抽取和表格识别刷新多个SOTA!腾讯优图提出统一模态新架构UniM-OV3D:3D开放词汇场景理解字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024CVPR最佳论文颁给自动驾驶大模型!LLM能突破行业技术“天花板”吗?CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务有个人儿拉黑了我CVPR 2024 | 北大&电子科大提出RCBEVDet:毫米波雷达-相机多模态的感知架构
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。