CVPR 2024 | 港理工联合OPPO提出统一且通用的视频分割大模型

2024-03-19 05:03

尽管统一图像分割取得了很不错的进展，但开发统一视频分割模型仍然是一个挑战。这主要是因为不同视频分割任务的侧重点不同，这使得使用相同架构处理不同任务变得异常困难，尤其在保持物体时序一致性方面。具体来说，类别为导向的视频分割任务更侧重检测并跟踪视频中特定类别的对象，而以提示为导向的 VS 任务侧重于在根据视觉/文本提示在视频中重新识别目标。

近日，由香港理工大学和 OPPO 研究院提出了一种新颖且简洁的统一视频分割架构，名为 UniVS，旨在通过使用视觉和文本提示作为查询来明确地解码物体的掩码。对于每一个目标物体，UniVS 取先前帧中的提示特征的平均值作为其初始查询，从而明确地解码出目标物体的掩码。

同时，本文在掩码解码器中引入了一个目标感知的提示交叉注意力层，以传递内存池中的提示特征到当前帧中。在推理阶段，通过将先前帧中预测的物体掩码作为它们的视觉提示，UniVS 将不同的视频分割任务转化为以提示为导向的目标分割，消除了启发式的帧间匹配过程。

本文提出的框架不仅统一了不同的视频任务，还自然地实现了统一的训练和测试，确保在不同场景下具有稳健的性能。在视频实例、语义、全景、对象和文本指代分割任务的 10 个具有挑战性的 VS 基准测试上，UniVS 取得了非常不错的视频分割性能，并且在多个场景下展示了其强大的通用能力。

论文地址：

https://arxiv.org/abs/2402.18115

代码地址：

https://github.com/MinghanLi/UniVS/

项目主页：

https://sites.google.com/view/unified-video-seg-univs

引言

视频分割（VS）将视频序列划分为不同的区域或片段，为视频理解、区域引导的视频生成、交互式视频编辑和增强现实等许多应用提供了便利。视频分割的任务可以分为两组：类别指定的视频分割和提示指定的视频分割。前者侧重于从预定义的类别集合中分割和跟踪实体。

典型的任务包括视频实例分割（VIS）、语义分割（VSS）和全景分割（VPS），其中需要指定对象类别信息。另一组任务侧重于在整个视频中识别和分割特定目标，需要提供目标的视觉提示或文本描述。提示导向的 VS 任务包括视频对象分割（VOS）、全景视频对象分割（PVOS）和引用式视频对象分割（RefVOS）。每种 VS 任务都有自己的数据集注释和模型评估协议。

▲ 图1. 比较现有的视频分割方法和 UniVS。在现有的类别指定分割任务方法中（a1），需要首先在每帧中检测实体，然后在帧间进行匹配；而在提示指定分割任务方法中（a2），需要从预测的掩码中识别目标物体。相比之下，本文提出的 UniVS（b）使用预测的掩码作为伪视觉提示以在后续帧中解码掩码，避免了启发式后处理。

现有的统一 VS 模型大多受到统一图片分割模型的启发。它们逐帧分割视频序列，然后使用相似性匹配步骤来关联多帧间的共同的对象或找到类别/提示指定的目标物体。

然而，现有模型在处理 VS 任务时仍然存在一些限制，例如无法在不同 VS 任务中保持物体的时序一致性，或者无法在同一个框架中兼容可数（如人，车）和不可数的物体（如天空，草地），或者无法很好地编码语言信息来解决以语言为导向的目标物体分割。

究其根本，这主要是因为类别指定和提示指定的 VS 任务有不同的侧重点导致的。详细来说，类别指定的分割主要关注每帧的精确检测和共同对象的帧间关联，而提示指定的分割则侧重于在视频序列中使用文本/视觉提示准确跟踪目标，其中目标可以是不常见的对象或对象的一部分。这两种类型的 VS 任务的不同重点使得在单个框架内集成它们并取得令人满意的结果变得具有挑战性。

为了缓解上述问题，本文提出了一种新颖的统一 VS 架构，即 UniVS，它使用提示作为查询。对于每个感兴趣的目标，UniVS 将先前帧的提示特征平均作为其初始查询。在掩码解码器中引入了一种目标导向提示交叉注意力（ProCA）层，以整合存储在内存池中的全面提示特征。初始查询和 ProCA 层在显式和准确解码掩码中起着关键作用。

另一方面，通过将先前帧的实体预测掩码作为它们的视觉提示，UniVS 可以将不同的 VS 任务转化为以提示为导向的目标分割任务，消除了启发式的帧间匹配。UniVS 的整个过程如图所示。

UniVS 不仅统一了不同的 VS 任务，还自然地实现了通用的训练和测试，在不同场景下表现出稳健的性能。它在 10 个具有挑战性的 VS 基准测试中展现了出色的性能和通用性，涵盖了 VIS、VSS、VPS、VOS、RefVOS 和 PVOS 任务。据我们所知，UniVS 是第一个成功将所有现有的 VS 任务统一在一个模型中的工作。

方法介绍

▲ 图2. 本文提出的 UniVS 框架的训练示意图。UniVS 包含三个主要模块：图像编码器（灰色矩形）、提示编码器（紫色矩形）和统一视频掩码解码器（黄色矩形）。

UniVS 包含三个主要模块：图像编码器、提示编码器和统一视频掩码解码器，如图所示。图像编码器将输入的 RGB 图像转换为图片令牌，而提示编码器将原始的视觉/文本提示转换为提示嵌入。统一视频掩码解码器明确地解码视频中任何实体的掩码或以提示为导向的目标的掩码。

2.1 图像编码器和提示编码器

图像编码器包含一个主干网络和一个像素解码器。主干网络将 RGB 图像映射为多尺度特征，像素解码器进一步融合不同尺度的特征以增强表示能力。多尺度特征图的分辨率分别是输入图像的 1/32、1/16、1/8 和 1/4。

提示编码器将输入的视觉/文本提示转换为提示嵌入。视觉提示可以是点击点、框、掩码和涂鸦等。

为了将视觉提示转换为图像嵌入，采用了 SEEM 中提出的 Visual Sampler 策略。它从每个目标的指定像素中随机采点，并从图像编码器输出的图像特征图中提取对应点的特征作为其视觉提示嵌入。语言提示可以是类别名称（如“人”）或文本表达式（如“一个人正在滑板”）。将类别名称或表达式输入分词器以获取其字符串令牌，并将其输入到 CLIP 文本编码器中获取文本嵌入。

然后使用单个交叉注意力层实现语言-图像嵌入的交互，其中查询是文本嵌入，键和值是扁平化的多尺度图像嵌入。最后，使用一个映射矩阵将文本嵌入从文本维度映射到视觉维度的特征空间。注意，为了利用 CLIP 强大的开放词汇能力，本文冻结了 CLIP 文本编码器的权重。

2.2 统一视频掩码解码器

统一视频掩码解码器旨在解码提示指定目标的掩码，可以描述为：

其中和是第个目标的提示特征和相关的物体 ID，是其在第帧中的预测掩码。和分别是视频中的目标物体总数和视频包含的总帧数。本文改编了 Mask2Former 的掩码解码器，它最初设计用于具有一组可学习查询来处理类别为导向的物体分割，比如实例分割，语义分割和全景分割。

在本文中，作者通过引入一个侧流使其可以处理提示为导向的物体分割，该侧流以提示特征的均值作为输入查询。如图 2 中右侧的黄色区域所示，本文提出的统一视频掩码解码器包括四个关键组件：目标级提示交叉注意力层、图像交叉注意力层、分离的自注意力层和前馈网络。

初始提示查询（PQ）：第个目标的视觉/文本提示嵌入包含个提示令牌，这些令牌可以是来自视觉提示的点特征，或者是类别名称和表达式的字符串令牌。

本文计算与目标相关的所有提示令牌的平均值作为目标的初始查询：。如果输入包含帧的视频片段，则初始查询将重复次，生成一个片段级的初始查询。使用提示特征的均值作为初始查询可以提供一个信息丰富且稳定的起点，用于统一视频掩码解码器。

提示交叉注意力（ProCA）：初始查询可能不足以为目标提供独特的表示，特别是对于具有相似特征的目标，如图 2 中的“人”和“黑色T恤”。为了增强表示的独特性，本文引入了一个实体级的提示交叉注意力层，学习提示信息以更好地区分目标：

其中查询是，键和值是提示令牌。和表示投影权重。ProCA 层位于图像交叉注意力层之前，以避免随着解码器层的加深而遗忘提示信息。

图像交叉注意力和分离的自注意力：ProCA 层有助于融合提示信息，而图像交叉注意力层专注于从输入帧中提取实体细节。本文只计算每帧查询与相应图像特征之间的图像交叉注意力，以减少内存开销。

此外，分离的自注意力（Sep-SA）层具有两个目的。一方面，它隔离了可学习查询和提示查询之间的交互作用，最小化了不必要的负面影响。另一方面，通过在时间维度上对可学习/提示查询进行扁平化，它促进了对所关注目标在时空域中的内容交互。Sep-SA 层可以表示为：

* 其中和分别表示扁平化后的可学习查询和提示查询，和是它们的数量。

整体网络架构：除了 ProCA、图像交叉注意力和 SepSA 层之外，FFN 进一步允许掩码解码器从数据中学习非线性关系。这四个关键组件构成了一个 Transformer 层，UniVS 的统一视频掩码解码器由九个这样的 Transformer 层组成。此外，UniVS 被设计为两个掩码解码流，它们共享相同的权重，分别用于解码可学习查询和提示查询。

统一的训练和推理

训练阶段：UniVS 的训练过程包括三个阶段：图像级训练、视频级训练和长视频微调。

在第一阶段，UniVS 在多个图像分割数据集上进行训练，使用图像级注释对模型进行预训练，以获得良好的视觉表示。

在第二阶段，作者将一个包含三帧的短视频剪辑输入预训练模型，并在视频分割数据集上进行微调，以感知短时间内的物体运动轨迹的变化。

在第三阶段，作者使用包含超过五帧的长视频序列进一步微调统一视频掩码解码器，鼓励其在更长的时间范围内学习更具区分性的特征和轨迹信息。

为了优化内存使用，作者在最后两个阶段冻结了主干网络的权重，并在最后一个阶段进一步冻结像素解码器。在每次迭代中，批次中的所有样本来自同一个数据集。与从不同数据集中混合采样相比，本文发现这种采样策略可以使训练更加稳定。具体的训练数据集和训练策略请查看文章正文及补充材料。

统一流式推理过程：在 UniVS 中，模型的输入可以是单帧或多帧的视频剪辑。本文以单帧作为输入为例，阐述了用于通用类别指定和提示指定的统一推理过程。对于提示指定的 VS 任务，UniVS 以视频帧和视觉/文本提示作为输入，推理过程如图 3 中的黄色框所示。UniVS 可以同时处理多个目标。

首先，图像编码器将第一帧转换为多尺度图像嵌入。随后，提示编码器将目标的视觉/文本提示转换为提示标记。在本文的设计中，每个目标都有其专用的内存池，用于存储相关的提示标记，并通过求平均来获得其提示查询。这些查询被掩码解码器用于预测当前帧中目标的掩码，然后将其作为目标的视觉提示反馈给提示编码器，从而使用新的提示信息更新目标的内存池。

简而言之，UniVS 利用存储在内存池中的目标对象的提示信息来识别和分割后续帧中的目标，消除了其他统一模型（如 SEEM 和 UNINEXT）中繁琐的后处理匹配步骤，其需要从所有预测的实体中过滤出目标物体。针对类别指定的 VS 任务，UniVS 采用周期性目标检测策略，并将分割转化为基于提示的目标分割问题。详细过程如图 3 中的浅绿色框所示。

首先，UniVS 使用可学习的查询来识别出第一帧中的所有实体掩码，然后使用非极大值抑制（NMS）和分类阈值来过滤掉冗余的掩码和分类置信度较低的掩码。剩余的目标对象也作为它们的视觉提示，UniVS 利用基于提示的目标分割流来直接预测它们在后续帧中的掩码，消除了以前方法中跨帧实体匹配的需求。

此外，为了识别出后续帧中出现的新对象，UniVS 使用可学习的查询对每隔几帧进行目标检测，并将其与存储在内存池中的先前检测到的对象进行比较。作者使用 BiSoftmax 方法来区分视频中的旧对象和新对象。

现有的 VS 方法大多假设短视频剪辑中的目标运动平滑，以实现跨帧关联实体。然而，对于包含复杂轨迹或大场景变化的视频，这种假设不成立导致跟踪精度下降。相比之下，本文提出的 UniVS 通过使用提示作为查询来实现显式的掩码解码，这种可学习的追踪策略可以在复杂场景中性能更好也更鲁棒。