ICCV 2023｜南洋理工大学开源大规模语言视频分割数据集MeViS

2023-09-27 16:09

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【分割和Transformer】交流群

在CVer微信公众号后台回复：MeViS，可以下载本论文pdf、代码和数据集

随着各种视觉语言大模型的蓬勃发展，构建强大的多模态模型以解决实际问题已成为明显的趋势。多模态大模型，如CLIP和SAM，在以自然语言（文本）作为提示的图像识别和分割任务上展现出了卓越的性能。然而，当面对复杂场景的视频以及包含动作行为等描述信息的自然语句时，比如“找出违规掉头的那些车辆”，模型是否能够准确地从视频中找到并分割出这些目标物体呢？

为了探究这个问题，来自南洋理工大学的研究团队构建了一个专注于复杂场景中动作描述的大规模语言-视频分割数据集MeViS (Motion expressions Video Segmentation)。

在CVer微信公众号后台回复：MeViS，可以下载本论文pdf、代码和数据集

论文 https://arxiv.org/abs/2308.08544

主页 https://henghuiding.github.io/MeViS/

图 1给定一段视频和一个描述动作的句子“玩逗猫棒的那只猫”，MeViS要求找到并分割这只猫

自然语言引导的视频分割，即language-guided video segmentation或者RVOS (referring video object segmentation）是计算机视觉领域的新兴热点问题。其主要目标是通过分析自然语句提供的目标物体在视频中的某些线索，精确地定位、追踪、并分割自然语句所指向的目标物体，获目标物体在整个视频序列中每一帧的高质量mask，如图1所示的MeViS数据集示例。之前的RVOS数据集使用的视频中物体数量较少且大都为显著物体，同时倾向于使用描述物体静态特征（如颜色）的句子，这使得目标物体很容易通过单一图像帧的观察就能辨别出来。这种情况意味着相对于视频的动态属性未被充分利用，导致RVOS任务演变为一种语言图像分割任务。相对于现有的RVOS数据集，MeViS的主要特点是使用自然语句来描述物体的动态特征，并显著增加视频场景复杂性。因此，MeViS能够有效评估语言-视频分割算法在复杂场景下对自然语句和视频中动态信息的推理能力，推动语言-视频分割在更真实场景下的应用研究。

MeViS数据集简介

MeViS包含共2,006个视频，对视频集中的8,171个物体提供了总共28,570个自然描述语句。从下表中可以看出，MeViS在自然语句数量、物体数量、Mask规模等方面显著超越其他数据集。

同时，MeViS所提供的近3万个自然语句，主要关注描述目标物体的动态特性。如下图2展示的MeViS语句词云所示，MeViS包含大量描述动态属性的单词，如walking和moving等。

图 2 MeViS中包含大量描述动态属性的单词，如walking, moving, playing等

不仅在数据集规模上，MeViS在视频难度上也尤为突出。从表中的单个视频平均物体数量 (Object/Video) 一列来看，MeViS中的视频包含的物体显著高于其他数据集，这极大增加了定位目标物体的难度。同时，不同于以往数据集的每个句子仅指向一个目标物体，MeViS进一步增加了指向多个目标物体的描述语句，使得平均每句话指向的目标物体数量达到了1.59，大幅增加了对语言-视频理解的要求。图3中的例子展示了视频内容复杂度上升带来的质量和难度的提升。

图3 MeViS (a)和Refer-YouTube-VOS (b)在动态描述上的对。MeViS句子所描述的物体“那些转身的长颈鹿”需要观察一段视频才能找到，Refer-YouTube-VOS由于视频难度的原因，即使提供了动态描述，也可以通过类别名称，如“人”，在单帧图像中找到。

此外，在保证目标物体的多样性和复杂性的同时，MeViS也丰富了视频长度的多样性。数据集视频平均时长达到13.16秒，显著高于Refer-YouTube-VOS数据集的4.28秒。

方法

为了迎接MeViS数据集所带来的新挑战，研究人员提出了一种基于object embedding获取时序动态信息的基线方法：Language-guided Motion Perception and Matching (LMPM)。如下图所示，LMPM首先使用语言特征检测单帧图像中尽可能多的潜在目标对象，然后利用object embeddings来表示这些目标对象，并通过object embeddings之间的信息交互来获取时序信息。接着，通过语言特征来关联各帧的object embeddings，形成object trajectories。最后通过对比语言特征和各个object trajectories之间的相似度，选择相似度高于阈值的物体作为最终输出，并为其生成mask。该方法的代码已经开源，可在https://github.com/henghuiding/MeViS 获取。

实验

MeViS数据集分为Train，Valu，Val，和Test四个部分，其中Train和Valu的数据标注已公开，分别作为模型训练和线下用户自测。Val结果需要将生成的mask PNG图片按要求整理并提交到CodaLab，由数据集组织方进行在线评估。Test部分将作为未来比赛用途。

如下为MeViS数据集Val部分目前的benchmark结果。最优结果仅为37.2%，这表明仍存在巨大的发展和研究空间。

更多实验结果请见论文。

总结

研究者创建了一个名为MeViS的大规模语言-视频分割数据集，其重点是推动语言-视频分割在更真实且复杂的场景中的应用研究，特别侧重于动作特征的推理。基于提出的 MeViS 数据集，研究者对现有语言-视频分割方法进行了基准测试并进行了全面比较。发现在视频场景更加复杂以及语言偏向动作描述时，会给现有算法带来了巨大挑战。期待MeViS能够启发更多研究人员进行复杂场景下的语言-视频理解研究。

在CVer微信公众号后台回复：MeViS，可以下载本论文pdf、代码和数据集

点击进入—>【分割和Transformer】交流群

ICCV / CVPR 2023论文和代码下载

后台回复：CVPR2023，即可下载CVPR 2023论文和代码开源的论文合集

后台回复：ICCV2023，即可下载ICCV 2023论文和代码开源的论文合集

分割和Transformer交流群成立

扫描下方二维码，或者添加微信：CVer333，即可添加CVer小助手微信，便可申请加入CVer-分割或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。

一定要备注：研究方向+地点+学校/公司+昵称（如分割或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群