Redian新闻
>
ICCV 2023|南洋理工大学开源大规模语言视频分割数据集MeViS

ICCV 2023|南洋理工大学开源大规模语言视频分割数据集MeViS

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【分割和Transformer】交流群

在CVer微信公众号后台回复:MeViS,可以下载本论文pdf、代码和数据集

随着各种视觉语言大模型的蓬勃发展,构建强大的多模态模型以解决实际问题已成为明显的趋势。多模态大模型,如CLIP和SAM,在以自然语言(文本)作为提示的图像识别和分割任务上展现出了卓越的性能。然而,当面对复杂场景的视频以及包含动作行为等描述信息的自然语句时,比如“找出违规掉头的那些车辆”,模型是否能够准确地从视频中找到并分割出这些目标物体呢?

为了探究这个问题,来自南洋理工大学的研究团队构建了一个专注于复杂场景中动作描述的大规模语言-视频分割数据集MeViS (Motion expressions Video Segmentation)。

在CVer微信公众号后台回复:MeViS,可以下载本论文pdf、代码和数据集

论文 https://arxiv.org/abs/2308.08544 
主页 https://henghuiding.github.io/MeViS/ 

图 1给定一段视频和一个描述动作的句子“玩逗猫棒的那只猫”,MeViS要求找到并分割这只猫

自然语言引导的视频分割,即language-guided video segmentation或者RVOS (referring video object segmentation)是计算机视觉领域的新兴热点问题。其主要目标是通过分析自然语句提供的目标物体在视频中的某些线索,精确地定位、追踪、并分割自然语句所指向的目标物体,获目标物体在整个视频序列中每一帧的高质量mask,如图1所示的MeViS数据集示例。之前的RVOS数据集使用的视频中物体数量较少且大都为显著物体,同时倾向于使用描述物体静态特征(如颜色)的句子,这使得目标物体很容易通过单一图像帧的观察就能辨别出来。这种情况意味着相对于视频的动态属性未被充分利用,导致RVOS任务演变为一种语言图像分割任务。相对于现有的RVOS数据集,MeViS的主要特点是使用自然语句来描述物体的动态特征,并显著增加视频场景复杂性。因此,MeViS能够有效评估语言-视频分割算法在复杂场景下对自然语句和视频中动态信息的推理能力,推动语言-视频分割在更真实场景下的应用研究。

MeViS数据集简介

MeViS包含共2,006个视频,对视频集中的8,171个物体提供了总共28,570个自然描述语句。从下表中可以看出,MeViS自然语句数量、物体数量、Mask规模等方面显著超越其他数据集

同时,MeViS所提供的近3万个自然语句,主要关注描述目标物体的动态特性。如下图2展示的MeViS语句词云所示,MeViS包含大量描述动态属性的单词,如walking和moving等。

图 2 MeViS中包含大量描述动态属性的单词,如walking, moving, playing等

不仅在数据集规模上,MeViS在视频难度上也尤为突出。从表中的单个视频平均物体数量 (Object/Video) 一列来看,MeViS中的视频包含的物体显著高于其他数据集,这极大增加了定位目标物体的难度。同时,不同于以往数据集的每个句子仅指向一个目标物体,MeViS进一步增加了指向多个目标物体的描述语句,使得平均每句话指向的目标物体数量达到了1.59,大幅增加了对语言-视频理解的要求。图3中的例子展示了视频内容复杂度上升带来的质量和难度的提升。

图3 MeViS (a)和Refer-YouTube-VOS (b)在动态描述上的对。MeViS句子所描述的物体“那些转身的长颈鹿”需要观察一段视频才能找到,Refer-YouTube-VOS由于视频难度的原因,即使提供了动态描述,也可以通过类别名称,如“人”,在单帧图像中找到。

此外,在保证目标物体的多样性和复杂性的同时,MeViS也丰富了视频长度的多样性。数据集视频平均时长达到13.16秒,显著高于Refer-YouTube-VOS数据集的4.28秒。

更多MeViS可视化  

下面介绍一些MeViS数据集中的典型视频。

在下面的MeViS视频中,出现了三只外观非常相似的鸟。通过颜色、形状等静态特征很难描述这些目标物体,因此在这种场景下,传统的语言-图像分割模型面临巨大挑战。然而,通过描述“飞走的那只鸟”等动态特征,却能轻松准确地捕捉目标物体的特点。这突显了动态特征描述在视频理解中的实用性、必要性和重要性。

更多可视化片段参见项目主页。

方法

为了迎接MeViS数据集所带来的新挑战,研究人员提出了一种基于object embedding获取时序动态信息的基线方法:Language-guided Motion Perception and Matching (LMPM)。如下图所示,LMPM首先使用语言特征检测单帧图像中尽可能多的潜在目标对象,然后利用object embeddings来表示这些目标对象,并通过object embeddings之间的信息交互来获取时序信息。接着,通过语言特征来关联各帧的object embeddings,形成object trajectories。最后通过对比语言特征和各个object trajectories之间的相似度,选择相似度高于阈值的物体作为最终输出,并为其生成mask。该方法的代码已经开源,可在https://github.com/henghuiding/MeViS 获取。

实验  

MeViS数据集分为Train,Valu,Val,和Test四个部分,其中Train和Valu的数据标注已公开,分别作为模型训练和线下用户自测。Val结果需要将生成的mask PNG图片按要求整理并提交到CodaLab,由数据集组织方进行在线评估。Test部分将作为未来比赛用途。

如下为MeViS数据集Val部分目前的benchmark结果。最优结果仅为37.2%,这表明仍存在巨大的发展和研究空间。

更多实验结果请见论文。

总结  

研究者创建了一个名为MeViS的大规模语言-视频分割数据集,其重点是推动语言-视频分割在更真实且复杂的场景中的应用研究,特别侧重于动作特征的推理。基于提出的 MeViS 数据集,研究者对现有语言-视频分割方法进行了基准测试并进行了全面比较。发现在视频场景更加复杂以及语言偏向动作描述时,会给现有算法带来了巨大挑战。期待MeViS能够启发更多研究人员进行复杂场景下的语言-视频理解研究。

在CVer微信公众号后台回复:MeViS,可以下载本论文pdf、代码和数据集

点击进入—>【分割和Transformer】交流群

ICCV / CVPR 2023论文和代码下载

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

分割和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-分割或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如分割或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ICCV 2023 | 发挥offline方法的潜力:解耦合的视频实例分割框架DVIS【热夏生活随笔】 Texas Sunshine 2023ICCV'23论文颁奖“神仙打架”!Meta分割一切和ControlNet共同入选,还有一篇让评委们很惊讶哥大、南洋理工等多所大学官宣24Fall不再接受家考成绩![旅游] 旅行第15季085城 - 冰岛Keflavík小镇 蓝湖温泉 地热发电站​ICCV 2023 | 超越SAM!EntitySeg:更少的数据,更高的分割质量大模型勇闯洛圣都,加封「GTA五星好市民」!南洋理工、清华等发布视觉可编程智能体Octopus:打游戏、做家务全能干2023 CCF 中国开源大会丨开源商业化分论坛 即将开幕!ICCV 2023 | 只需过一次CLIP!美团&港大提出高效的开放字典语义分割框架DeOP聚焦 | 新加坡南洋理工大学刘宏教授解读“中国与全球南方——跨界治理的视野和知识转移的实践”《歌德堡变奏曲1352》一日登三峰 2023.07.29​稀疏量化表示(SpQR):3到4比特近乎无损压缩大规模语言模型博士申请 | 南洋理工大学张书豪老师招收系统和数据处理方向全奖博士/RA/访问学生刷榜13个暗光增强基准!清华大学联合ETH等开源Retinexformer:亮、暗都有细节 | ICCV 2023南洋理工大学刘杨教授:没有安全,AI 难落地;没有 AI,安全难保障丨GAIR 2023ControlNet、「分割一切」等热门论文获奖,ICCV 2023论文奖项公布LLaMA都在用的开源数据集惨遭下架:包含近20万本书,对标OpenAI数据集招聘 | 南洋理工大学校长讲席教授 K. Jimmy Hsia课题组细胞力学方向博士后招聘【喜报】J同学喜获南洋理工访学offer | 科藤留学ICCV 2023 | 发挥offline方法的潜力,武大&快手提出解耦合的视频实例分割框架DVIS古典诗歌 and Taming the Tongue战国故事《定风波》卷二(18):暗昧大模型「上车」关键一步:全球首个语言+自动驾驶全栈开源数据集来了用魔法打败魔法,南洋理工大学学者首次实现全自动化攻陷各大厂商大模型聊天机器人Texas Sunshine 2023【2023 坛庆】暖场 浪人情歌大模型集体失控!南洋理工新型攻击,主流AI无一幸免KDD2023 | GPT时代医学AI新赛道:16万张图片、70万问答对的临床问答数据集MIMIC-Diff-VQA发布ICCV 2023|目标检测新突破!AlignDet:支持各类检测器完全自监督预训练的框架[旅游] 旅行第15季088城 冰岛首都 Reykjavík 的冬天隐形的艾迪 (1.2)中国石化与新加坡南洋理工大学梦幻联动,助力能源至净何止只有《罗刹海市》还有《颠倒歌》!100万悬赏AI界喜剧之王!北邮、南洋理工等发布「沙雕视频」数据集FunQA:用算法学习人类幽默ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成ICCV 2023 | 刷新多项记录!武大&快手提出DVIS:解耦视频实例分割框架这国航机上杂志看着无语😓!2023.7这应该还是最新一期新加坡南洋理工和国立大学「2024年本科申请时间与要求」汇总!ICCV 2023 | CLIP驱动的器官分割和肿瘤检测通用模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。