Redian新闻
>
南洋理工等开源MOSE:复杂场景下的大型视频目标分割数据集

南洋理工等开源MOSE:复杂场景下的大型视频目标分割数据集

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>图像分割微信技术交流群

视频目标分割 (VOS)的现有SOTA方法在已有数据集上已经取得90+% J&F的优异性能,似乎这一问题已经被解决得很好了。那么现有方法在更复杂的场景中的处理能力如何呢?

         

为了探究这个问题,来自南洋理工大学、浙江大学、牛津大学、和字节跳动的研究者们构建了一个专门针对复杂场景的大规模视频目标分割数据集coMplex video Object SEgmentation (MOSE)。

         

论文地址:https://arxiv.org/abs/2302.01872

项目主页:https://henghuiding.github.io/MOSE


视频目标分割 (Video Object Segmentation, VOS)是计算机视觉中的一个热点问题。在一段视频中,给定目标物体在视频第一帧中某些线索(如mask, bounding box, 或者scribble等形式),VOS旨在准确地分割和追踪该目标物体,获取该物体在整个视频序列中每一帧的高质量mask。与现有的VOS数据集相比,MOSE最主要的特点是在大量复杂场景中包含了拥挤的目标群、各式各样的遮挡、消失并重现的物体、以及不明显的小物体等富有挑战的情景。因此,MOSE可以很好地衡量VOS算法在复杂场景下的视频目标分割性能,并推动VOS在更真实场景下的应用研究。


在MOSE数据集上,研究者们在4种不同设置下对18种视频目标分割方法进行了广泛实验,包括6种使用mask的半监督(semi-supervised) 方法、2种使用bounding box的半监督方法、3种多目标无监督(unsupervised) 方法、和7种交互式视频分割方法。实验表明,现有方法尚不能在复杂场景下取得令人满意的结果。如在最热点的semi-supervised VOS任务中,现有方法的VOS性能从DAVIS和YouTube-VOS上的80%~90%J&F下降到仅40%~50%J&F。这些实验表明,尽管当前方法在现有数据集上取得了优异的性能,但在复杂场景下的视频目标分割仍存在很多未解决的挑战,未来需要更多工作来研究和探索这些挑战。


MOSE 数据集简介  


MOSE包含共2149个,总时长达443分钟的视频,包含有36个类别的5200个物体。标注的mask数总计达431,725个。从下表中可以看出,MOSE在标注规模和总时长上明显相较于其他数据集更大。



不仅在规模上,MOSE在难度上也尤为突出。从表中的消失率(Disapp. Rate)一列来看,MOSE中有28.8%的物体在至少一帧中完全消失,非常考验模型对物体的再跟踪能力。同时,从反映物体遮挡强度的mBOR指标来看,MOSE视频的遮挡现象相较于其他VOS数据集也更加显著。


此外,在保证目标物体的多样性和复杂性的同时,MOSE也丰富了视频长度的多样性。数据集中包含了短至5秒的短视频和长至1分钟的长视频。在保证标注帧率最低为5fps的基础上,数据集中还包含了很多高达30fps的完全标注视频,这考验模型在追踪速度方面的稳定性,也进一步提高了MOSE数据集的难度。


可视化  


MOSE数据集中包括大量的拥挤、消失、遮挡和非显著/小物体等复杂场景。下面介绍一些数据集中的典型视频。


如下视频展示了一个非常拥挤复杂但贴近现实的球赛场景。红色球员首先以背对镜头的状态被其他球员所遮挡,之后在转身后以面向镜头的状态重新出现,与蓝色球员相互遮挡,这种被遮挡前和重新出现后的巨大差别极大地增加了视频的难度。



下面的视频片段中同时包含了面积较大的物体(汽车)和面积较小的物体(行人)。对于行人来说,汽车在行驶过程中几乎将两个行人完全遮挡。而大型物体(汽车)首先被环境(树木)所遮挡,而后遮挡位于画面后方的较小物体(行人)。



如下视频展示了七只山羊大步往前跑,相互之间外观高度相似且彼此遮挡,极大增加了视频目标分割的难度。且mask标注质量很高,对动物的尾巴和羊角等细节都进行了精细的标注。


         

更多可视化片段参见项目主页。


实验  


以给定第一帧mask的半监督(semi-supervised) 任务为例,研究者在MOSE上尝试了6种现有的开源的VOS算法,结果如下表所示。可以看到MOSE非常具有挑战性。在之前的数据集DAVIS和Youtube-VOS上,各方法均取得了80%J&F以上的好成绩,近乎饱和。然而,在新的MOSE数据集上,各方法的性能却并不尽人意。如目前最优的方法DeAOT在DAVIS 2017上的成绩为85.2%J&F,但在MOSE上却只有59.4%J&F。实验结果表明,尽管很多方法已经在之前的基准测试中取得了出色的 VOS 性能,但在复杂场景下仍存在未解决的挑战,未来需要更多努力来探索这些挑战。

         

         

研究者基于VOS其他子任务:无监督视频目标分割(Unsupervised Video Object Segmentation)以及交互式视频目标分割(Interactive Video Object Segmentation)也进行了实验,更多实验结果请见论文。


总结  


研究者构建了一个名为 MOSE 的大规模复杂场景视频目标分割数据集,以推动VOS在更真实复杂场景下的应用研究。基于提出的 MOSE 数据集,作者对现有 VOS 方法进行了基准测试并进行了全面比较。发现在拥挤、消失、遮挡、以及非显著/小物体等复杂场景频繁出现时,会给现有算法带来了巨大挑战,期待MOSE能够启发更多研究人员进行复杂场景下的视频目标理解的研究。

         

更多细节请见论文。


点击进入—>图像分割微信技术交流群


MOSE 数据集下载


后台回复:MOSE,即可下载上面数据集


图像分割 交流群成立


扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-图像分割 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如图像分割+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer222,进交流群


CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!


扫码进群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
打卡新加坡南洋理工大学,学校免费巴士少走弯路2022我飞越三洲(1) 我在大陆过春节喜报!南洋理工、港中文、UCL、哥大、NUS、曼大…|背景提升学员AI分割一切!智源提出通用分割模型SegGPT,「一通百通」的那种活动预告 | “‘数据二十条’背景下的数据要素化”研讨会暨《数据要素化100问:可控可计量与流通交易》新书发布会即将召开喜报!南加州、EDHEC、新国立、南洋理工、UCL、港大…|背景提升学员CVPR 2023 Workshop | 马普所、麻省理工等举办生成模型研讨会喜报!纽约大学、伦敦政经、曼大、南洋理工、港中文、港科技……挖掘金融场景下的数据要素价值,有哪些问题必须解决?|InfoQ 闭门会精选伯克利开源首个泊车场景下的高清数据集和预测模型,支持目标识别、轨迹预测松花江上毕加索大师为复杂场景而生,NTU、字节等开源大型视频目标分割数据集MOSEMLNLP学术Talk第二十期 | 周杰@复旦大学:真实场景下的情感分析研究新加坡南洋理工大学物理系韩恩道课题诚招全奖博士、博士后分割一切又一力作!北京智源提出通用分割模型SegGPTCV发论文的机会来了!南洋理工项目招生(仅限深度学习,AI,机器学习,迁移学习方向)效率加倍,高并发场景下的接口请求合并方案陌上花开982 穿越人海遇见你丨新加坡南洋理工硕士,甜美可爱,爱好广泛感悟人生——我不知道/我知道(四)新加坡南洋理工大学与德国马普所合作招收博士生、博士后(低维量子材料与器件方向)真的这么丝滑吗?Hinton组提出基于大型全景掩码的实例分割框架,图像视频场景丝滑切换新加坡南洋理工大学物理系苏锐课题组招博士后(半导体光学方向)博后招募 | 新加坡南洋理工大学S-Lab招募遥感语义分割方向博后/高级工程师CV 又卷起来了!Meta AI 开源万物可分割 AI 模型,11 亿 + 掩码数据集可提取喜报!剑桥、东北大学、曼彻斯特、澳国立、港大、新国立、南洋理工…|背景提升学员CVPR 2023|哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏Hinton组新作:基于大型全景掩码的实例分割框架,图像视频场景丝滑切换水城威尼斯及乐团音乐 ※ 节日聚餐南洋理工发布量化交易大师TradeMaster,涵盖15种强化学习算法绿联iPhone系列贴膜 4.6元;星系源MFi柔软CtL数据线 29元喜报!新国立、南洋理工、纽约大学、港中文、墨尔本、新南威尔、华威…|背景提升学员超大模型工程应用难?快手给出短视频场景下的实战指南CVPR 2023 | 港中大&IDEA开源首个大规模全场景人体数据集Human-ArtCVPR 2023 | 一块隔热片即可实现红外场景下的物理攻击,北航提出针对红外行人检测器的漏洞挖掘技术
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。