Redian新闻
>
用SAM做零样本视频对象分割!港科大等开源首个「稀疏点传播」方法SAM-PT,性能直追有监督SOTA

用SAM做零样本视频对象分割!港科大等开源首个「稀疏点传播」方法SAM-PT,性能直追有监督SOTA

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】把图像分割模型SAM扩展到视频,用SAM-PT做视频对象分割也能实现零样本、高性能!


视频分割是自动驾驶、机器人技术、视频编辑等应用场景的基础技术,但目前的方法在零样本学习设置下,或是预测未见过的样本时,会出现性能不一致等问题。


今年4月,Meta AI开源了一个非常强大的图像分割基础模型Segment Anything Model(SAM),经过1100万张图像训练后,SAM具有非常强的泛化性能,并可以应用于各种下游应用。


不过,虽然SAM屠榜了整个图像分割领域,但它并不适用于视频分割任务。



最近,来自苏黎世联邦理工学院、香港科技大学、瑞士洛桑联邦理工学院的研究人员发布了SAM-PT模型,利用稳健和稀疏的点选择(point selection)和传播(propagation)技术来生成遮罩,将SAM的零样本能力扩展到动态视频的跟踪和分割任务上,在多个视频物体分割数据集基准DAVIS, YouTube-VOS和MOSE中取得了稳定且强大的零样本性能。


论文链接:https://arxiv.org/pdf/2307.01197.pdf

代码链接:https://github.com/SysCV/sampt


与传统的、以物体为中心的掩码传播策略相比,SAM-PT创新型地使用点传播来利用与物体语义无关的局部结构信息;并通过对零样本开放世界不明视频物体(Unidentified Video Objects, UVO)基准的直接评估,突出了基于点跟踪的优势,也有助于保持SAM的灵活性。


为了进一步提升模型性能,研究人员利用K-Medoids聚类来进行点的始化,并同时追踪positive和negative的点以明确区分目标物体;还采用了多个掩码解码来完善掩码,并设计了一个点重新初始化策略来提高跟踪的准确性。


SAM-PT


背景知识SAM


视觉基础模型SAM可用于提示分割任务( promptable segmentation),即在给定「提示」的情况下,进行零样本和少样本的图像分割任务。


SAM的训练数据为SA-1B,包含1100万张图像和超过10亿个遮罩,比现有的分割数据集大400倍,大规模数据也使得SAM对新数据有着非常强大的零样本泛化性能。



SAM的实验结果展现了其从单一前景点产生高质量遮罩的能力,并在使用提示工程的零样本设置下,对各种下游任务都展现出强大的泛化能力,包括但不限于边缘检测、object proposal generation和实例分割任务。


SAM由三个主要部分组成:一个图像编码器、一个灵活的提示编码器和一个快速掩码解码器。


图像编码器是Vision Transformer(ViT)的主干部分,处理高分辨率的1024×1024图像,生成64×64空间大小的图像嵌入。


提示编码器将稀疏的提示作为输入,包括点、框和文本,或密集的提示,如遮罩等,并将这些提示翻译成具有c个维度的token


轻量级掩码解码器整合图像和提示嵌入,实时预测分割掩码,使SAM能够以最小的计算开销适应各种提示。


SAM-PT


虽然SAM在图像分割方面展现出强大的性能,但它在处理视频分割任务上却有内在的局限性。


这篇论文中提出的Segment Anything Meets Point Tracking(SAM-PT)方法有效地将SAM扩展到了视频,提供了强大的视频分割性能,并且不需要对任何视频分割数据进行训练。



SAM-PT主要由四个步骤组成:为第一帧选择查询点;使用点跟踪器将选择的查询点传播到所有视频帧;使用SAM根据传播的点生成每帧的分割掩码;通过从预测的遮罩中采样查询点来重新初始化。


1. 查询点的选择


查询点(query point)可以表示目标物体(positive points)或指定背景和非目标物体(negative points),用户可以手动和交互式地提供查询点,也可以从真实标注遮罩中获得。

例如,在半监督视频物体分割任务中,标注遮罩是为物体出现的第一帧准备的。



研究人员使用了不同的点取样技术,通过考虑几何位置或特征的不相似性,从真实标注遮罩中获得查询点。


抽样技术包括:


随机采样是一种直观的方法,从地面真实遮罩中随机选择查询点。


K-Medoids采样,将K-Medoids聚类的聚类中心作为查询点,以确保对物体不同部分的良好覆盖以及对噪声和异常值的稳健性。


Shi-Tomasi 采样,从遮罩下的图像中提取ShiTomasi corner point,并且已经被证明是很好的追踪特征。


混合取样,结合了上述技术的混合方法,可以结合不同技术的独特优势。


虽然每种方法在影响模型性能方面都有不同的特点,但消融研究显示,K-Medoids采样的结果是最好的,可以完整地覆盖各种物体;其次是Shi-Tomasi采样方法。


2. 点追踪(Point Tracking)


用查询点初始化后,使用稳健的点追踪器在视频的所有帧中进行点传播,从而可以得到点轨迹和occulusion分数。


研究人员采用最先进的点跟踪器PIPS对点进行传播,因为PIPS对长序列追踪等有挑战性的场景下(如object occulusion和re-sppearance)上更加稳健,实验结果也显示出比链式光流传播(chained optical flow propagation)或第一帧对应(first-frame correspondence)等方法更有效。


3. 分割


在预测的轨迹中,non-occulded点作为目标物体在整个视频中的指示器,可以用来提示SAM,并利用其固有的泛化能力来输出每帧分割掩码预测。


与需要对视频分割数据进行训练或微调的传统跟踪方法不同,该方法在零样本视频分割任务中表现出色。



研究人员通过两次调用SAM来结合正样本点和负样本点:首先用正样本点提示SAM来定义物体的初始位置;然后同时用正负点以及之前的掩码预测来提示SAM,其中负样本点在物体和背景之间提供了更细微的区别,并有助于消除错误的分割区域。


最后通过重复第二次的SAM提示来执行数量不等的遮罩优化迭代,利用SAM将模糊的遮罩细化为更精确的遮罩,从消融实验中也可以看到这步可以明显提高视频物体分割的性能。


4. 点追踪重初始化


一旦prediction horizon中h=8帧,研究人员可以选择使用预测的遮罩对查询点进行重新初始化,并将该变体表示为SAM-PT-reinit;在达到8之前,使用最后一个预测遮罩对新点进行采样。


在这个阶段,所有之前的点都会被丢弃,并用新的采样点来代替。


对新的点重复步骤1-4,直到视频中的所有帧都被处理完毕;重新初始化过程的作用是通过丢弃已经变得不可靠或被遮挡的点来提高跟踪的准确性,同时纳入视频中后来变得可见的物体分割的点。


实验部分


视频对象分割


从实验结果来看,SAM方法在DAVIS 2017数据集上优于其他没有在任何视频对象上训练过的方法。



J&F指标的平均得分是76.6分,比PerSAM-F高出4.7分,比SegGPT通用模型高出一个百分点,实验重复测试了8次,表中列出了平均值和标准差。


SAM-PT方法在YouTube-VOS 2018和MOSE 2023数据集上的表现也超过了PerSAM-F,取得了67.0和41.0的平均分;但在不同的遮罩训练数据下,SAM-PT这两个数据集上的表现弱于SegGPT



虽然SAM-PT的零样本学习性能很有竞争力,但某些限制仍然存在,主要是由于点追踪器在处理遮挡、小物体、运动模糊和重新识别方面的限制,错误可能会传播到未来的视频帧中。



参考资料:
https://huggingface.co/papers/2307.01197
https://twitter.com/_akhaliq/status/1676092343148064770
https://github.com/SysCV/sam-pt
https://www.youtube.com/watch?v=0MAYipodiO8




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
英语口语视频对话第1节:GreetingsVALSE 2023 | 左旺孟教授:预训练模型和语言增强的零样本视觉学习CVPR 2023 | RCF:完全无监督的视频物体分割一百万美元的退休生活CVPR 2023 | 浙大&南洋理工提出PADing:零样本通用分割框架分割一切深度图!港科技、南洋理工等开源「SAD」:根据几何信息分割图像60岁生日之行(1):到达与庆祝单张A100,50亿步训练!英伟达开源最强虚拟角色定制模型,超逼真动作零样本生成,游戏动画行业要变天想和恋爱对象分手,用英语怎么说?$800w财产险遭前妻分割!万锦华人男子官司打3年!买房后不到2个月就分居LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归代码大战白热化:WizardCoder挑落Bard及Claude,性能直追ChatGPT北大团队开源首个法律大模型;联合国将就AI威胁和平会谈;Stability AI CEO称程序员将在5年内消失丨AIGC大事日报比Meta「分割一切AI」更早实现交互式开集分割!港科大开放词表分割大法入选ICCV 2023可商用多语言聊天LLM开源,性能直逼GPT-4第一百二十三章 老师[世相]$800w财产险遭前妻分割!加拿大华人男子官司打3年!买房后不到2个月就分居巴铁公开新一代隐身版枭龙战机:总共3种方案,性能直逼五代机第一百二十四章 乡村剧团KDD 2023奖项出炉:港中文、港科大等获最佳论文奖,GNN大牛Leskovec获创新奖ICCV 2023 | 比分割一切SAM更早实现交互式开集分割!港科大提出OpenSeeD:开放词表图像分割和检测7B LLaMA模型接近ChatGPT 95%的能力!港科大提出全新对抗蒸馏框架LionICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成视频分割大结局!浙大最新发布SAM-Track:通用智能视频分割一键直达ACL 2023长文 | 先计划再求解:提升大型语言模型的零样本链式推理在美华人财产过早赠与孩子的缺失! 小心在美国离婚的财产分割!老海归中的戏迷、票友「知识型图像问答」微调也没用?谷歌发布搜索系统AVIS:少样本超越有监督PALI,准确率提升三倍智源Emu开源!超越DeepMind,刷新8项SOTA,首个「多模态-to-多模态」全能高手击败ChatGPT?OpenChat霸榜斯坦福AlpacaEval开源榜首,性能高达105.7%唏嘘|​800万财产险遭前妻分割!加拿大华人男子买房2个月就分居,离婚官司打3年!一个通用的自适应prompt方法,突破了零样本学习的瓶颈GPT-4破防啦!用密码和GPT-4聊天,成功绕过了GPT-4的安全机制!港中大(深圳)告诉你方法1800亿参数,世界顶级开源大模型Falcon官宣!碾压LLaMA 2,性能直逼GPT-4CVPR 2023 | 完全无监督的视频物体分割 RCF
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。