Redian新闻
>
分割一切后,Segment Anything又能分辨类别了:Meta/UTAustin提出全新开放类分割模型

分割一切后,Segment Anything又能分辨类别了:Meta/UTAustin提出全新开放类分割模型

公众号新闻

机器之心专栏

机器之心编辑部

前几日,Meta 推出了「分割一切」AI 模型 Segment Anything,令网友直呼 CV 不存在了?!而在另一篇被 CVPR 2023 收录的论文中,Meta、UTAustin 联合提出了新的开放语言风格模型(open-vocabulary segmentation, OVSeg),它能让 Segment Anything 模型知道所要分隔的类别。


从效果上来看,OVSeg 可以与 Segment Anything 结合,完成细粒度的开放语言分割。比如下图 1 中识别花朵的种类:sunflowers (向日葵)、white roses (白玫瑰)、 chrysanthemums (菊花)、carnations (康乃馨)、green dianthus (绿石竹)。



  • 即刻体验:https://huggingface.co/spaces/facebook/ov-seg

  • 项目地址:https://jeff-liangf.github.io/projects/ovseg/


研究背景


开放式词汇语义分割旨在根据文本描述将图像分割成语义区域,这些区域在训练期间可能没有被看到。最近的两阶段方法首先生成类别不可知的掩膜提案,然后利用预训练的视觉-语言模型(例如 CLIP)对被掩膜的区域进行分类。研究者确定这种方法的性能瓶颈是预训练的 CLIP 模型,因为它在掩膜图像上表现不佳。


为了解决这个问题,研究者建议在一组被掩膜的图像区域和它们对应的文本描述的收集的数据上对 CLIP 进行微调。研究者使用 CLIP 将掩膜图像区域与图像字幕中的名词进行匹配,从而收集训练数据。具有固定类别的更精确和手动注释的分割标签(例如 COCO-Stuff)相比,研究者发现嘈杂但多样的数据集可以更好地保留 CLIP 的泛化能力。


除了对整个模型进行微调之外,研究者还使用了被掩膜图像中的「空白」区域,使用了他们称之为掩膜提示微调的方法。


实验表明,掩膜提示微调可以在不修改任何 CLIP 权重的情况下带来显著的改进,并且它可以进一步改善完全微调的模型。特别是当在 COCO 上进行训练并在 ADE20K-150 上进行评估时,研究者的最佳模型实现了 29.6%的 mIoU,比先前的最先进技术高出 8.5%。开放式词汇通用模型首次与 2017 年的受监督专家模型的性能匹配,而不需要特定于数据集的适应。


论文地址:https://arxiv.org/pdf/2210.04150.pdf


论文解读

动机


研究者的分析表明,预训练的 CLIP 在掩膜建议上表现不佳,成为两阶段方法的性能瓶颈。



  1. CLIP 是使用很少的数据增强在自然图像上进行预训练的。

  2. 两阶段的开放词汇语义分割方法首先生成类别不可知的掩膜建议,然后利用预训练的 CLIP 进行开放词汇分类。CLIP 模型的输入是裁剪的掩膜图像,与自然图像存在巨大的领域差距。

  3. 我们的分析表明,预训练的 CLIP 在掩膜图像上表现不佳。


方法


研究者的模型包括一个分割模型(例如 MaskFormer)和一个 CLIP 模型


他们首先训练修改后的 MaskFormer 作为开放词汇分割的基线(第 3.1 节),然后从图像标题中收集多样的掩膜-类别对(第 3.2 节),并适应 CLIP 用于掩膜图像(第 3.3 节)。


结果


研究者首次展示开放词汇的通用模型可以在没有数据集特定调整的情况下与受监督的专业模型的性能相匹配



更多分类示例如下所示。



更多技术细节请参阅原论文。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CV不存在了?Meta发布"分割一切"AI模型,CV或迎来GPT-3时刻!CV不存在了?Meta发布「分割一切」AI 模型,CV或迎来GPT-3时刻比Transformer快4成!Meta发布全新Megabyte模型,解决算力损耗硬伤完美世界TA谈Stable Diffusion插件,ControlNet、Segment Anything视频分割大结局!浙大最新发布SAM-Track:通用智能视频分割一键直达Meta/G被竞争同事抢先升Manager怎么办分割一切后,SAM又能分辨类别了:Meta/UTAustin提出全新开放类分割模型Meta 股票今天大跌,花街也看不过天天裁员的公司老板了Young Chinese Love Everything About Sweden. Except Living There.卷爆CV!46篇分割一切模型(SAM)二创论文大盘点Meta「分割一切」超进化版来了!IDEA领衔国内顶尖团队打造:检测、分割、生成一切,狂揽2k星重磅!CV不存在了?CV或迎来GPT-3时刻,Meta发布「分割一切」AI 模型曹丕“情人诗”Chase Southwest 联名卡 Pay Yourself Back (PYB) 功能简介:抵消年费&吃饭类别Meta 突然宣布,明天要再次裁员4000人!Agustín Hernández:中美洲建筑背景下的未来主义巨构比SAM分割一切更全能!华人团队提出SEEM:通用分割新模型7 Papers & Radios | BERT上下文长度达200万token;华人团队通用分割模型SEEMGoogle/Meta/Amazon狗脸麻LAYOFF后大面积招人《炸北溪》电影剧本的初步构思不一样的人生,肆意挥洒。也是一种活法!7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型Meta staff engineer 被layoff 了,要卖房了AI分割一切!智源提出通用分割模型SegGPT,「一通百通」的那种分割一切又一力作!北京智源提出通用分割模型SegGPT分割一切还不够,还要检测一切、生成一切,SAM二创开始了张颂文:火柴天堂通用视觉GPT时刻来临?智源推出通用分割模型SegGPT用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型FCN、ReSeg、U-Net、ParseNet、DeepMask…你都掌握了吗?一文总结图像分割必备经典模型(一)分割一切深度图!港科技、南洋理工等开源「SAD」:根据几何信息分割图像华人团队颠覆CV!SEEM完美分割一切爆火,一键分割「瞬息全宇宙」Conagen和Natáur达成合作,生产可持续天然牛磺酸做个浪漫的女人真难分割一切还不够,还要视频跟踪一切,《清明上河图》也能轻松拿下3D版「分割一切」来了!NUS华人团队最新模型,单视图重建3D,又快又准Meta新模型“分割一切”:抠图完成究极进化,计算机视觉迎来GPT-3时刻分割一切模型SAM首篇全面综述:28页、200+篇参考文献​Segment-and-Track Anything!视频版SAM来了,分割/跟踪/编辑一切,现已开源!一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。