国际科技财经博客移民网络热点娱乐民生时事公众号

>

分割一切后，SAM又能分辨类别了：Meta/UTAustin提出全新开放类分割模型

分割一切后，SAM又能分辨类别了：Meta/UTAustin提出全新开放类分割模型

公众号新闻

2023-04-15 14:04

©作者 | 机器之心编辑部

来源 | 机器之心

前几日，Meta 推出了「分割一切」AI 模型 Segment Anything，令网友直呼 CV 不存在了？！而在另一篇被 CVPR 2023 收录的论文中，Meta、UTAustin 联合提出了新的开放语言风格模型（open-vocabulary segmentation, OVSeg），它能让 Segment Anything 模型知道所要分隔的类别。

从效果上来看，OVSeg 可以与 Segment Anything 结合，完成细粒度的开放语言分割。比如下图 1 中识别花朵的种类：sunflowers (向日葵)、white roses (白玫瑰)、 chrysanthemums (菊花)、carnations (康乃馨)、green dianthus (绿石竹)。

即刻体验：

https://huggingface.co/spaces/facebook/ov-seg

项目地址：

https://jeff-liangf.github.io/projects/ovseg/

研究背景

开放式词汇语义分割旨在根据文本描述将图像分割成语义区域，这些区域在训练期间可能没有被看到。最近的两阶段方法首先生成类别不可知的掩膜提案，然后利用预训练的视觉-语言模型（例如 CLIP）对被掩膜的区域进行分类。研究者确定这种方法的性能瓶颈是预训练的 CLIP 模型，因为它在掩膜图像上表现不佳。

为了解决这个问题，研究者建议在一组被掩膜的图像区域和它们对应的文本描述的收集的数据上对 CLIP 进行微调。研究者使用 CLIP 将掩膜图像区域与图像字幕中的名词进行匹配，从而收集训练数据。与具有固定类别的更精确和手动注释的分割标签（例如 COCO-Stuff）相比，研究者发现嘈杂但多样的数据集可以更好地保留 CLIP 的泛化能力。

除了对整个模型进行微调之外，研究者还使用了被掩膜图像中的「空白」区域，使用了他们称之为掩膜提示微调的方法。

实验表明，掩膜提示微调可以在不修改任何 CLIP 权重的情况下带来显著的改进，并且它可以进一步改善完全微调的模型。特别是当在 COCO 上进行训练并在 ADE20K-150 上进行评估时，研究者的最佳模型实现了 29.6％的 mIoU，比先前的最先进技术高出 8.5％。开放式词汇通用模型首次与 2017 年的受监督专家模型的性能匹配，而不需要特定于数据集的适应。

论文地址：

https://arxiv.org/pdf/2210.04150.pdf

论文解读

动机

研究者的分析表明，预训练的 CLIP 在掩膜建议上表现不佳，成为两阶段方法的性能瓶颈。

a. CLIP 是使用很少的数据增强在自然图像上进行预训练的。

b. 两阶段的开放词汇语义分割方法首先生成类别不可知的掩膜建议，然后利用预训练的 CLIP 进行开放词汇分类。CLIP 模型的输入是裁剪的掩膜图像，与自然图像存在巨大的领域差距。

c. 我们的分析表明，预训练的 CLIP 在掩膜图像上表现不佳。

方法

研究者的模型包括一个分割模型（例如 MaskFormer）和一个 CLIP 模型。

他们首先训练修改后的 MaskFormer 作为开放词汇分割的基线（第 3.1 节），然后从图像标题中收集多样的掩膜-类别对（第 3.2 节），并适应 CLIP 用于掩膜图像（第 3.3 节）。

结果

研究者首次展示开放词汇的通用模型可以在没有数据集特定调整的情况下与受监督的专业模型的性能相匹配。

更多分类示例如下所示。

更多技术细节请参阅原论文。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：[email protected]

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

情人节狗屁通视频分割大结局！浙大最新发布SAM-Track：通用智能视频分割一键直达 Meta 突然宣布，明天要再次裁员4000人！分割一切又一力作！北京智源提出通用分割模型SegGPT 重磅！CV不存在了？CV或迎来GPT-3时刻，Meta发布「分割一切」AI 模型 No. 122 上海老风味之五十七腌笃鲜（视频）CVPR 2023 | 浙大提出全归一化流模型PyramidFlow：高分辨率缺陷异常定位新范式卷爆CV！46篇分割一切模型(SAM)二创论文大盘点分割一切后，Segment Anything又能分辨类别了：Meta/UTAustin提出全新开放类分割模型当「分割一切」遇上图像修补：无需精细标记，单击物体实现物体移除、内容填补、场景替换 SAM分割一切最全论文大盘点小花猫，愣头愣脑 CV不存在了？Meta发布"分割一切"AI模型，CV或迎来GPT-3时刻！分割一切还不够，还要视频跟踪一切，《清明上河图》也能轻松拿下 7 Papers & Radios | BERT上下文长度达200万token；华人团队通用分割模型SEEM 闽南【浥饭/油饭】Eik P'ng 通用视觉GPT时刻来临？智源推出通用分割模型SegGPT CV圈又炸了？小扎高调官宣DINOv2，分割检索无所不能，网友：Meta才是「Open」AI 用Meta「分割一切」搞定一切关系，唱跳偷袭效果拔群！NTU等提出全新RAM模型呼噜声隐藏的致命信号，你能分辨吗？测一测 Meta「分割一切」超进化版来了！IDEA领衔国内顶尖团队打造：检测、分割、生成一切，狂揽2k星分割一切还不够，还要检测一切、生成一切，SAM二创开始了 Meta staff engineer 被layoff 了，要卖房了 Google/Meta/Amazon狗脸麻LAYOFF后大面积招人 Agustín Hernández：中美洲建筑背景下的未来主义巨构华人团队颠覆CV！SEEM完美分割一切爆火，一键分割「瞬息全宇宙」3D版「分割一切」来了！NUS华人团队最新模型，单视图重建3D，又快又准 7 Papers & Radios | Meta「分割一切」AI模型；从T5到GPT-4盘点大语言模型 Conagen和Natáur达成合作，生产可持续天然牛磺酸 Meta新模型“分割一切”：抠图完成究极进化，计算机视觉迎来GPT-3时刻分割一切模型SAM首篇全面综述：28页、200+篇参考文献分割一切深度图！港科技、南洋理工等开源「SAD」：根据几何信息分割图像 Meta 股票今天大跌，花街也看不过天天裁员的公司老板了 FastTrack Universität 2023莱比锡大学公立语言项目招生简章钢琴协奏曲最美乐章（更新中）一次性分割一切，比SAM更强，华人团队的通用分割模型SEEM来了比SAM分割一切更全能！华人团队提出SEEM：通用分割新模型 Meta/G被竞争同事抢先升Manager怎么办 CV不存在了？Meta发布「分割一切」AI 模型，CV或迎来GPT-3时刻 AI分割一切！智源提出通用分割模型SegGPT，「一通百通」的那种

热点事件追踪