Redian新闻
>
比SAM分割一切更全能!华人团队提出SEEM:通用分割新模型

比SAM分割一切更全能!华人团队提出SEEM:通用分割新模型

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【计算机视觉】微信技术交流群



转载自:机器之心

CV 领域已经卷到了一个新的高度。

本月初,Meta 发布「分割一切」AI 模型 ——Segment Anything Model(SAM)。SAM 被认为是一个通用的图像分割基础模型,它学会了关于物体的一般概念,可以为任何图像或视频中的任何物体生成 mask,包括在训练过程中没有遇到过的物体和图像类型。这种「零样本迁移」的能力令人惊叹,甚至有人称 CV 领域迎来了「GPT-3 时刻」。


最近,一篇「一次性分割一切」的新论文《Segment Everything Everywhere All at Once》再次引起关注。在该论文中,来自威斯康星大学麦迪逊分校、微软、香港科技大学的几位华人研究者提出了一种基于 prompt 的新型交互模型 SEEM。SEEM 能够根据用户给出的各种模态的输入(包括文本、图像、涂鸦等等),一次性分割图像或视频中的所有内容,并识别出物体类别。该项目已经开源,并提供了试玩地址供大家体验。


Segment Everything Everywhere All at Once
论文链接:https://arxiv.org/abs/2304.06718

项目链接:https://github.com/UX-Decoder/Segment-Everything-Everywhere-All-At-Once

试玩地址:https://huggingface.co/spaces/xdecoder/SEEM


该研究通过全面的实验验证了 SEEM 在各种分割任务上的有效性。即使 SEEM 不具有了解用户意图的能力,但它表现出强大的泛化能力,因为它学会了在统一的表征空间中编写不同类型的 prompt。此外,SEEM 可以通过轻量级的 prompt 解码器有效地处理多轮交互。


先来看一下分割效果:


在变形金刚的合影中把「擎天柱」分割出来:

还能对一类物体做分割,比如在一张景观图片中分割出所有建筑物:


SEEM 也能轻松分割出视频中移动的物体:


这个分割效果可以说是非常丝滑了。我们来看一下该研究提出的方法。


方法概述


该研究旨在提出一个通用接口,以借助多模态 prompt 进行图像分割。为了实现这一目标,他们提出了一种包含 4 个属性的新方案,包括多功能性(versatility)、组合性(compositionality)、交互性(interactivity)和语义感知能力(semantic-awareness),具体包括


1)多功能性该研究提出将点、掩码、文本、检测框(box)甚至是另一个图像的参考区域(referred region)这些异构的元素,编码成同一个联合视觉语义空间中的 prompt。

2)组合性通过学习视觉和文本 prompt 的联合视觉语义空间来即时编写查询以进行推理。SEEM 可以处理输入 prompt 的任意组合。

3)交互性:该研究引入了通过结合可学习的记忆(memory) prompt,并通过掩码指导的交叉注意力保留对话历史信息。

4)语义感知能力:使用文本编码器对文本查询和掩码标签进行编码,从而为所有输出分割结果提供了开放集语义。


架构方面,SEEM 遵循一个简单的 Transformer 编码器 - 解码器架构,并额外添加了一个文本编码器。在 SEEM 中,解码过程类似于生成式 LLM,但具有多模态输入和多模态输出。所有查询都作为 prompt 反馈到解码器,图像和文本编码器用作 prompt 编码器来编码所有类型的查询。


具体来说,该研究将所有查询(如点、框和掩码)编码为视觉 prompt,同时使用文本编码器将文本查询转换为文本 prompt,这样视觉和文本 prompt 就能保持对齐。5 种不同类型的 prompt 都能都映射到联合视觉语义空间中,通过零样本适应来处理未见过的用户 prompt。通过对不同的分割任务进行训练,模型具有处理各种 prompt 的能力。此外,不同类型的 prompt 可以借助交叉注意力互相辅助。最终,SEEM 模型可以使用各种 prompt 来获得卓越的分割结果。


除了强大的泛化能力,SEEM 在运行方面也很高效。研究人员将 prompt 作为解码器的输入,因此在与人类进行多轮交互时,SEEM 只需要在最开始运行一次特征提取器。在每次迭代中,只需要使用新的 prompt 再次运行一个轻量级的解码器。因此,在部署模型时,参数量大运行负担重的特征提取器可以在服务器上运行,而在用户的机器上仅运行相对轻量级的解码器,以缓解多次远程调用中的网络延迟问题。

如上图 3(b)所示,在多轮交互中,每次交互包含一个人工循环和一个模型循环。在人工循环中,人接收上一次迭代的掩码输出,并通过视觉 prompt 给出下一轮解码的正反馈或负反馈。在模型循环中,模型接收并更新记忆 prompt 供未来的预测。


实验结果


该研究将 SEEM 模型与 SOTA 交互式分割模型进行了实验比较,结果如下表 1 所示。


作为一个通用模型,SEEM 实现了与 RITM,SimpleClick 等模型相当的性能,并且与 SAM 的性能非常接近,而 SAM 用于训练的分割数据是 SEEM 的 50 倍之多。


与现有的交互式模型不同,SEEM 是第一个不仅支持经典分割任务,还支持各种用户输入类型的通用接口,包括文本、点、涂鸦、框和图像,提供强大的组合功能。如下表 2 所示,通过添加可组合的 prompt,SEEM 在 cIoU,mIoU 等指标上有了显著的分割性能提升。


我们再来看一下交互式图像分割的可视化结果。用户只需要画出一个点或简单涂鸦,SEEM 就能提供非常好的分割结果


也可以输入文本,让 SEEM 进行图像分割


还能直接输入参考图像并指出参考区域,对其他图像进行分割,找出与参考区域一致的物体:


该项目已经可以线上试玩,感兴趣的读者快去试试吧。


点击进入—>【计算机视觉】微信技术交流群


SEEM 论文和代码下载


后台回复:SEEM,即可下载SEEM论文和代码


图像分割和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-图像分割或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如图像分割或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群

CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
无需人力标注!悉尼大学华人团队提出「GPT自监督标注」范式,完美解决标注成本、偏见、评估问题用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型豪斯曼:《诗歌外编》: 第二十二首:R.L.S.分割一切后,SAM又能分辨类别了:Meta/UTAustin提出全新开放类分割模型最好的越野滑雪时光为多模态LLM指明方向,邱锡鹏团队提出具有内生跨模态能力的SpeechGPTDiffusion+目标检测=可控图像生成!华人团队提出GLIGEN,完美控制对象的空间位置南澳散记 (增订本) :第二十章:父母来访南澳(上)7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型CV不存在了?Meta发布"分割一切"AI模型,CV或迎来GPT-3时刻!视频分割大结局!浙大最新发布SAM-Track:通用智能视频分割一键直达分割一切还不够,还要视频跟踪一切,《清明上河图》也能轻松拿下分割一切还不够,还要检测一切、生成一切,SAM二创开始了SAM分割一切最全论文大盘点重磅!CV不存在了?CV或迎来GPT-3时刻,Meta发布「分割一切」AI 模型通用视觉GPT时刻来临?智源推出通用分割模型SegGPTMeta「分割一切」超进化版来了!IDEA领衔国内顶尖团队打造:检测、分割、生成一切,狂揽2k星当「分割一切」遇上图像修补:无需精细标记,单击物体实现物体移除、内容填补、场景替换十八英里跑。美丽的杏花季节卷爆CV!46篇分割一切模型(SAM)二创论文大盘点宾州东部州立监狱(Eastern State Penitentiary),窗门小桌无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了AI分割一切!智源提出通用分割模型SegGPT,「一通百通」的那种CVPR 2023 | 浙大&南洋理工提出PADing:零样本通用分割框架分割一切后,Segment Anything又能分辨类别了:Meta/UTAustin提出全新开放类分割模型分割一切又一力作!北京智源提出通用分割模型SegGPT分割一切模型SAM首篇全面综述:28页、200+篇参考文献3D版「分割一切」来了!NUS华人团队最新模型,单视图重建3D,又快又准CVPR 2023 | 多模态新任务和新数据集!NTU提出广义引用分割问题GRESMeta新模型“分割一切”:抠图完成究极进化,计算机视觉迎来GPT-3时刻分割一切深度图!港科技、南洋理工等开源「SAD」:根据几何信息分割图像华人团队颠覆CV!SEEM完美分割一切爆火,一键分割「瞬息全宇宙」CV不存在了?Meta发布「分割一切」AI 模型,CV或迎来GPT-3时刻7 Papers & Radios | BERT上下文长度达200万token;华人团队通用分割模型SEEM
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。