Redian新闻
>
AI分割一切!智源提出通用分割模型SegGPT,「一通百通」的那种

AI分割一切!智源提出通用分割模型SegGPT,「一通百通」的那种

公众号新闻
允中 发自 凹非寺
量子位 | 公众号 QbitAI

视觉领域的GPT-3时刻,真的要来了?

Meta分割一切的SAM(SegmentAnything Model)刚炸完场,几乎同时,国内的智源研究院视觉团队也提出了通用分割模型SegGPT——

Segment Everything in Context,首个利用视觉上下文完成各种分割任务的通用视觉模型。

就像这样,在一张画面中标注出彩虹,就能批量分割其他画面中的彩虹。

和 SAM 相比,视觉模型的 In-context 能力是最大差异点 :

  • SegGPT “一通百通”:可使用一个或几个示例图片和对应的掩码即可分割大量测试图片。用户在画面上标注识别一类物体,即可批量化识别分割出其他所有同类物体,无论是在当前画面还是其他画面或视频环境中。

  • SAM“一触即通”:通过一个点、边界框或一句话,在待预测图片上给出交互提示,识别分割画面上的指定物体。

这也就意味着,SAM的精细标注能力,与SegGPT的批量化标注分割能力,还能进一步相结合,产生全新的CV应用。

具体而言,SegGPT 是智源通用视觉模型 Painter 的衍生模型,针对分割一切物体的目标做出优化。

SegGPT 训练完成后无需微调,只需提供示例即可自动推理并完成对应分割任务,包括图像和视频中的实例、类别、零部件、轮廓、文本、人脸等等。

该模型具有以下优势能力:

  1. 通用能力:SegGPT具有上下文推理能力,模型能够根据上下文(prompt)中提供掩码,对预测进行自适应的调整,实现对“everything”的分割,包括实例、类别、零部件、轮廓、文本、人脸、医学图像等。

  2. 灵活推理能力:支持任意数量的prompt;支持针对特定场景的tuned prompt;可以用不同颜色的mask表示不同目标,实现并行分割推理。

  3. 自动视频分割和追踪能力:以第一帧图像和对应的物体掩码作为上下文示例,SegGPT能够自动对后续视频帧进行分割,并且可以用掩码的颜色作为物体的ID,实现自动追踪。

更多案例展示

作者在广泛的任务上对SegGPT进行了评估,包括少样本语义分割、视频对象分割、语义分割和全景分割。下图中具体展示了SegGPT在实例、类别、零部件、轮廓、文本和任意形状物体上的分割结果。

用画笔大致圈出行星环带(左图),在预测图中准确输出目标图像中的行星环带(右图)。

SegGPT能够根据用户提供的宇航员头盔掩码这一上下文(左图),在新的图片中预测出对应的宇航员头盔区域(右图)。

训练方法

SegGPT将不同的分割任务统一到一个通用的上下文学习框架中,通过将各类分割数据转换为相同格式的图像来统一各式各样的数据形式。

具体来说,SegGPT的训练被定义为一个上下文着色问题,对于每个数据样本都有随机的颜色映射。

目标是根据上下文完成各种任务,而不是依赖于特定的颜色。训练后,SegGPT可以通过上下文推理在图像或视频中执行任意分割任务,例如实例、类别、零部件、轮廓、文本等。

论文地址:https://arxiv.org/abs/2211.07636

代码地址:https://github.com/baaivision/Painter

Demo:https://huggingface.co/spaces/BAAI/SegGPT

「人工智能」、「智能汽车」微信社群邀你加入!

欢迎关注人工智能、智能汽车的小伙伴们加入交流群,与AI从业者交流、切磋,不错过最新行业发展&技术进展。

PS. 加好友请务必备注您的姓名-公司-职位噢 ~


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CV不存在了?Meta发布"分割一切"AI模型,CV或迎来GPT-3时刻!Meta「分割一切」超进化版来了!IDEA领衔国内顶尖团队打造:检测、分割、生成一切,狂揽2k星ChatGPT自己会选模型了!浙大和微软提出:HuggingGPTSoon China will be the number 1 economic superpower7 Papers & Radios | BERT上下文长度达200万token;华人团队通用分割模型SEEM卷爆CV!46篇分割一切模型(SAM)二创论文大盘点华人团队颠覆CV!SEEM完美分割一切爆火,一键分割「瞬息全宇宙」分割一切又一力作!北京智源提出通用分割模型SegGPT分割一切还不够,还要视频跟踪一切,《清明上河图》也能轻松拿下当「分割一切」遇上图像修补:无需精细标记,单击物体实现物体移除、内容填补、场景替换CV不存在了?Meta发布「分割一切」AI 模型,CV或迎来GPT-3时刻ChatGPT自己会选模型了!微软亚研院+浙大爆火新论文,HuggingGPT项目已开源反华渐成‘排华’势?用ChatGPT「指挥」数百个模型,HuggingGPT让专业模型干专业事3D版「分割一切」来了!NUS华人团队最新模型,单视图重建3D,又快又准Meta新模型“分割一切”:抠图完成究极进化,计算机视觉迎来GPT-3时刻ICLR 2023 | 清华大学龙明盛组提出通用时间序列神经网络骨干—TimesNet通用视觉GPT之战打响!智源推出SegGPT,批量抠图神器来了我经历过的地震分割一切还不够,还要检测一切、生成一切,SAM二创开始了耶鲁本科女生被人敲头部后倒地用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型重磅!CV不存在了?CV或迎来GPT-3时刻,Meta发布「分割一切」AI 模型ECCV 2022 | SegPGD: 能有效提升语义分割模型鲁棒性的对抗攻击方法视频分割大结局!浙大最新发布SAM-Track:通用智能视频分割一键直达分割一切深度图!港科技、南洋理工等开源「SAD」:根据几何信息分割图像一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了比SAM分割一切更全能!华人团队提出SEEM:通用分割新模型Stability AI发布语言模型StableLM,能力不及ChatGPT,但胜在开源分割一切后,Segment Anything又能分辨类别了:Meta/UTAustin提出全新开放类分割模型分割一切模型SAM首篇全面综述:28页、200+篇参考文献分割一切后,SAM又能分辨类别了:Meta/UTAustin提出全新开放类分割模型7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型通用视觉GPT时刻来临?智源推出通用分割模型SegGPT
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。