Redian新闻
>
通用视觉GPT之战打响!智源推出SegGPT,批量抠图神器来了

通用视觉GPT之战打响!智源推出SegGPT,批量抠图神器来了

公众号新闻

通用视觉GPT曙光乍现,又一大通用分割模型震圈登场!
作者 |  ZeR0
编辑 |  漠影
智东西4月8日报道,继ChatGPT掀起语言大模型狂潮后,本周,计算机视觉迎来了GPT时刻。先是周四Meta发布“分割一切”模型SAM,紧接着智源研究院视觉团队也推出通用分割模型SegGPT(Segment Everything In Context)
SegGPT可用于分割上下文中所有事物,是首个利用视觉提示(prompt)完成任意分割任务的通用视觉模型。SegGPT与SAM的差异在于 :
(1)SegGPT 一通百通”给出一个或几个示例图像和意图掩码,模型就能明白用户意图,“有样学样”地完成类似分割任务。用户在画面上标注识别一类物体,即可批量化识别分割同类物体,无论是在当前画面还是其他画面或视频环境中。
(2)SAM一触即通”通过一个点或边界框,在待预测图片上给出交互提示,识别分割画面上的指定物体。
无论是“一触即通”还是“一通百通”,都意味着视觉模型已经“理解”了图像结构。
SAM精细标注能力与SegGPT的通用分割标注能力相结合,能把任意图像从像素阵列解析为视觉结构单元,像生物视觉那样理解任意场景。


论文地址:https://arxiv.org/abs/2304.03284

代码地址:https://github.com/baaivision/Painter

Demo:https://huggingface.co/spaces/BAAI/SegGPT



01.
目标是分割一切物体,三大优势加持


SegGPT是智源通用视觉模型Painter的衍生模型,针对分割一切物体的目标做出优化。
训练完成后,无需微调,只需提供示例,SegGPT就能自动推理并完成对应分割任务。
具体来看,SegGPT模型具有以下优势能力:
1、通用能力SegGPT具有上下文推理能力,模型能够根据提供的分割示例(prompt),对预测进行自适应的调整,实现对“everything”的分割,包括实例、类别、零部件、轮廓、文本、人脸、医学图像等。
2、灵活推理能力支持任意数量的prompt;支持针对特定场景的tuned prompt;可以用不同颜色的mask表示不同目标,实现并行分割推理。
3、自动视频分割和追踪能力以第一帧图像和对应的物体掩码作为上下文示例,SegGPT能够自动对后续视频帧进行分割,并且可以用掩码的颜色作为物体的ID,实现自动追踪。

02.
应用示例:批量“抠”出彩虹、行星环带


1、标注出一个画面中的彩虹,SegGPT就能批量化分割其他画面中的彩虹。

2、研究人员在广泛的任务上对SegGPT进行了评估,包括少样本语义分割、视频对象分割、语义分割和全景分割。
下图中具体展示了SegGPT在实例、类别、零部件、轮廓、文本和任意形状物体上的分割结果。

3、用画笔大致圈出行星环带。

SegGPT在预测图中准确输出目标图像中的行星环带。

4、根据用户提供的宇航员头盔掩码这一上下文。

SegGPT能够在新的图片中预测出对应的宇航员头盔区域。


03.
训练思路:定义为上下文着色问题
多项技术解锁分割能力


SegGPT将各种分割任务统一到一个通用的上下文学习框架中,通过将各类分割数据转换为相同格式的图像来统一各式各样的数据形式。
其训练被定义为一个上下文着色问题,每个数据样本都有随机的颜色映射,以根据上下文完成不同的任务,而非依赖于特定的颜色。
经训练,SegGPT可以通过上下文推理在图像或视频中执行任意分割任务,如物体实例、类别、零部件、轮廓、文本和任意形状物体等。

如何通过test-time techniques解锁各种能力是通用模型的一大亮点。
SegGPT论文中提出了多个技术来解锁和增强各类分割能力,比如下图所示的不同的context ensemble方法。论文所提出的Feature Ensemble方法可以支持任意数量的prompt示例。

此外,SegGPT还支持对特定场景优化专用prompt提示。对于针对性的使用场景,SegGPT可以通过prompt tuning得到对应prompt,无需更新模型参数来适用于特定场景。
比如,针对某一数据集自动构建一个对应的prompt,或者针对一个房间来构建专用prompt。如下图所示:


04.
结语:强大零样本场景迁移能力
经典CV数据集上取得最优性能


模型只需少数prompt示例,在COCO和PASCAL数据集上取得最优性能。

SegGPT显示出强大的零样本场景迁移能力,比如在少样本语义分割测试集FSS-1000上,在无需训练的情况下取得state-of-the-art性能。
无需视频训练数据,SegGPT可直接进行视频物体分割,并取得和针对视频物体分割专门优化的模型相当的性能。

以下是基于tuned prompt在语义分割和实例分割任务上的效果展示:

SegGPT在广泛的任务中进行了评估,包括少数照片的语义分割、视频物体分割、语义分割、全景分割。结果显示,在对域内和域外目标进行分割时,无论是质量还是数量都有很强的能力。
随着SAM和SegGPT两款图像分割基础模型的发布,通用视觉GPT曙光乍现。
(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)

GTIC峰会预告


4月20日,GTIC 2023中国智能汽车峰会将于2023上海车展同期举办。


智行者董事长兼CEO张德兆、零念科技创始人兼CEO柯柱良、商汤绝影智能汽车事业群智能车舱副总裁许亮、国汽智控产品研发副总裁孟祥雨已确认参会。欢迎扫码报名~



  

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
微软内战打响,ChatGPT对决新必应!13个灵魂拷问,新老AI各有所长ChatGPT自己会选模型了!浙大和微软提出:HuggingGPT李嘉诚蝉联香港首富;海底捞禁止自带食材;平台回应外卖骑手送餐时猝死;字节跳动加入中国版ChatGPT之战...AI分割一切!智源提出通用分割模型SegGPT,「一通百通」的那种ChatGPT之父最新观点:通用人工智能是全人类的赌注AI大战打响!谷歌正式发布Bard,CEO亲自拉新Meta新模型“分割一切”:抠图完成究极进化,计算机视觉迎来GPT-3时刻苹果Siri、亚马逊Alexa计划集成LLM;电信推出通用视觉大模型;欧盟达成《人工智能法》协议丨AIGC大事日报分割一切又一力作!北京智源提出通用分割模型SegGPTChatGPT自己会选模型了!微软亚研院+浙大爆火新论文,HuggingGPT项目已开源LV集团5000亿继承战打响!五个子女明争暗斗,首富老爹月月考察业绩,拼什么?美团放大招!抖音反击战打响!动物世界,倔头倔脑女儿带我去滑雪-犹他Park City 2023GPT全家桶再添一员!看论文神器,ResearchGPT,可立即试用「ChatGPT之母」最新采访:GPT-4离超级智能还很远,半年内不会训练GPT-5对标ChatGPT,Hugging Face推出开源聊天机器人HuggingChat开源版ChatGPT要来了?这个AI做图神器团队,想让人人都能做自己的大模型集成GPT-4的编程神器来了,GitHub发布Copilot X:编程30年,突然就不需要手敲代码了?!LV集团5000亿继承战打响!五个子女明争暗斗,首富老爹开启月考模式......早鸟报|字节跳动加入中国版chatgpt之战;霸王茶姬回应包装擦边迪奥;耐克阿迪代工厂大裁员...关于纽约的几个冷知识(一)用ChatGPT「指挥」数百个模型,HuggingGPT让专业模型干专业事通用视觉GPT时刻来临?智源推出通用分割模型SegGPT对标ChatGPT!Hugging Face推出开源聊天机器人HuggingChatGNN如何建模时空信息?伦敦玛丽女王大学「时空图神经网络」综述,简明阐述时空图神经网络方法江西最穷小县城,批量诞生富豪2024美总统参选名单!政坛恶战打响!投资狂魔!ChatGPT之父Sam Altman:连投数十家,从好基友马斯克开始!| GGView这个傻瓜式地图神器能绘制等高线,还能生成3D地形!(附神器下载)我心万里晴比SAM分割一切更全能!华人团队提出SEEM:通用分割新模型百度推出文心一言对标GPT,55岁的李彦宏打响中国AI背水一战谷歌宣布进入AI世代!AI之战全面打响!美国租房记
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。