Redian新闻
>
视觉AI能力大一统!自动化图像检测分割,还能可控文生图,华人团队出品

视觉AI能力大一统!自动化图像检测分割,还能可控文生图,华人团队出品

公众号新闻
明敏 发自 凹非寺
量子位 | 公众号 QbitAI

现在AI圈确实到了拼手速的时候啊。

这不,Meta的SAM刚刚推出几天,就有国内程序猿来了波buff叠加,把目标检测、分割、生成几大视觉AI功能all in one!

比如基于Stable Diffusion和SAM,就能让照片中的椅子无缝换成沙发:

换装、换发色也是so easy:

项目一经发布就让不少人惊呼:手速也太快了吧!

还有人表示:我和新垣结衣的新结婚照有了

如上就是Gounded-SAM带来的效果,项目在GitHub上已揽星1.8k。

简单来说,这就是一个zero-shot视觉应用,只需要输入图片,就能自动化检测和分割图像。

该研究来自IDEA研究院(粤港澳大湾区数字经济研究院),创始人兼理事长为沈向洋。

无需额外训练

Grounded SAM主要由Grounding DINO和SAM两个模型组成。

其中SAM(Segment Anything)是4天前Meta刚刚推出的零样本分割模型。

它可以为图像/视频中的任何物体生成mask,包括训练过程中没出现过的物体和图像。

通过让SAM对于任何提示都返回有效的mask, 能够让模型在即使提示是模糊的或者指向多个对象的情况下,输出也应该是所有可能中一个合理的mask。这一任务用于预训练模型并通过提示解决一般的下游分割任务。

模型框架主要由一个图像编码器、一个提示编码器和一个快速mask解码器组成。在计算图像嵌入后,SAM能够在50毫秒内根据web中的任何提示生成一个分割。

Grounding DINO是该研究团队已有的成果。

这是一个零样本检测模型,能够生成带有文字描述的物体box和标签。

二者结合后,可以通过文本描述找到图片中的任意物体,然后通过SAM强大的分割能力,细粒度分割出mask.

在这些能力之上,他们还叠加了Stable Diffusion的能力,也就是开头所展示的可控图像生成。

值得一提的是,Stable Diffusion此前也能够实现类似功能。只要涂抹掉想替换的图像元素,再输入文本提示就可以。

这一回,Grounded SAM能够省去手动选区这个步骤,直接通过文本描述来控制。

另外结合BLIP(Bootstrapping Language-Image Pre-training),生成图片标题、提取标签,再生成物体box和mask。

目前,还有更多有趣的功能正在开发中。

比如人物方面的一些拓展:更换衣服、发色、肤色等。


具体食用方法也已在GitHub上给出。项目需要Python 3.8以上版本,pytorch 1.7以上版本,torchvision 0.8以上版本,并要安装相关依赖项。具体内容可看GitHub项目页。

该研究团队来自IDEA研究院(粤港澳大湾区数字经济研究院)。

公开消息显示,该研究院是一所面向人工智能、数字经济产业及前沿科技的国际化创新型研究机构,前微软亚研院首席科学家、前微软全球智行副总裁沈向洋博士担任创始人及理事长。

One More Thing

对于Grounded SAM的未来工作,团队几点展望:

  • 自动生成图像构成新数据集

  • 具有分割预训练的强大基础模型

  • 和(Chat-)GPT合作

  • 构成一个自动生成图像标签、box和mask的pipeline,并能生成新的图像。

值得一提的是,该项目的团队成员中,有不少都是知乎AI领域活跃的答主,这次也在知乎上自答了关于Grounded SAM的内容,感兴趣的童鞋可以去留言请教~

参考链接:
[1]
https://zhuanlan.zhihu.com/p/620271321
[2]https://github.com/IDEA-Research/Grounded-Segment-Anything
[3]https://segment-anything.com/

【AIGC 技术探索与应用创新】

4月13日「掘金城市沙龙·北京站」

限量免费参会!

ChatGPT 看,AI 模型服务化趋势是怎样的?AIGC 新时代下,文本智能创作面临什么样的变革?如何轻松训练 AIGC 大模型?基于大模型的 AIGC 工作原理和应用场景是什么样?

畅聊「AIGC 技术探索与应用创新」字节跳动 NLP 算法工程师陈家泽、英特尔AI软件工程师杨亦诚、Google Cloud机器学习专家王顺、清华大学 KEG 知识工程实验室研究助理郑勤铠、九合创投 COO张少宇、稀土掘金江昪等多位业界专家已集结完毕!

4月13日下午北京大钟寺地铁站方恒时尚中心,邀你线下参会,更有多款稀土掘金原创周边等你来!

扫描下方二维码,抢线下免费参会票!

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
北京宣布:十年一统!无数人要失眠了!早鸟报|抖音版B站青桃上线;百度回应文心一言文生图套壳质疑;趣头条宣布从纳斯达克退市...能分开CCP和中国人民吗?GPT-4逆天联网!微软Bing突然全面开放插件系统,文生图原生支持中文华人团队颠覆CV!SEEM完美分割一切爆火,一键分割「瞬息全宇宙」Meta「分割一切」超进化版来了!IDEA领衔国内顶尖团队打造:检测、分割、生成一切,狂揽2k星用GPT-4实现可控文本图像生成,UC伯克利&微软提出新框架Control-GPT可复现、自动化、低成本、高评估水平,首个自动化评估大模型的大模型PandaLM来了视觉版ChatGPT来了!吸收AI画画全技能,MSRA全华人团队打造,微软16年老将领衔比SAM分割一切更全能!华人团队提出SEEM:通用分割新模型ELITE项目原作解读:基于扩散模型的快速定制化图像生成朱晓彤跻身特斯拉“四巨头”/ 王慧文光年之外已开业/ 微软浏览器接入文生图…今日更多新鲜事在此赴华行前检测大松绑有望即将到来!抗原检测取代核酸检测,取消航司行前查验检测报告GPT-4平替来了!华人团队开源miniGPT-4,只需23G显存,画草稿写网站,还能帮你修洗衣机美团被爆严抓考勤:迟到3次扣50%绩效;百度回应文心一言文生图功能争议;26岁年薪百万,华为最新天才少年曝光 | AI一周资讯百度回应文心一言文生图功能争议Diffusion+目标检测=可控图像生成!华人团队提出GLIGEN,完美控制对象的空间位置AMD 招人:世界各地、多专业等国产乾元2大模型来了:可编程金融文生图,120亿参数,超对称联手复旦出品苹果或降低Vision Pro销售预期/中国电信回应广东无信号/微信上线「文生图」功能AI开发大一统!谷歌OpenXLA开源,整合所有框架和AI芯片!Stability AI开源文生图模型;莫言找ChatGPT代写颁奖辞;云从发布AI大模型丨AIGC大事日报7 Papers & Radios | BERT上下文长度达200万token;华人团队通用分割模型SEEMAI降维打击人类画家,文生图引入ControlNet,深度、边缘信息全能复用醉卧沙场君莫笑「大一统」大模型论文爆火,4种模态任意输入输出,华人本科生5篇顶会一作,网友:近期最不可思议的论文一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了大模型物种进化图转疯了:8位华人打造,一眼看懂“界门纲目”,原来BERT后代已绝种分割一切深度图!港科技、南洋理工等开源「SAD」:根据几何信息分割图像图像生成终结扩散模型,OpenAI「一致性模型」加冕!GAN的速度一步生图,高达18FPS3D版「分割一切」来了!NUS华人团队最新模型,单视图重建3D,又快又准王菲女儿窦靖童出家,宗萨仁波切亲自剃度,知道原因我只佩服王菲顶刊TIP 2023!CFP:即插即用的多尺度融合模块,助力检测分割任务有效涨点!Caption Anything来了!可以解读清明上河图,细粒度可控的图像描述!张艺谋21岁私生子越来越像巩俐?与巩俐相恋8年,娶小31岁娇妻生三胎
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。