Redian新闻
>
当「分割一切」遇上图像修补:无需精细标记,单击物体实现物体移除、内容填补、场景替换

当「分割一切」遇上图像修补:无需精细标记,单击物体实现物体移除、内容填补、场景替换

公众号新闻

机器之心专栏

机器之心编辑部

这次,强大的「分割一切」模型——Segment Anything Model,在图像修补任务上碰撞出了火花。


4 月初,Meta 发布了史上首个图像分割基础模型--SAM(Segment Anything Model)[1]。作为分割模型,SAM 的能力强大,操作使用方式也十分友好,比如用户简单地点击来选择对应物体,物体就会立即被分割出来,且分割结果十分精准。截至 4 月 15 号,SAM 的 GitHub 仓库的 Star 数高达 26k。



如何利用好如此强大的「分割一切」模型,并拓展到更加有实际需求的应用场景至关重要。例如,当 SAM 遇上实用的图像修补(Image Inpainting)任务会碰撞出什么样的火花?


来自中国科学技术大学和东方理工高等研究院的研究团队给出了令人惊艳的答案。基于 SAM,他们提出「修补一切」(Inpaint Anything,简称 IA)模型。区别于传统图像修补模型,IA 模型无需精细化操作生成掩码,支持了一键点击标记选定对象,IA 即可实现移除一切物体(Remove Anything)、填补一切内容(Fill Anything)、替换一切场景(Replace Anything),涵盖了包括目标移除、目标填充、背景替换等在内的多种典型图像修补应用场景。



  • 论文链接:http://arxiv.org/abs/2304.06790

  • 代码库链接:https://github.com/geekyutao/Inpaint-Anything


方法介绍


尽管当前图像修补系统取得了重大进展,但它们在选择掩码图和填补空洞方面仍然面临困难。基于 SAM,研究者首次尝试无需掩码(Mask-Free)图像修复,并构建了「点击再填充」(Clicking and Filling) 的图像修补新范式,他们将其称为修补一切 (Inpaint Anything)(IA)。IA 背后的核心思想是结合不同模型的优势,以建立一个功能强大且用户友好的图像修复系统


IA 拥有三个主要功能:(i) 移除一切(Remove Anything):用户只需点击一下想要移除的物体,IA 将无痕地移除该物体,实现高效「魔法消除」;(ii) 填补一切(Fill Anything):同时,用户还可以进一步通过文本提示(Text Prompt)告诉 IA 想要在物体内填充什么,IA 随即通过驱动已嵌入的 AIGC(AI-Generated Content)模型(如 Stable Diffusion [2])生成相应的内容填充物体,实现随心「内容创作」;(iii) 替换一切(Replace Anything):用户也可以通过点击选择需要保留的物体对象,并用文本提示告诉 IA 想要把物体的背景替换成什么,即可将物体背景替换为指定内容,实现生动「环境转换」。IA 的整体框架如下图所示:


Inpaint Anything(IA)示意图。用户可以通过单击来选择图像中的任何物体。借助强大的视觉模型,如 SAM [1]、LaMa [3] 和 Stable Diffusion (SD) [3],IA 能够平滑移除选定物体(即 Remove Anything)。进一步地,通过向 IA 输入文本提示,用户可以用任何想要的内容填充物体(即 Fill Anything)或者任意替换对象的物体(即 Replace Anything)。


移除一切


移除一切(Remove Anything)示意图


 「移除一切」步骤如下:


  • 第 1 步:用户点击想要移除的物体;

  • 第 2 步:SAM 将该物体分割出来;

  • 第 3 步:图像修补模型(LaMa)填补该物体。


填补一切


填补一切(Fill Anything)示意图,图中使用的文本提示:a teddy bear on a bench


「填补一切」步骤如下:


  • 第 1 步:用户点击想要移除的物体;

  • 第 2 步:SAM 将该物体分割出来;

  • 第 3 步:用户通过文本示意想要填充的内容;

  • 第 4 步:基于文本提示的图像修补模型(Stable Diffusion)根据用户提供的文本对物体进行填充。


替换一切


替换一切(Replace Anything)示意图,图中使用的文本提示:a man in office


「填补一切」步骤如下:


  • 第 1 步:用户点击想要移除的物体;

  • 第 2 步:SAM 将该物体分割出来;

  • 第 3 步:用户通过文本示意想要替换的背景;

  • 第 4 步:基于文本提示的图像修补模型(Stable Diffusion)根据用户提供的文本对物体的背景进行替换。


模型结果


研究者随后在 COCO 数据集 [4]、LaMa 测试数据集 [3] 和他们自己用手机拍摄的 2K 高清图像上对 Inpaint Anything 进行测试。值得注意的是,研究者的模型还支持 2K 高清图和任意长宽比,这使得 IA 系统在各种集成环境和现有框架中都能够实现高效的迁移应用


移除一切实验结果






填充一切实验结果


文本提示:a camera lens in the hand


文本提示:an aircraft carrier on the sea


文本提示:a sports car on a road


文本提示:a Picasso painting on the wall


替换一切实验结果


文本提示:sit on the swing


文本提示:breakfast


文本提示:a bus, on the center of a country road, summer


文本提示:crossroad in the city


总结


研究者建立这样一个有趣的项目,来展示充分利用现有大型人工智能模型所能获得的强大能力,并揭示「可组合人工智能」(Composable AI)的无限潜力。项目所提出的 Inpaint Anything (IA) 是一种多功能的图像修补系统,融合了物体移除、内容填补、场景替换等功能(更多的功能正在路上敬请期待)。


IA 结合了 SAM、图像修补模型(例如 LaMa)和 AIGC 模型(例如 Stable Diffusion)等视觉基础模型,实现了对用户操作友好的无掩码化图像修复,同时支持「点击删除,提示填充」的等「傻瓜式」人性化操作。此外,IA 还可以处理具有任意长宽比和 2K 高清分辨率的图像,且不受图像原始内容限制。


目前,项目已经完全开源。最后,欢迎大家分享和推广 Inpaint Anything (IA) ,也很期待看见更多基于 IA 所拓展的新项目。未来,研究者将进一步挖掘 Inpaint Anything (IA) 的潜力 以支持更多实用的新功能,如细粒度图像抠图、编辑等,并将其应用到更多现实应用中。


参考文献

[1] Alexander Kirillov, Eric Mintun, Nikhila Ravi, Hanzi Mao,Chloe Rolland, Laura Gustafson, Tete Xiao, Spencer Whitehead, Alexander C Berg, Wan-Yen Lo, et al. Segment anything. arXiv preprint arXiv:2304.02643, 2023.

[2] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern

Recognition, pages 10684–10695, 2022.

[3] Roman Suvorov, Elizaveta Logacheva, Anton Mashikhin, Anastasia Remizova, Arsenii Ashukha, Aleksei Silvestrov, Naejin Kong, Harshith Goka, Kiwoong Park, and Victor Lempitsky. Resolution-robust large mask inpainting with fourier convolutions. In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 2149–2159, 2022.

[4] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Doll´ar, and C Lawrence Zitnick. Microsoft coco: Common objects in context. In Computer Vision–ECCV 2014: 13th European Conference,

Zurich, Switzerland, September 6-12, 2014, Proceedings, Part V 13, pages 740–755. Springer, 2014.


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
​招商基金总经理徐勇:需求、场景、生态——合力构建养老金融发展共同体视频分割大结局!浙大最新发布SAM-Track:通用智能视频分割一键直达CV不存在了?Meta发布"分割一切"AI模型,CV或迎来GPT-3时刻!Meta新模型“分割一切”:抠图完成究极进化,计算机视觉迎来GPT-3时刻分割一切还不够,还要视频跟踪一切,《清明上河图》也能轻松拿下无需精子卵子,科学家成功合成出人类胚胎?!人造宝宝指日可待??SAM分割一切最全论文大盘点我养的文心兰开了 别的兰花还是绿植越野嘉年华倒计时2天 | 商学院越野赛的商业价值:流量、场景、社群妻子连续2天被人骚扰, 澳男发现诡异标记! 看到这个要立刻移除!华人深受其扰网易数读招聘内容编辑、内容、设计和剪辑实习生回国之旅,不沾小便宜分割一切又一力作!北京智源提出通用分割模型SegGPTCPU技术微架构、性能指标、场景、生态链及竞争格局(2023)聊聊辟谷(二)分割一切还不够,还要检测一切、生成一切,SAM二创开始了分割一切后,SAM又能分辨类别了:Meta/UTAustin提出全新开放类分割模型重磅!CV不存在了?CV或迎来GPT-3时刻,Meta发布「分割一切」AI 模型时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023AI分割一切!智源提出通用分割模型SegGPT,「一通百通」的那种一次性分割一切,比SAM更强,华人团队的通用分割模型SEEM来了2023亚城企业家俱乐部新春聚会CV不存在了?Meta发布「分割一切」AI 模型,CV或迎来GPT-3时刻用Meta「分割一切」搞定一切关系,唱跳偷袭效果拔群!NTU等提出全新RAM模型透视服撞衫范 冰冰 杨丞琳肉色内搭衣遭酸「毁了一切」演唱会挨批唱功差、衣服丑 梁咏琪妙答:还有进步空间 王诗龄13岁近照惊艳网友7 Papers & Radios | Meta「分割一切」AI模型;从T5到GPT-4盘点大语言模型Meta「分割一切」超进化版来了!IDEA领衔国内顶尖团队打造:检测、分割、生成一切,狂揽2k星分割一切模型SAM首篇全面综述:28页、200+篇参考文献卷爆CV!46篇分割一切模型(SAM)二创论文大盘点3D版「分割一切」来了!NUS华人团队最新模型,单视图重建3D,又快又准分割一切后,Segment Anything又能分辨类别了:Meta/UTAustin提出全新开放类分割模型比SAM分割一切更全能!华人团队提出SEEM:通用分割新模型分割一切深度图!港科技、南洋理工等开源「SAD」:根据几何信息分割图像炒气球滾阴沟间谍卫星路过炸吗华人团队颠覆CV!SEEM完美分割一切爆火,一键分割「瞬息全宇宙」
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。