Redian新闻
>
单张图片引导,保留主体,风格百变,VCT帮你轻松实现

单张图片引导,保留主体,风格百变,VCT帮你轻松实现

公众号新闻
机器之心专栏
机器之心编辑部


近年来,图像生成技术取得了很多关键性突破。特别是自从 DALLE2、Stable Diffusion 等大模型发布以来,文本生成图像技术逐渐成熟,高质量的图像生成有了广阔的实用场景。然而,对于已有图片的细化编辑依旧是一个难题。


一方面,由于文本描述的局限性,现有的高质量文生图模型,只能利用文本对图片进行描述性的编辑,而对于某些具体效果,文本是难以描述的;另一方面,在实际应用场景中,图像细化编辑任务往往只有少量的参考图片,这让很多需要大量数据进行训练的方案,在少量数据,特别是只有一张参考图像的情况下,难以发挥作用。


最近,来自网易互娱 AI Lab 的研究人员提出了一种基于单张图像引导的图像到图像编辑方案,给定单张参考图像,即可把参考图中的物体或风格迁移到源图像,同时不改变源图像的整体结构。研究论文已被 ICCV 2023 接收,相关代码已开源。


  • 论文地址:https://arxiv.org/abs/2307.14352

  • 代码地址:https://github.com/CrystalNeuro/visual-concept-translator


让我们先来看一组图,感受一下它的效果。


论文效果图:每组图片左上角是源图,左下角是参考图,右侧是生成结果图


主体框架


论文作者提出了一种基于反演-融合(Inversion-Fusion)的图像编辑框架 ——VCT(visual concept translator,视觉概念转换器)。如下图所示,VCT 的整体框架包括两个过程:内容-概念反演过程(Content-concept Inversion)和内容-概念融合过程(Content-concept Fusion)。内容 - 概念反演过程通过两种不同的反演算法,分别学习和表示原图像的结构信息和参考图像的语义信息的隐向量;内容-概念融合过程则将结构信息和语义信息的隐向量进行融合,生成最后的结果。


论文主体框架


值得一提的是,反演方法是近年来,特别是在生成对抗网络(GAN)领域,广泛应用且在众多图像生成任务上取得突出效果的一项技术1。GAN Inversion 技术将一张图片映射到与训练的 GAN 生成器的隐空间中,通过对隐空间的控制来实现编辑的目的。反演方案可以充分利用预训练生成模型的生成能力。本研究实际上是将 GAN Inversion 技术迁移到了以扩散模型为先验的,基于图像引导的图像编辑任务上。


反演技【1】


方法介绍


基于反演的思路,VCT 设计了一个双分支的扩散过程,其包含一个内容重建的分支 B* 和一个用于编辑的主分支 B。它们从同一个从 DDIM 反演(DDIM Inversion

【2】,一种利用扩散模型从图像计算噪声的算法)获得的噪声 xT 出发,分别用于内容重建和内容编辑。论文采用的预训练模型为隐向量扩散模型(Latent Diffusion Models,简称 LDM),扩散过程发生在隐向量空间 z 空间中,双分支过程可表示为:



双分支扩散过程


内容重建分支 B* 学习 T 个内容特征向量 ,用于还原原图的结构信息,并通过软注意力控制(soft attention control)的方案,将结构信息传递给编辑主分支 B。软注意力控制方案借鉴了谷歌的 prompt2prompt【3】工作,公式为:



即当扩散模型运行步数在一定区间时,将编辑主分支的注意力特征图替换内容重建分支的特征图,实现对生成图片的结构控制。编辑主分支 B 则融合从原图像学习的内容特征向量  和从参考图像学习的概念特征向量 ,生成编辑的图片。


噪声空间 ( 空间) 融合


在扩散模型的每一步,特征向量的融合都发生在噪声空间空间,是特征向量输入扩散模型之后预测的噪声的加权。内容重建分支的特征混合发生在内容特征向量和空文本向量上,与免分类器(Classifier-free)扩散引导【4】的形式一致:



编辑主分支的混合是内容特征向量  和概念特征向量  的混合,为



至此,研究的关键在于如何从单张源图片获取结构信息的特征向量,和从单张参考图片获取概念信息的特征向量 。文章分别通过两个不同的反演方案实现这一目的。


为了复原源图片,文章参考 NULL-text【5】优化的方案,学习 T 个阶段的特征向量去匹配拟合源图像。但与 NULL-text 优化空文本向量去拟合 DDIM 路径不同的是,本文通过优化源图片特征向量,去直接拟合估计的干净特征向量,拟合公式为:




与学习结构信息不同的是,参考图像中的概念信息需要用单一高度概括的特征向量来表示,扩散模型的 T 个阶段共用一个概念特征向量  。文章优化了现有的反演方案 Textual Inversion【6】和 DreamArtist【7】。其采用一个多概念特征向量来表示参考图像的内容,损失函数包含一项扩散模型的噪声预估项和在隐向量空间的预估重建损失项:



实验结果


文章在主体替换和风格化任务上进行了实验,可以在较好地保持源图片的结构信息的情况下,将内容变成参考图片的主体或风格。


论文实验效果


文章提出的 VCT 框架相较于以往的方案有以下优势:


(1)应用泛化性:与以往的基于图像引导的图像编辑任务相比,VCT 不需要大量的数据进行训练,且生成质量和泛化性更好。其基于反演的思路,以在开放世界数据预训练好的高质量文生图模型为基础,实际应用时,只需要一张输入图和一张参考图就可以完成较好的图片编辑效果。


(2)视觉准确性:相较于近期文字编辑图像的方案,VCT 利用图片进行参考引导。图片参考相比于文字描述,可以更加准确地实现对图片的编辑。下图展示了 VCT 与其它方案的对比结果:


主体替换任务对比效果


风格迁移任务对比效果


(3)不需要额外信息:相较于近期的一些需要添加额外控制信息(如:遮罩图或深度图)等方案来进行引导控制的方案,VCT 直接从源图像和参考图像学习结构信息和语义信息来进行融合生成,下图是一些对比结果。其中,Paint-by-example 通过提供一个源图像的遮罩图,来将对应的物体换成参考图的物体;Controlnet 通过线稿图、深度图等控制生成的结果;而 VCT 则直接从源图像和参考图像,学习结构信息和内容信息融合成目标图像,不需要额外的限制。


基于图像引导的图像编辑方案的对比效果



网易互娱 AI Lab


网易互娱 AI Lab 成立于 2017 年,隶属于网易互动娱乐事业群,是游戏行业领先的人工智能实验室。实验室致力于计算机视觉、语音和自然语言处理,以及强化学习等技术在游戏场景下的的研究和应用,旨在通过 AI 技术助力互娱旗下热门游戏及产品的技术升级,目前技术已应用于网易互娱旗下多款热门游戏,如《梦幻西游》、《哈利波特:魔法觉醒》、《阴阳师》、《大话西游》等等。


【1】Xia W, Zhang Y, Yang Y, et al. Gan inversion: A survey [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 45 (3): 3121-3138.

【2】 Song J, Meng C, Ermon S. Denoising Diffusion Implicit Models [C]//International Conference on Learning Representations. 2020.

【3】Hertz A, Mokady R, Tenenbaum J, et al. Prompt-to-Prompt Image Editing with Cross-Attention Control [C]//The Eleventh International Conference on Learning Representations. 2022.

【4】Jonathan Ho and Tim Salimans. Classifier-free diffusion guidance. In NeurIPS 2021 Workshop on Deep Generative Models and Downstream Applications

【5】Mokady R, Hertz A, Aberman K, et al. Null-text inversion for editing real images using guided diffusion models [C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 6038-6047.

【6】Rinon Gal, Yuval Alaluf, Yuval Atzmon, Or Patash nik, Amit H Bermano, Gal Chechik, and Daniel Cohen Or. An image is worth one word: Personalizing text-to image generation using textual inversion. arXiv preprint arXiv:2208.01618, 2022

【7】Ziyi Dong, Pengxu Wei, and Liang Lin. Drea martist: Towards controllable one-shot text-to-image gen eration via contrastive prompt-tuning. arXiv preprintarXiv:2211.11337, 2022


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
湿疹和痱子分不清?这招教你轻松辨别VCE化学 | 金属活跃性Reactivity of metal的置换反应Displacement reaction的知识点讲解午夜惊魂 冷明《国脉》&《千里共婵娟》AI自主造芯,GPT-4轻松实现赵丽颖突然官宣喜讯!全网炸了:10年了图片图片图片我们公开吧……山西百变,大同千面。山西大同城市文旅宣传片来喽![资源] 出国自由行神书《带英语去旅行》,带你轻松出游科技思变,2023广汽科技日描绘移动生活百变蓝图用了天然艾草熏香,蚊虫不见了,淡淡馨香,还能伴你轻松入眠~多个IPO项目“一查就撤”,遇到现场督导,保荐机构应该怎么做?夜醒多、哄睡难?做好这个引导,让娃一觉睡到天亮3D AI生成出新玩法了:无需数小时,只要45秒,单张图片即可生成 3D模型一周快讯丨安徽省新一代信息技术产业主题基金招GP;扬子江产业引导母基金招GP;招商资本与徐州交控集团联合发起设立产业引导基金免费试听|核心技能+实操项目+真题实训,帮你轻松获取求职竞争优势!刚刚!北京再放宽落户出境时长!留学生轻松实现“拎包入户”千万人围观「烧焦婴儿」图片!伯克利教授辟谣:AI图片检测器无用【最新】上海乐高乐园度假区主体设计已基本完成,将于下月全面启动主体工程建设「单张图像重建3D网格」告别卡顿,从30分钟提速到45秒!浙大、加州大学等联合发布One-2-3-45:在线Demo可试玩赛博朋克剃须刀,风格硬朗潮酷、剃须精准利落,七夕送他刚刚好|推广UC网申填写攻略,求真教你轻松完成申请团|快速打通计算任督二脉,我用这个轻松实现!【老键曲库】Daniel Lozakovich – Tchaikovsky: Six Pieces, Op. 51, TH 14在线招募影视后期人员零基础免费学,紧跟热门让你轻松成为大神!DIY你的迷你世界,百变街景积木,精致立体,超多造型可选5097 血壮山河之武汉会战 浴血田家镇 5这款400多年的老国货杀疯了:夏季只要每天用它涂一涂皮肤,助你轻松养成清爽“水润肌”,油痘肌必备轻松实现荔枝自由,人少景美还便宜,这座海滨老城究竟是什么神仙城市?!电子签开通!离中国最近的欧洲小城,遍地俊男美女,物价比国内低,不仅千元就可穷游,还能轻松实现帝王蟹自由!职场高情商课,小白轻松实现逆袭硅谷的亚洲菜——Mizu Sushi Bar & Grill ,保留了亚洲风味,还是已经美国化?在野猪笼落下那一刻想到的留学干货 | 文献资料查找指南,让你轻松成为学术达人!正忙着为开学做准备?RBC留学生优惠,帮你轻松搞定开学季!【26日投票-市长Furey菲瑞】与交通拥堵抗争,保留Gardiner大道,停止自行车道建设 -市长候选人Furey安东尼•菲利
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。