Redian新闻
>
简单有效!Direct Inversion: 三行代码提升基于Diffusion的图像编辑效果

简单有效!Direct Inversion: 三行代码提升基于Diffusion的图像编辑效果

公众号新闻




导读 

本文介绍了由香港中文大学和粤港澳大湾区数字经济院联合提出的基于 Diffusion 的 Inversion 方法 Direct Inversion,可以在现有编辑算法上即插即用,无痛提点。
现有主流编辑算法大多为双分支结构,一个分支主要负责编辑,另一个分支则负责重要信息保留,Direct Inversion 可以完成(1)对两分支解耦(2)使两分支分别发挥最大效能,因此可以大幅提升现有算法的编辑效果。
同时,为了更加公平公正的进行基于 text 的编辑效果对比,这篇文章提出了 PIE-Bench,一个包含 700 张图片和 10 个编辑类别的“图片-编辑指令-编辑区域”数据集,并提供一系列包含结构保留性、背景保留性、编辑结果与编辑指令一致性、编辑时间四个方面的评测指标。
数值结果和可视化结果共同展示了 Direct Inversion 的优越性。

项目主页:
https://idea-research.github.io/DirectInversion/

论文链接:

https://arxiv.org/abs/2310.01506
https://readpaper.com/paper/4807149696887816193

代码地址:

https://github.com/cure-lab/DirectInversion

PIE-Bench申请:

https://docs.google.com/forms/d/e/1FAIpQLSftGgDwLLMwrad9pX3Odbnd4UXGvcRuXDkRp6BT1nPk8fcH_g/viewform

视频链接:

https://drive.google.com/file/d/1HGr4ETPa7w-08KKOMhfxhngzQ9Y9Nj4H/view




这篇论文是如何发现过往方法问题,并找到新解决方案的呢?


基于 Diffusion 的编辑在近两年来一直是文生图领域的研究重点,也有无数文章从各个角度(比如效果较好的在 Stable Diffusion 的 Attention Map 上特征融合)对其进行研究,作者在文章中进行了一个比较全面的相关方法 review,并把这些方法从重要信息保留”和“编辑信息添加两个方面分别进行了四分类,具体可以参见原文,此处不再赘述。


这里提到了一个编辑的重点,也就是“重要信息保留”和“编辑信息添加”。事实上,这两个要点正是编辑所需要完成的两个任务,比如把图 1 的猫变成狗,那红色的背景和猫的位置需要保留,这就是“重要信息保留”;同时编辑要完成“变成狗”的任务,这就是“编辑信息添加”。


为了完成这两个任务,最为直觉,也是使用最多的方式就是:使用两个分支来完成这两件事,一个用来保留信息,一个用来添加信息。之前的编辑算法大多可以划分出这两个分支,但可能隐含在模型中或者没有显式割离,也正是在这篇文章中,作者将两个概念划分清楚并给出了过往方法的分类。


到现在为止,已经弄清楚了编辑的两个分支及其各自作用,但编辑不仅仅只需要这两个分支,还需要重要的一步,也就是 Inversion。

▲ 图1 基于 Diffusion 的编辑算法总结


我们都知道,Diffusion 是一个把噪声映射到有用信息(比如图片)的过程,但 Diffusion 到噪声的过程是单向的,它并不可逆,不能直接像 VAE 一样直接把有用信息再映射回到隐空间,即,可以根据一个噪声得到图片,但不能根据一张图片得到“可以得到这张图片的噪声”,但这个噪声又在编辑中非常重要,因为它是双分支的起点。


所以大部分人就采用了一种近似的方法,即 DDIM Inversion,它能够将图片映射到噪声,但从这个噪声得到的新图片就会稍微偏离原图片一点(如图 DDIM Inversion 上标注的 distance),其实如果不给模型文本控制条件,偏离还不太严重,但当文本的控制加强时,偏离就会逐渐不可接受。


因此,一系列的 Inversion 方法被提出用来修正这一偏差,比如著名的基于优化的 Null-Text Inversion,而在无数方法进行尝试和探索之后,大家似乎得到了一个 common sense:好的偏离修正必须要包含优化过程。所以这篇文章就更加深入的探索了一下基于优化的 inversion(或者说修正)到底在做什么。




这些方法在优化什么?优化真的必要吗?

基于优化的 Inversion 方法通常使用一个模型输入变量(如 Null Text)存储刚刚提到的偏差,而这一偏差则作为优化过程中的 loss,通过梯度下降来拟合变量。因此优化的过程本质上就是把一个高精度的偏差存储在了一个低精度的变量中(该变量的数值精度相对 noise latent 更不敏感)。


但这种做法是存在问题的:
1. 优化相当于在推导过程中训练,非常消耗时间,比如 Null-Text Inversion 通常需要两三分钟编辑一张图片;
2. 优化存在误差,因此不能完全消除“偏差”,如图 2 Null-Text Inversion/StyleDiffusion 中画出的,保留分支与原始 inversion 分支之间的偏差只是被缩小并没有被消除,这就使得重要信息的保护没有发挥到最大限度;

3. 优化得到的变量其实在 Diffusion 模型训练过程中并未出现过,因此相当于进行了强制赋值,会影响模型输入和模型参数之间数据分布的协调。


回到上文提到的双分支编辑,之前的方法训练好优化的变量之后,就会将其同时送入到编辑分支和保留分支(其实不仅仅是基于优化的方法,非基于优化的方法也没有将两分支解耦),根据上面的分析,其实可以发现一个很简单的改进策略:将可编辑分支和保留分支解耦,使两个分支充分发挥各自效能。

▲ 图2 各类 Inversion 方法对比




Direct Inversion


这篇文章通过解耦编辑分支和保留分支,仅用三行代码就能够大幅提升现有编辑算法效果(如图 3 中伪代码),具体做法非常简单,即:将保留分支加回到原始 DDIM Inversion 路径,而保持编辑分支不被影响。

▲ 图3 伪代码




PIE-Bench


尽管基于 Diffusion 的编辑在近几年引起了广泛关注,但各类编辑方法的评估主要依赖于主观且不确定性的可视化。因此这篇文章为了系统验证所提出的 Direct Inversion,并对比过往 Inversion 方法,以及弥补编辑领域的性能标准缺失,构建了一个基准数据集,名为PIE-Bench(Prompt-based Image Editing Benchmark)。
PIE-Bench 包括 700 张图像,涵盖了 10 种不同的编辑类型。这些图像均匀分布在自然和人工场景(例如绘画作品)中,分为四个类别:动物、人物、室内和室外。PIE-Bench 中的每张图像都包括五个注释:源图像提示语句、目标图像提示语句、编辑指令、主要编辑部分和编辑掩码。值得注意的是,编辑掩码注释(即使用一个 mask 指示预期的编辑区域)在准确的指标计算中至关重要,因为期望编辑仅发生在指定的区域内。

▲ 图4 PIE-Bench




实验效果


6.1 数值结果


在各个编辑算法上对比不同 Inversion 和 Direct Inversion 算法效果:
▲ Direct Inversion 在多种编辑方法上对比其他 inversion 方法的效果。编辑方法:Prompt-to-Prompt(P2P), MasaCtrl, Pix2Pix-Zero(P2P-Zero), Plug-and-Play(PnP), Inversion方法:DDIM Inversion(DDIM), Null-Text Inversion(NT), Negative-Prompt Inversion(NP), StyleDiffusion(SD)

各类 Inversion 算法运行时间对比:

▲ 运行时间对比

6.2 可视化对比

▲ 图5 Direct Inversion 与四种基于 Diffusion 的编辑方法结合后在各种编辑类别(从上到下依次为:风格转移、物体替换和颜色变更)上的性能提升,每组结果第一列为未加 Direct Inversion,第二列为添加 Direct Inversion

▲ 图6 不同 inversion 和编辑技术的可视化结果


更多可视化和消融实验结果可以参考原论文。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
NeurIPS 2023 | 扩散模型再发力!微软提出TextDiffuser:图像生成的文字部分也能搞定!Nature:基于人工智能的开源软件,正在标准化显微镜生成数据的图像格式视觉新任务!ReVersion:图像生成中的Relation定制化LLM生成延迟降低50%!DeepSpeed团队发布FastGen:动态SplitFuse技术,提升2.3倍有效吞吐量北大硕士RLHF实践,基于DeepSpeed-Chat成功训练上自己的模型nǚ hóng?nǚ gōng红色日记 9.1-10Adv. Funct. Mater.:提高基于单层分子修饰的宽带隙钙钛矿太阳能电池效率宏利基金高贵鑫:提升基金业务人民性,助力金融高质量发展娃专注力提升神器,世界公认简单、有效!观看破2.8w!九院眼科X医学界,助力提升基层眼健康服务能力!LM-Infinite: 一种简单有效的大模型即时长度泛化,解决更长文本推理问题一行代码提高大模型10%性能,开发者:免费午餐ReVersion|图像生成中的 Relation 定制化投资性价比最高选择,自住投资两相宜--多家庭别墅推荐--Everett/Boston/RevereRains Revive Poyang Lake, Offering Hope After Record Dry Season劳柯| 我的一天 (08/19/23,星期六)投资性价比最高选择,自住投资两相宜--多家庭别墅推荐--Somerville/Revere/Boston/Everett“变态辣”,英文只会说 very very very very hot?NeurIPS 2023 | 无惧图像中的文字,TextDiffuser提供更高质量文本渲染简单有效!Direct Inversion:三行代码提升基于扩散的图像编辑效果奥博资本支持,新锐A轮融资8500万美元,开发基于DNA的新型药物无惧图像中的文字,TextDiffuser提供更高质量文本渲染NeurIPS 2023 Spotlight|高质量多视角图像生成,完美复刻场景材质!SFU等提出MVDiffusionR1 of Jiangxi; Shu of Mt. Village w/ 14-YO gap of Wyy只改了五行代码接口吞吐量提升了 10 多倍「专题速递」JPEG AI、端到端图像编码的标准化及产品落地、深度学习OpenAI前CEO计划推出新的AI企业,前总裁预计加入其中;Meta展示全新AI图像编辑工具丨AIGC日报养命先养肾!冬季是养肾的“黄金期”,六个方法简单有效医药代表的故事 25 坝上草原支持二次编辑、导入虚拟引擎5,Stable Diffusion进化出3D生成功能14岁儿子从严重叛逆变成努力少年:我做对了3件事,方法简单有效person的复数能不能写成persons?[我最初的人生记忆]SoftBank’s struggles point to a tech investing hangover
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。