读了14篇论文,终于会拿捏Diffusion了
卷友们好,我是中森。
扩散模型自2020年的DDPM以来,以其种种优异的特性(如训练简便,对数据分布拟合效果极好,本身的构造体系使得性质调控更加优雅直接等),在两年来横扫整个学术界,甚至出圈引起了广泛的大众讨论。每一天都会有新的文章新的方法被提出,但因为领域发展得实在太快,这些文章往往基于不同阶段的扩散模型成果添砖加瓦,使得其在短至发表几个月后就已落伍或只有参考意义。
如果对整个扩散领域发展的脉络没有大致的认识,往往在阅读论文时无法评判其方案对于目前所使用的文生图模型的可迁移性或可复现性。今天这篇文章笔者将以时间顺序和技术体系的更迭顺序简单地梳理一遍过去两年来使用扩散模型进行受控图像生成方法的发展。以为未来更好地开展工作打好基础。
(预警,接下来会解读14篇论文)
具体来说,文章分三大部分:
第一部分是DDPM时代的图像编辑。因为还没有任何的引导生成技术的出现,这一阶段的论文都属于利用输入图像引导生成的范式。
第二部分是在显式分类器引导生成技术出现后,基于CLIP模型的多模态引导生成技术的调研。
第三部分是最近(2022.11)一两个月基于Stable-Diffusion/Imagen等一系列模型所产生的图像编辑技术的调研。
P.S. 本文主要针对不同的受控生成方法提供一个简要介绍和直观理解,可能不会涉及太多的公式推导和具体实现细节,只从宏观角度描述。具体的一些相关数理推导感兴趣的可以参考笔者放在最尾的一些笔记链接,细节可以参照原文。
今天我们见到的大部分爆款的应用,调控生成的app,或者初创产品的原型都可以在下面这些论文里找到影子,笔者也在做相关调控的实验时在不同论文里汲取了很多养分,但本篇笔记将不会对此展开讨论。如果有兴趣一起探讨技术细节或者合作科研的小伙伴可以通过文末的联系方式私信,或者在知乎搜索用户中森联系笔者。
1
『扩散模型极简回顾』
1
『扩散模型极简回顾』
以下是DDPM扩散模型的极简回顾,具体的推导可以参考笔记[1]。
2
『基于迭代去噪过程的图像编辑』
2
『基于迭代去噪过程的图像编辑』
IVLR:Conditioning Method for Denoising Diffusion Probabilistic Models
SDEdit: Guided Image Synthesis and Editing with Stochastic Differential Equations
RePaint: Inpainting using Denoising Diffusion Probabilistic Models
3
『基于显式分类器的图像引导生成』
3
『基于显式分类器的图像引导生成』
Diffusion Models Beat GANs on Image Synthesis
4
『基于CLIP模型的多模态图像引导生成』
4
『基于CLIP模型的多模态图像引导生成』
More Control for Free! Image Synthesis with Semantic Diffusion Guidance
Blended Diffusion for Text-driven Editing of Natural Images
DiffusionCLIP: Text-Guided Diffusion Models for Robust Image Manipulation
Diffusion Models Already Have a Semantic Latent Space
5
『基于隐式分类器的文生图大模型』
5
『基于隐式分类器的文生图大模型』
Classifier-Free Diffusion Guidance
6
『在隐式分类器上引导生成过程中的调控生成』
6
『在隐式分类器上引导生成过程中的调控生成』
Imagic: Text-Based Real Image Editing with Diffusion Models
UniTune: Text-Driven Image Editing by Fine Tuning an Image Generation Model on a Single Image
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
DiffEdit: Diffusion-based Semantic Image Editing with Mask Guidance
Prompt-to-Prompt Image Editing with Cross-Attention Control
7
『总结』
7
『总结』
扩散模型背后的数学:https://zhuanlan.zhihu.com/p/558937247 DDIM如何加速采样和进行确定性采样:https://zhuanlan.zhihu.com/p/578948889 扩散模型与能量模型,随机微分方程和常微分方程的关系:https://zhuanlan.zhihu.com/p/576779879 扩散模型里的显式和隐式分类器引导生成:https://zhuanlan.zhihu.com/p/582880086 扩散模型在文本生成里的应用:https://zhuanlan.zhihu.com/p/561233665 Stable-Diffusion和其背后的相关论文详解:https://zhuanlan.zhihu.com/p/572156692
扫描二维码添加小助手微信
关于我们
微信扫码关注该文公众号作者