Redian新闻
>
Soft Diffusion:谷歌新框架从通用扩散过程中正确调度、学习和采样

Soft Diffusion:谷歌新框架从通用扩散过程中正确调度、学习和采样

公众号新闻

选自arXiv

机器之心编译
编辑:蛋酱

近来,扩散模型成为 AI 领域的研究热点。谷歌研究院和 UT-Austin 的研究者在最新的一项研究中充分考虑了「损坏」过程,并提出了一个用于更通用损坏过程的扩散模型设计框架


我们知道,基于分数的模型和去噪扩散概率模型(DDPM)是两类强大的生成模型,它们通过反转扩散过程来产生样本。这两类模型已经在 Yang Song 等研究者的论文《Score-based generative modeling through stochastic differential equations》中统一到了单一的框架下,并被广泛地称为扩散模型。


目前,扩散模型在包括图像、音频、视频生成以及解决逆问题等一系列应用中取得了巨大的成功。Tero Karras 等研究者在论文《Elucidating the design space of diffusionbased generative models》中对扩散模型的设计空间进行了分析,并确定了 3 个阶段,分别为 i) 选择噪声水平的调度,ii) 选择网络参数化(每个参数化生成一个不同的损失函数),iii) 设计采样算法。


近日,在谷歌研究院和 UT-Austin 合作的一篇 arXiv 论文《Soft Diffusion: Score Matching for General Corruptions》中,几位研究者认为扩散模型仍有一个重要的步骤:损坏(corrupt)。一般来说,损坏是一个添加不同幅度噪声的过程,对于 DDMP 还需要重缩放。虽然有人尝试使用不同的分布来进行扩散,但仍缺乏一个通用的框架。因此,研究者提出了一个用于更通用损坏过程的扩散模型设计框架。


具体地,他们提出了一个名为 Soft Score Matching 的新训练目标和一种新颖的采样方法 Momentum Sampler。理论结果表明,对于满足正则条件的损坏过程,Soft Score MatchIng 能够学习它们的分数(即似然梯度),扩散必须将任何图像转换为具有非零似然的任何图像。


在实验部分,研究者在 CelebA 以及 CIFAR-10 上训练模型,其中在 CelebA 上训练的模型实现了线性扩散模型的 SOTA FID 分数——1.85。同时与使用原版高斯去噪扩散训练的模型相比,研究者训练的模型速度显著更快。



论文地址:https://arxiv.org/pdf/2209.05442.pdf


方法概览


通常来说,扩散模型通过反转逐渐增加噪声的损坏过程来生成图像。研究者展示了如何学习对涉及线性确定性退化和随机加性噪声的扩散进行反转。



具体地,研究者展示了使用更通用损坏模型训练扩散模型的框架,包含有三个部分,分别为新的训练目标 Soft Score Matching、新颖采样方法 Momentum Sampler 和损坏机制的调度。


首先来看训练目标 Soft Score Matching,这个名字的灵感来自于软过滤,是一种摄影术语,指的是去除精细细节的过滤器。它以一种可证明的方式学习常规线性损坏过程的分数,还在网络中合并入了过滤过程,并训练模型来预测损坏后与扩散观察相匹配的图像。


只要扩散将非零概率指定为任何干净、损坏的图像对,则该训练目标可以证明学习到了分数。另外,当损坏中存在加性噪声时,这一条件总是可以得到满足。


具体地,研究者探究了如下形式的损坏过程。



在过程中,研究者发现噪声在实证(即更好的结果)和理论(即为了学习分数)这两方面都很重要。这也成为了其与反转确定性损坏的并发工作 Cold Diffusion 的关键区别。


其次是采样方法 Momentum Sampling。研究者证明,采样器的选择对生成样本质量具有显著影响。他们提出了 Momentum Sampler,用于反转通用线性损坏过程。该采样器使用了不同扩散水平的损坏的凸组合,并受到了优化中动量方法的启发。


这一采样方法受到了上文 Yang Song 等人论文提出的扩散模型连续公式化的启发。Momentum Sampler 的算法如下所示。



下图直观展示了不同采样方法对生成样本质量的影响。图左使用 Naive Sampler 采样的图像似乎有重复且缺少细节,而图右 Momentum Sampler 显著提升了采样质量和 FID 分数。



最后是调度。即使退化的类型是预定义的(如模糊),决定在每个扩散步骤中损坏多少并非易事。研究者提出一个原则性工具来指导损坏过程的设计。为了找到调度,他们将沿路径分布之间的 Wasserstein 距离最小化。直观地讲,研究者希望从完全损坏的分布平稳过渡到干净的分布。


实验结果


研究者在 CelebA-64 和 CIFAR-10 上评估了提出的方法,这两个数据集都是图像生成的标准基线。实验的主要目的是了解损坏类型的作用。


研究者首先尝试使用模糊和低幅噪声进行损坏。结果表明,他们提出的模型在 CelebA 上实现了 SOTA 结果,即 FID 分数为 1.85,超越了所有其他仅添加噪声以及可能重缩放图像的方法。此外在 CIFAR-10 上获得的 FID 分数为 4.64,虽未达到 SOTA 但也具有竞争力。



此外,在 CIFAR-10 和 CelebA 数据集上,研究者的方法在另一项指标采样时间上也表现更好。另一个额外的好处是具有显著的计算优势。与图像生成去噪方法相比,去模糊(几乎没有噪声)似乎是一种更有效的操纵。


下图展示了 FID 分数如何随着函数评估数量(Number of Function Evaluations, NFE)而变。从结果可以看到,在 CIFAR-10 和 CelebA 数据集上,研究者的模型可以使用明显更少的步骤来获得与标准高斯去噪扩散模型相同或更好的质量。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
To谷歌新人:这里不是家,先别进!SCI淘汰机制曝光…妙啊!用扩散模型生成蛋白质结构,结果不输天然蛋白质|来自斯坦福&微软只会用 xxl-job?更强大的新一代分布式任务调度框架来了!大一统视角理解扩散模型Understanding Diffusion Models: A Unified PerspectiveUSB发展简史:从“通用”走向通用深度解读 | 机器学习和深度学习的区别到底是什么?Stable Diffusion、DreamFusion、Make-A-Video、Imagen Video 和下一步“美元升值过程中,正在发生某种奇怪的事情”TPUv4开放使用!谷歌新一代TPU性价比有多高?Stable Diffusion采样速度翻倍!仅需10到25步的扩散模型采样算法如何在面试过程中获得反馈扩散模型再下一城!AR-LDM:用扩散模型合成连贯视觉故事!输入字幕就能脑补画面,代词ta都分得清斯坦福/谷歌大脑:两次蒸馏,引导扩散模型采样提速256倍!别做让人鄙视,天天活在欺骗中的人恭喜DBC职梦USC学员斩获高盛 (US) Full Time Offer!美国最大互联网隐私和解案:谷歌赔偿$3.915亿了结40州指控 新泽西获赔$1700万卷!用扩散模型合成连贯视觉故事,输入字幕就能脑补画面,代词ta都分得清斯坦福、微软联手,用扩散模型进行蛋白质结构生成,已开源MICCAI 2022 | 基于对比学习和视觉Transformer的弱监督视频肠息肉检测惊险!一架从旧金山起飞的航班遭亚裔乘客“炸弹威胁”!F-16战斗机紧急护航!30亿跑赢GPT-3的1750亿,谷歌新模型引热议,然而却把Hinton年龄搞错了让多个模型达成迭代共识,MIT &谷歌新方法激发模型「群体智慧」常见骨关节疾病的中英文对照采样提速256倍,蒸馏扩散模型生成图像质量媲美教师模型,只需4步NeurIPS 2022 | Stable Diffusion采样速度翻倍!清华提出扩散模型高效求解器科技爱好者周刊(第226期):谷歌出了什么问题?在过程中努力,在结果上奖励谷歌新作Imagic:扩散模型只用文字就能PS照片了!网友:效果太震撼...类数值方法PNDM:Stable Diffusion默认加速采样方案买房风波 (1)长江策略包承超:尝试统一盈利与估值的新框架【庭院种菜】扒一扒网红肥料: 浴盐解放台湾反攻大陆都为中国睾丸仅需10%参数量即超越SOTA!浙大、字节、港中文联合提出「类别级位姿估计」任务新框架|CoRL2022
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。