Redian新闻
>
生成扩散模型漫谈:W距离 ≤ 得分匹配

生成扩散模型漫谈:W距离 ≤ 得分匹配

科技

©PaperWeekly 原创 · 作者 | 苏剑林

单位 | 追一科技

研究方向 | NLP、神经网络



Wasserstein 距离(下面简称“W距离”),是基于最优传输思想来度量两个概率分布差异程度的距离函数,笔者之前在《从Wasserstein距离、对偶理论到WGAN》等文章中也做过介绍。


对于很多读者来说,第一次听说 W 距离,是因为 2017 年出世的 WGAN [1],它开创了从最优传输视角来理解 GAN 的新分支,也提高了最优传输理论在机器学习中的地位。很长一段时间以来,GAN [2] 都是生成模型领域的“主力军”,直到最近这两年扩散模型异军突起,GAN 的风头才有所下降,但其本身仍不失为一个强大的生成模型。

从形式上来看,扩散模型和 GAN 差异很明显,所以其研究一直都相对独立。不过,去年底的一篇论文《Score-based Generative Modeling Secretly Minimizes the Wasserstein Distance》[3] 打破了这个隔阂:它证明了扩散模型的得分匹配损失可以写成 W 距离的上界形式。这意味着在某种程度上,最小化扩散模型的损失函数,实则跟 WGAN 一样,都是在最小化两个分布的 W 距离。




结论分析
具体来说,原论文的结果,是针对《生成扩散模型漫谈:一般框架之SDE篇》中介绍的 SDE 式扩散模型的,其核心结论是不等式(其中 的非负函数,具体含义我们后来再详细介绍)

那么怎样理解这个不等式呢?首先,扩散模型可以理解为 SDE 从 的一个运动过程,最右边的 时刻的随机采样分布, 通常就是标准正态分布,而实际应用中一般都有 ,所以 ,原论文之所以显式写出它,只是为了从理论上给出最一般的结果。
接着,左边的 ,是从 采样的随机点出发,经反向 SDE
求解得到的 时刻的值的分布,它实际上就是要生成的数据分布;而 ,则是从 采样的随机点出发,经过 SDE
求解得到的 时刻的值的分布,其中 的神经网络近似,所以 实际就是扩散模型生成的数据分布。因此, 的含义就是数据分布与生成分布的 W 距离。
最后,剩下的积分项,其关键部分是
这也正好是扩散模型的“得分匹配”损失。所以,当我们用得分匹配损失去训练扩散模型的时候,其实也间接地最小化了数据分布与生成分布的 距离。跟 WGAN 不同的是,WGAN 优化的 距离是 而这里是
注:准确来说,式(4)还不是扩散模型的损失函数,扩散模型的损失函数应该是“条件得分匹配”,它跟得分匹配的关系是:
最后的结果才是扩散模型的损失函数“条件得分匹配”。第一个等号是因为恒等式 ,第二个不等号则是因为平方平均不等式的推广或者詹森不等式,第三个等号则是贝叶斯公式了。也就是说,条件得分匹配是得分匹配的上界,所以也是 距离的上界。
从式(1)中我们也可以简单理解为什么扩散模型的目标函数要舍去模长前面的系数了,因为 距离是概率分布的良好度量,而式(1)右端的 是关于 的单调递增函数,这意味着我们要适当加大当 较小时的得分匹配损失。而在《生成扩散模型漫谈:一般框架之SDE篇》我们推导过得到匹配的最终形式为:

舍去系数 等价于乘以 ,而 也是 的单调递增函数。也就是说,可以简单地认为舍去系数是让训练目标更加接近两个分布的 距离。



准备工作

尽管原论文给出了不等式(1)的证明过程,但涉及到较多的最优传输相关知识,如连续性方程、梯度流等,特别是它不加证明引用的一个定理,还是放在一本梯度流专著的第 8 章或另一本最优传输专著的第 5 章,这对笔者来说阅读难度实在太大。

经过一段时间的尝试,笔者终于在上周笔者完成了自己关于不等式(1)的(一部分)证明,其中只需要用到 W 距离的定义、微分方程基础以及柯西不等式,相比原论文的证明理解难度应该是明显降低了。经过几天的修改完善,给出如下的证明过程。

在开始证明之前,我们先做一下准备,先整理一下接下来会用到的一些基本概念和结论。首先是 W 距离,它定义为

其中 是指所有以 为边缘分布的联合概率密度函数,它描述了具体的传输方案。本文只考虑 ,因为只有这种情形方便后续推导。注意到 距离的定义包含了下确界运算 ,这就意味着对于任意我们能写出的 ,都有

这是笔者所给证明的核心思想。证明过程的放缩,主要用到柯西不等式:
证明过程中我们会假设函数 满足“单侧 Lipschitz 约束”,其定义为

可以证明它比常见的 Lipschitz 约束(参考深度学习中的 Lipschitz 约束:泛化与生成模型)更弱,即如果函数 满足 Lipschitz 约束,那么它一定满足单侧 Lipschitz 约束。



牛刀小试
不等式(1)过于一般了,一上来就试图分析一般化的结果并不利于我们的思考和理解。所以,我们先将问题简化一下,看能不能先证明一个稍弱一些的结果。怎么简化呢?首先,不等式(1)考虑了初始分布(提示,扩散模型是 的演化过程,所以 是初始时刻, 是终止时刻)的差异,而这里我们先考虑相同初始分布;此外,原本的反向方程(2)是一个 SDE,这里先考虑确定性的 ODE。
具体来说,我们考虑从同一个分布 出发采样 作为 时刻的初始值,然后分别沿着两个不同的 ODE

进行演化,设 时刻 的分布为 的分布为 ,我们尝试去估计 的一个上界。
我们知道, 都是以 为初始值通过各自的 ODE 演化而来,所以它们其实都是 的确定性函数,更准确的记号应该是 ,简单起见我们才略去了 。这就意味着对应于同一个 构成了 的样本之间的一个对应关系(传输方案),如下图(这个图不大好画,就随便手画了一下):

▲ 近似最优传输方案示意图

于是根据式(8),我们可以写出
下面我们对 进行放缩。为了将它跟 联系起来,我们对它求导:

其中第一个不等号用到了柯西不等式的向量版,以及单侧 Lipschitz 约束假设(10),第二个不等号则用到了柯西不等式的期望版, 的意思是最终得到的不等关系,不管取+还是-都是成立的,下面的推导只用到了-这一侧。结合 ,我们得到

用常数变易法,设 ,代入上式得到
两边在 积分,并结合 (初始时刻两个分布相等,距离为 0),得到
于是
其中 。根据式(12),这也是 的上界。最后,由于求期望的式子只是 的函数, 又是 的确定性函数,对于它关于 的期望等价于直接关于 的期望,于是:


一鼓作气

实际上,简化版的不等式(18)已经和更一般的(1)没有本质区别了,它的推导过程已经包含了导出完整结果的一般思路,下面我们来完成剩余的推导过程。

首先,我们将式(18)推广到不同初始分布的场景,假设两个初始分布为 ,从 采样初始值演化 ,从 采样初始值演化 ,所以此时 分别是 的函数,而不是像之前那样是同一个 的函数,所以无法直接构造一个传输方案。
所以,我们还需要 之间的一个对应关系(传输方案),我们将它选择为 之间的一个最优传输方案 。于是,我们可以写出类似式(12)的结果:
由于定义的一致性,那么放缩过程(13)同样是成立的,只不过期望 换成了 ,所以不等式(14)、(15)也是成立的。不同的是在对(15)两端在 积分时,不再有 ,而是根据定义有 。所以,最终的结果是
最后,我们回到扩散模型。在《生成扩散模型漫谈:一般框架之ODE篇》我们已经推导过,同一个前向扩散过程,实际上对应一簇反向过程:

其中 是可以自由选择的标准差函数,当 时,那么就是方程(2)。由于我们上面分析的是 ODE,所以我们先考虑 的情形,此时结果(20)依然可用,只不过将 换成 、将 换成 代入式(20)后就得到文章开头的结论(1)了。当然别忘了我们推导过程中对 所做的单侧 Lipschitz 约束假设(10),现在可以分别对 做出假设,这些细节就不展开了。



艰难收尾
按照流程,接下来我们应该再接再厉,完成 的收尾证明。不过很遗憾,本文的思路不能完全证明 SDE 的情形,下面给出笔者的分析过程。事实上,对于大部分读者来说,了解到上一节的 ODE 例子就可以窥见式(20)的精髓了,完整的细节也不是太重要。
简单起见,下面我们以(2)为例,更一般的(21)也可以类似地分析。我们需要估算的是如下两个 SDE 的演化轨迹分布差异:
也就是将准确的 换成近似的 ,对最终分布的影响有多大。笔者的证明思路同样是将它转化为 ODE,继而用回前面的证明过程。首先,根据式(21),我们知道第一个 SDE 对应的 ODE 为:
至于第二个 SDE 对应的 ODE 的推导有些技巧,需要先变为 的形式,然后再利用式(21):
对这两个 ODE 重复放缩过程(13)( 取负号),那么主要的区别是多出来一项

如果这一项小于等于 0,那么放缩过程(13)依然成立,后面的所有结果同样也成立,最终结论的形式跟式(20)一致。

所以,现在剩下的问题就是能否证明
很遗憾,可以举出反例表明它一般是不成立的。原论文的证明过程也出现了类似的一项,不过求期望的分布不是 ,而是 的最优传输分布,在此前提之下,原论文直接抛出两篇文献的结论作为引理,寥寥几行便完成了证明。不得不说原论文作者们真的很熟悉最优传输相关内容,各种文献结论“信手拈来”,就是苦了笔者这样的新手读者,想要彻底理解却难以下手,只能到此为止了。



文章小结

本文介绍了一个新的理论结果,显示扩散模型的得分匹配损失可以写成 W 距离的上界形式,并给出了自己的部分证明。这个结果意味着,在某种程度上扩散模型和 WGAN 都有着相同的优化目标,扩散模型也在偷偷优化 W 距离!



参考文献

[1] https://arxiv.org/abs/1701.07875
[2] https://arxiv.org/abs/1406.2661
[3] https://arxiv.org/abs/2212.06359


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
12月26日缅怀教员毛润之​生成扩散模型漫谈:构建ODE的一般步骤(下)圣诞节的温暖故事。。。玩不起RLHF?港科大开源高效对齐算法RAFT「木筏」,GPT扩散模型都能用图像生成终结扩散模型,OpenAI「一致性模型」加冕!GAN的速度一步生图,高达18FPS开挖扩散模型小动作,生成图像几乎原版复制训练数据,隐私要暴露了扩散模型生成带汉字图像,一键输出表情包:OPPO等提出GlyphDraw聊聊大火的扩散模型和AIGC《时代周刊》年度人物退休 28-阴阳对话中科大&微软提出SinDiffusion:从单个自然图像学习扩散模型终结扩散模型:OpenAI开源新模型代码,一步成图,1秒18张生成扩散模型漫谈:构建ODE的一般步骤(上)我一直不明白的事情:为与你无关的人骄傲!CVPR 2023 | 微软提出LDGM:利用解耦扩散模型统一版面生成微软3D生成扩散模型RODIN,秒级定制3D数字化身Inno-Quark元点漫谈:喧嚣背后的ChatGPT将带给世界怎样的改变?GAN强势归来?英伟达耗费64个A100训练StyleGAN-T,优于扩散模型ELITE项目原作解读:基于扩散模型的快速定制化图像生成AI绘画侵权实锤!扩散模型可能记住你的照片,现有隐私保护方法全部失效大红大紫的扩散模型,真就比GAN强吗?扩散模型这次杀疯了!ControlNet如何为扩散模型添加额外模态的引导信息?证件照转数字人只需几秒钟,微软实现首个3D扩散模型高质量生成效果,换装改形象一句话搞定 | CVPR 2023NeurIPS 2022 | 这个图像生成模型启发于电动力学!PFGM:泊松流生成模型7 Papers & Radios | 爆火论文打造《西部世界》雏形;OpenAI终结扩散模型物理改变图像生成:扩散模型启发于热力学,比它速度快10倍的挑战者来自电动力学扩散模型这么强了?!还不如GAN!谷歌、DeepMind等发文:扩散模型直接从训练集里「抄」扩散模型和Transformer梦幻联动!一举拿下新SOTAAIGC玩出新花样!Stable Diffusion公司提出基于扩散模型的视频合成新模型ICLR 2023 | 扩散生成模型新方法:极度简化,一步生成倾向性评分匹配2023:有效消除混杂因素的影响,在真实世界的临床科研中迅速推广扩散模型再发力!Hinton团队提出:图像和视频全景分割新框架
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。