国际科技财经博客移民网络热点娱乐民生时事公众号

>

ICLR 2024 | 阐明扩散模型中的曝光偏差问题，一行代码大幅提升生成质量

ICLR 2024 | 阐明扩散模型中的曝光偏差问题，一行代码大幅提升生成质量

2024-04-18 10:04

论文链接：

https://arxiv.org/abs/2308.15321

代码连接：

https://github.com/forever208/ADM-ES

摘要

扩散模型在图像生成方面非常成功，但其曝光偏差（exposure bias）的问题（训练和采样过程的输入存在偏差）缺乏深入的探索。在本文中，我们通过首先对真实的采样分布进行分析，并找出了暴露偏差问题的根本原因。此外，我们讨论了该问题一些潜在解决方案，并且提出了一种简单且高效的无需训练的方法，称为 Epsilon Scaling（ES），来减轻暴露偏差。

实验表明，ES 显式地让采样轨迹向训练轨迹（训练得到的向量场）靠近，从而减轻训练和采样之间的输入不匹配。我们在各种扩散模型框架（ADM、DDIM、EDM、LDM、DiT、PFGM++）上验证了 ES 的有效性。比如将 ES 应用于 ADM 上，我们得到了一个 SOTA 的随机采样器：在 100 步无条件生成下，在 CIFAR-10 上获得了 2.17 FID.

扩散模型中的曝光偏差

与自回归的文本生成类似，扩散模型也存在曝光偏差问题。即训练阶段喂给网络的是真值，而采样阶段喂给网络的是上一时刻网络预测的，由于网络在训练阶段从来没有看过，因此无法学习准确的 score 或 epsilon。

真实的采样分布

我们显式地建模真实的采样分布以比较和的差异。以 DPPM 为例，理论上的采样分布是基于 posterior（下图右式）得到的，其中是指神经网络通过输入预测的。

但上式仅在时成立，而神经网络对于的预测始终存在误差，因此真实的采样分布需要考虑网络在每一步采样中关于的预测误差。以 Analytic-DPM 为例，假设该预测误差为高斯分布：

我们最终能得到真实的采样分布，将其与训练过程中的条件分布做比较，我们得到表 1 的结果，显然采样阶段网络看到的具有更大的方差。

上述是对于单步采样的解析，迭代后可得到多步采样的真实分布，此外 DDIM 也具有类似的结果（详见论文）。我们对表 1 两个分布的方差之差（方差误差）进行可视化，得到了图 1 的结果，可以看到误差会逐步积累。

曝光偏差的解决方案

我们现在谈论曝光偏差的解决方案：

最直接的方式就是训练一个更准确的网络，参考 EDM 的调参；
通过数据扩增训练一个更稠密的向量场，如 EDM 的几何扩增，DDPM-IP 的输入扰动；
采用 PFGM 生成框架，其框架对于预测误差有更强的鲁棒性。

但上述方法都需要重新训练一个模型，而我们下文提出方案是针对采样过程，并与上述方案兼容。

Epsilon Scaling

通过观察网络输出的的模长，我们可以看出训练和采样过程存在偏差，且该偏差会逐步累计。我们因此提出 Epsilon Scaling 以缩放采样过程中的以使其向训练过程中的靠拢，即让下图绿色轨迹向红色轨迹靠拢。

因此，我们的采样方案仅需在原有采样函数上加一个缩放因子，基于误差传递的分析，我们最后得到了的一次函数缩放策略，并且发现 k 在实际中接近于0，因此简单起见推荐的常数缩放策略。

ES 的实验结果

ADM 上的实验结果：

ADM-ES 优于其他 stochastic samplers：

DDIM 上的实验结果：

EDM 上的实验结果：

LDM 上的实验结果：

DiT 上的实验结果：

PFGM++ 上的实验结果：

ES 改善采样轨迹

我们可以看到 ES 将原有的采样轨迹（绿色线）推到了蓝色线，后者更靠近训练阶段得到的向量场（红色线）。

通过对每一步采样设置 random seed，我们从下图发现 ADM（第一行）和 ADM-ES（第二行）生成得到的样本点相似，但是后者的生成质量更高。

文章的最后

如果你有从头训练一个扩散模型的需求，推荐一下我们 ICML 2023 的文章，提出了一行代码提升扩散模型生成质量和训练速度的方法，改论文从训练角度给出了曝光偏差的多种方案。

效果一览：

论文链接：

https://arxiv.org/abs/2301.11706

代码链接：

https://github.com/forever208/DDPM-IP

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：[email protected]

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

※※※※※※ 2024【新春对对碰】活动大合辑※※※※※※ISSTA 2024 | 北大提出CoderUJB，面向代码大模型的可执行多任务代码评估基准揭示真实能力与局限玉树临盆 24GB单卡全量微调Llama 3-8B，仅需添加一行代码 FICC | 存款资金回流，理财规模大幅提升——理财市场月报2024年第四期深入研讨语言模型中知识的生命周期，ACL 2024 Workshop征稿启动 2024 turbotax 最全最强攻略 ICML 2024 | 通过随机微分方程统一贝叶斯流网络和扩散模型 CVPR 2024｜生成不了光线极强的图片？微信视觉团队有效解决扩散模型奇点问题陣前換將兵家大忌金廈海域對撞危機【一週軍事雜談】2024.02.20 《牵手》仅仅只是开始今日arXiv最热NLP大模型论文：Github万星！北航发布零代码大模型微调平台LlamaFactory 不影响输出质量还能追踪溯源，「大模型无偏水印」入选ICLR 2024 Spotlight 北京城墙上的格拉纳达巧解「数据稀缺」问题！清华开源GPD：用扩散模型生成神经网络参数｜ICLR 2024 CVPR 2024 | MotionEditor：首个面向动作编辑的视频扩散模型 ICLR 2024 | 再论生成数据能否帮助模型训练？CVPR 2024 | 浙大提出近似平均方向求解器，快速扩散模型数值采样几行代码稳定UNet ! 中山大学等提出ScaleLong扩散模型：从质疑Scaling到成为Scaling 集体出走的Stability AI 发布全新代码大模型，3B以下性能最优，超越Code Llama和DeepSeek-Coder 俄軍攻下阿夫迪夫卡終結頓涅次克10年苦難【邱世卿合訂本】2024.02.19 今日arXiv最热大模型论文：浙江大学：如何减轻视觉大模型中的幻觉问题 Mamba遇见扩散模型！DiM：无需微调，高分辨图像生成更高效！【行香子】和白九、冠军侯、遍野 ICML 2024 | 川大提出外部引导的深度聚类新范式，大幅提升CLIP图像聚类性能 Stability AI开源上新：3D生成引入视频扩散模型，质量一致性up，4090可玩 ICLR 2024 | 冻结住的CLIP仍可作为教师模型！港大提出全新开集动作识别模型生成扩散模型漫谈：信噪比与大图生成（下）纪念kiptum两小时三十五秒 LLM性能最高60%提升！谷歌ICLR 2024力作：让大语言模型学会「图的语言」ICLR 2024 | 鸡生蛋蛋生鸡？再论生成数据能否帮助模型训练傅平自传体回忆录（23）顺势而为，离开耶鲁 CVPR 2024｜让图像扩散模型生成高质量360度场景，只需要一个语言模型 Sora之后，OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型 ICML 2024 | 即插即用！无需训练！基于球面高斯约束引导的条件扩散模型中山大学和字节发布「视频虚拟试穿」扩散模型VITON-DiT，一键生成换装后视频！ICLR上新 | 强化学习、扩散模型、多模态语言模型，你想了解的前沿方向进展全都有 FSD v12.3好评不断；马斯克：v12.4能力将再度大幅提升，算力限制已大幅改善 ICLR 2024 Spotlight | 无惧中间步骤，MUSTARD可生成高质量数学推理数据 Amazon 这10款保健品你有试过吗？想提升生活质量的亲快收藏

热点事件追踪