Redian新闻
>
NeurIPS 2022 | 这个图像生成模型启发于电动力学!PFGM:泊松流生成模型

NeurIPS 2022 | 这个图像生成模型启发于电动力学!PFGM:泊松流生成模型

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>扩散模型微信技术交流群

丰色 萧箫 发自 凹非寺
转载自:量子位(QbitAI)

现在,图像生成领域的半壁江山已经被物理学拿下了。

火出圈的DALL·E 2、Imagen和Stable Diffusion,它们共同基于的扩散模型——

都是受到物理热力学的启发诞生的。

不仅如此,来自MIT、收录于NeurIPS 2022的一种比扩散模型效果还要好、速度还要快的新生成模型,则启发于电动力学

如此攻势,让人不得不感叹:

留给图像生成的物理模型已经不多了?(手动狗头)

热力学如何启发扩散模型?

雏形:从一滴墨水得到启发

事实上,扩散模型并非从一开始就“崭露头角”。

很长一段时间里,图像生成领域的王者都非GAN莫属,即便期间不少新模型提出,它的生成效果仍然吊打其他一众模型。

初版扩散模型也是在这个背景下诞生。

就在GAN论文发布的后一年,斯坦福大学博士后Jascha Sohl-Dickstein基于GAN“没法学习完整概率分布”的缺陷,想到了一个idea。

非平衡热力学有钻研的他,思考为何不能将物理和图像生成结合起来?

非平衡热力学是热力学的一个分支,专门研究某些不处于热力学平衡中的物理系统。

典型例子是一滴会在水中扩散的墨水。

在扩散之前,这滴墨水会是在水中的某个地方形成一个大斑点,但如果想模拟墨水开始扩散前的初始状态概率分布就会非常困难,因为这个分布很复杂、导致很难采样。

但随着墨水扩散到水中、水逐渐变成淡蓝色,墨水分子将分布得更简单更均匀,我们就可以很轻松地用数学公式来描述其中的概率。

这时候,非平衡热力学就上场了,它能将墨水扩散过程中每一步的概率分布都描述出来:

由于扩散过程的每一步都可逆,所以只要“步子”足够小,就可以从简单的分布再推断出最初复杂的分布来。

就像是将这个过程倒放

Jascha Sohl-Dickstein就是受这个扩散原理的启发,创建了“扩散模型”,具体分为两步。

首先,通过某种算法将复杂图像转化为简单的噪声。

这一过程就类似于一滴墨水扩散到水全部变蓝,然后再逆转这一过程,将噪声转化为新图像。

具体来说,当系统拿到一张训练图像,这张图像的百万像素中的每一个点都有相应的值,根据这些值就能将像素转变为百万维空间中的一个点。

随后,用算法在每个时间步长中向每个像素点添加一些噪声,相当于墨水的每一步扩散,这样每个像素的值与其原始图像中的值之间的关系就会越来越小,直到看起来更像是一个简单的噪声分布。

接下来,对数据集中的所有图像执行这一操作,百万维空间中一开始由各个点组成的复杂分布(无法轻易描述和采样),就会变成围绕原点组成的简单正态分布。

Jascha Sohl-Dickstein解释道:

这个非常缓慢的“前向”转换过程就好比将数据分布变成了一个巨大的“噪音球”,提供了一个可以轻松采样的分布。

然后,再用这些被算法转换的图像,训练得到最终的扩散模型。

具体来说,就是喂给神经网络从前向转换过程中获得的噪声图像,训练它预测之前一步得到的噪声较小的图像,在这期间不断调整参数、改善模型,最终,它就可以将噪声图像输出成我们想要的图像。
这样训练好的神经网络,无需学习原始图像,就可以直接采样生成全新的图像。

2015年,Sohl Dickstein将这个扩散模型的雏形进行了发表。

遗憾的是,尽管它能够对整个分布进行采样,也不会只吐出图像数据集的“子集”,但能力还远远落于GAN——既表现在生成质量上,也表现在生成速度上。

改进:造就DALL·E2、Stable Diffusio等爆火模型

最终,是两位博士生的相继改变,造就了最终的“现代版”扩散模型。

首先是2019年,还在斯坦福大学读博士的Yang Song,和他的导师在完全不知道Sohl Dickstein成果的情况下,想出了一种类似的新方法。

相比Sohl Dickstein估计数据(即高维表面)的概率分布的做法,Yang Song估计的是分布的梯度(即高维表面的斜率)

而通过先用不断增加的噪声水平干扰训练集中的每个图像,然后再让神经网络使用分布梯度预测原始图像,可以非常有效地去噪,最终生成质量很高的图像。

不过,这种方法的采样速度非常慢。

好在很快,2020年,UC伯克利的Jonathan Ho看到了这两项研究,意识到后者的思路可以用来重新设计和改进Sohl Dickstein最开始的那版雏形。

于是,就有了后来大名鼎鼎的DDPM(Denoising Diffusion Probabilistic Models)——它在所有的任务中,要么打平、要么超过所有其他生成模型,包括统治了该领域多年的GAN。

至此,一个最初启发于物理学原理的机器学习模型,几经周转,最终掀起了AIGC领域的热潮——

我们现在看到的DALL·E2、Stable Diffusio、SD和Imagen……都是基于DDPM这一扩散模型改进而来。

MIT新电动力学图像生成模型

现在,又是“拜物理学所赐”,扩散模型也迎来了新的挑战者。

基于电动力学的启发,来自MIT的研究人员提出了一种新的“泊松流”生成模型PFGM(“Poisson Flow” Generative Models)

具体来说,这个生成模型将数据看成空间中新增z=0平面上的电荷,电荷产生了空间中的电场。

其中,电荷产生的电场线对应数据采样过程,电场线的方向即空间中泊松方程的解的梯度。

代表数据的电荷沿着产生的电场线向外移动,最终会形成一个半球面,并在球面半径足够大时,电荷在半球面上均匀分布。

与扩散模型中每一步概率分布都是可逆的一样,电场线也是可逆的。

因此,可以利用这种效果训练模型,让它学会通过均匀分布在半球面上的数据,反过来生成z=0平面上的数据。例如下图这个例子,数据分布一开始呈爱心状,但当数据最终移动到半径足够大的半球面上时,它们会呈现出均匀分布状态:

对应到图像生成过程中也一样,z=0平面上的数据分布,是我们希望生成的图像。

而生成模型要做的,则是通过半球面上均匀分布的数据,来反向推出希望生成的图像:

在CIFAR-10数据集上的评估中,PFGM是在一众类似思路模型中表现最好的,超过了扩散模型。

而且,PFGM在与扩散模型生成质量差不多的同时,速度要快上10~20倍,在速度和生成质量上取得了更好的“兼顾”。

下图是PFGM基于不同数据集训练后生成图片的过程,效果确实也是很能打了:

猜猜下一个挑战图像生成领域的物理模型会是什么?

参考链接:
[1]https://www.quantamagazine.org/the-physics-principle-that-inspired-modern-ai-art-20230105/
[2]https://arxiv.org/abs/2209.11178
[3]https://arxiv.org/pdf/1503.03585.pdf

点击进入—>CV微信技术交流群


CVPR/ECCV 2022论文和代码下载


后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:ECCV2022,即可下载ECCV 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


扩散模型交流群成立


扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer222,进交流群


CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!


扫码进群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
延安整风是中共普及教育的开始Diffusion+目标检测=可控图像生成!华人团队提出GLIGEN,完美控制对象的空间位置不做文盲画家!谷歌魔改「文本编码器」:一个小操作让图像生成模型学会「拼写」2022生成模型进展有多快?新论文盘点9类生成模型代表作CVPR 2023 | 谷歌、MIT提出统一框架MAGE:表征学习超MAE,无监督图像生成超越 Latent DiffusionNeurIPS 2022 | UCLA推出科学问答新基准,大语言模型迎来多模态新挑战!Jay Alammar再发新作:超高质量图解Stable Diffusion,看完彻底搞懂「图像生成」原理2022 湾区公立/私立高中 UCB 录取率排名NeurIPS 2022 | 准确建模多智能体系统,斯坦福提出隐空间多层图模型2022 USNEWS发布美国薪酬最高行业TOP25暗黑势力又做挣扎。。。。NeurIPS 2022 | 利用多光照信息的单视角NeRF算法,可恢复场景几何与材质信息NeurIPS 2022 | 文本图片编辑新范式:单个模型实现多文本引导图像编辑NeurIPS 2022 | 生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别新加坡管理大学何盛烽副教授招收计算机视觉、图像生成方向 CSC 公派/访问博士生由你投票选出的NeurIPS 2022论文直播分享拍了拍你Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍NeurIPS 2022 Oral | 基于最优子集的神经集合函数学习方法EquiVSetCVPR 2023 | 统一框架MAGE:表征学习超MAE,无监督图像生成超越Latent DiffusionNeurIPS 2022 | 重振PointNet++雄风!PointNeXt:改进模型训练和缩放策略审视PointNet++AIGC—可编辑的图像生成ICLR 2023 | 扩散生成模型新方法:极度简化,一步生成NeurIPS 2022 | 利用多光照信息的单视角NeRF算法S^3-NeRF,可恢复场景几何与材质信息歌曲里的故事-此情可待NeurIPS 2022 | 文本图片编辑新范式,单个模型实现多文本引导图像编辑NeurIPS 2022 | 序列(推荐)模型分布外泛化:因果视角与求解NeurIPS 2022 | 用离散对抗训练提高视觉模型的鲁棒性和泛化能力物理改变图像生成:扩散模型启发于热力学,比它速度快10倍的挑战者来自电动力学NeurIPS 2022 Spotlight|生成式语义分割新范式GMMSeg,可同时处理闭集和开集识别7 Papers & Radios | NeurIPS'22获奖论文;英伟达一句话生成3D模型NeurIPS 2022 | 视觉长尾学习模型为何无法较好地落地?思想周报|法国退休改革抗议持续;AI图像生成被指剽窃红楼梦中荣国府的“荣”字秘密同样的“数学事件”,却有着不同的命运NeurIPS 2022|知识蒸馏想要获得更好的性能?那就来一个更强的教师模型吧!大模型如何可靠?IBM等学者最新《基础模型的基础鲁棒性》教程|NeurIPS 2022VideoMAE:简单高效的视频自监督预训练新范式|NeurIPS 2022
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。