Redian新闻
>
CVPR 2023 | Collaborative Diffusion 怎样让不同的扩散模型合作?

CVPR 2023 | Collaborative Diffusion 怎样让不同的扩散模型合作?

公众号新闻


近一两年,扩散模型 (diffusion models) 展现了强大的生成能力。不同种类的扩散模型各显神通 —— text-to-image 模型可以根据文字生成图片,mask-to-image 模型可以从分割图生成图片,除此之外还有更多种类的扩散模型,例如生成视频、3D、motion 等等。 

倘若有一种方法让这些 pre-trained 的扩散模型合作起来,发挥各自的专长,那么我们就可以得到一个多功能的生成框架。比如当 text-to-image 模型与 mask-to-image 模型合作时,我们就可以同时接受 text 和 mask 输入,生成与 text 和 mask 一致的图片了。 

CVPR 2023 的 Collaborative Diffusion 提供了一种简单有效的方法来实现不同扩散模型之间的合作。

论文链接:
https://arxiv.org/abs/2304.10530

代码链接:

https://github.com/ziqihuangg/Collaborative-Diffusion

网页链接:

https://ziqihuangg.github.io/projects/collaborative-diffusion.html

视频链接:

https://www.youtube.com/watch?v=inLK4c8sNhc



我们先看看不同扩散模型合作生成图片的效果~



当 text-to-image 和 mask-to-image 通过 Collaborative Diffusion 合作时,生成的图片可以达到和输入的 text 以及 mask 高度一致。



给定不同的多模态输入组合,Collaborative Diffusion 可以生成高质量的图片,而且图片与多模态控制条件高度一致。即便多模态输入是相对少见的组合,例如留长头发的男生,和留寸头的女生,Collaborative Diffusion 依旧可以胜任。




那不同的扩散模型究竟怎样实现合作呢?


首先,我们知道,扩散模型在生成图片的过程中,会从高斯噪声开始,逐步去噪,最终得到自然图像。


图片来源:CVPR 2022 Tutorial: Denoising Diffusion-based Generative Modeling: Foundations and Applications


基于扩散模型迭代去噪的性质,我们的 Collaborative Diffusion 在去噪的每一步都会动态地预测不同的扩散模型如何有效合作,各取所长。Collaborative Diffusion 的基本框架如下图所示。



我们在每一步去噪时,用 Dynamic Diffusers 动态地预测每个扩散模型对整体预测结果带来的影响(也就是 Influence Functions)。Influence Functions 会选择性地增强或者减少某个扩散模型的贡献,从而让各位合作者(也就是扩散模型)发挥专长,实现合作共赢。 


值得注意的是,预测得到的 Influence Functions 在时间和空间上都是适应性变化的。下图展示了 mask-to-image 和 text-to-image 模型合作时,在不同时间和空间位置的 Influence Functions 强度。



从上图中我们可以观察到,在时间上,决定 mask-to-image 模型影响的 Influence Functions 在去噪初期很强(第一行左边),到后期逐渐变弱(第一行右边),这是因为扩散模型在去噪初期会首先形成图片内容的布局,到后期才会逐渐生成纹路和细节;而在多模态控制人脸生成时,图片的布局信息主要是由 mask 提供的,因此 mask 分支的 Influence Functions 会随着时间由强变弱。


与之相对应的 text-to-image 模型的 Influence Functions(第二行)会随着时间由弱到强,因为 text 提供的多数信息是与细节纹路相关的,例如胡子的浓密程度,头发颜色,以及与年龄相关的皮肤皱纹,而扩散模型的去噪过程也是在后期才会逐步确定图片的纹理以及细节。 


与此同时,在空间上,mask-to-image 模型的 Influence 在面部区域分界处更强,例如面部轮廓和头发的外边缘,因为这些地方对整体面部布局是至关重要的。text-to-image 模型的 Influence 则在面中,尤其是脸颊和胡子所在的区域较强,因为这些区域的纹理需要 text 提供的年龄,胡子等信息来填充。




Collaborative Diffusion的通用性

Collaborative Diffusion 是一个通用的框架,它不仅适用于图片生成,还可以让 text-based editing和mask-based editing 方法合作起来。我们利用在生成任务上训练的 Dynamic Diffusers 来预测 Influence Functions,并将其直接用到 editing 中。话不多说我们看图。

完整的实验细节和实验结果,以及更多图片结果,请参考论文。



总结


我们提出了 Collaborative Diffusion,一种简单有效的方法来实现不同扩散模型之间的合作。我们充分利用扩散模型的迭代去噪的性质,设计了 Dynamic Diffuser 来预测在时间和空间上均有适应性的 Influence Functions 来控制不同的扩散模型如何合作。我们实现了高质量的多模态控制的人脸生成和编辑。 


Collaborative Diffusion 是一个通用的框架,不仅适用于图片生成,还适用于图片编辑,以及未来更多的基于扩散模型的其他任务。 



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
十分钟读懂Diffusion:图解Diffusion扩散模型谷歌下场优化扩散模型,三星手机运行Stable Diffusion,12秒内出图港大和微软提出Uni-ControlNet:可控制扩散模型再添一员!CVPR 2023|哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏国际要闻简报,轻松了解天下事(03周润发上海和香港街头晨跑画面引热议,两种不同的待遇,两种不同的人生吃饺子,要喝饺子汤CVPR 2023 | 白翔团队提出:将CLIP模型用于场景文本检测狂野|每十年一次公路旅行!在不同的年纪,看不同的风景…CVPR 2023 | 可扩展的视频基础模型预训练范式:训练出首个十亿参数量视频自监督大模型谷歌优化扩散模型!在三星手机上运行Stable Diffusion,12秒内出图!国际要闻简报,轻松了解天下事(03CVPR 2023 | 多个扩散模型相互合作,新方法实现多模态人脸生成与编辑中国团队自动驾驶大模型斩获CVPR最佳论文;Stability AI推出新文生图模型;京东大模型即将发布丨AIGC大事日报CVPR'23 最佳论文候选 | 采样提速256倍!蒸馏扩散模型生成图像质量媲美教师模型CVPR 2023 | G2SD: 让小模型也能从自监督预训练中受益的蒸馏方法今年 CV 热点这么多,不可错过 CVPR 2023 线下论文分享会上海AI实验室联合团队获CVPR最佳论文奖 | CVPR 2023CVPR 2023|All in UniSim:统一的自动驾驶仿真平台扩散模型还能预测地震和犯罪?清华团队最新研究提出时空扩散点过程开篇CVPR 2023 第一个大模型研讨会和比赛!炸裂!最新CVPR2023、ICML2023、AAAI2023、ACL2023论文+Code大合集!开源了!UniControl:可控视觉生成的统一扩散模型国际要闻简报,轻松了解天下事(03《西線無戰事》拍出戰火浮生錄当AIGC遇到GAN和Diffusion,CVPR 2023论文大盘点CVPR 2023 | 微软提出LDGM:利用解耦扩散模型统一版面生成速度惊人!手机跑Stable Diffusion,12秒出图,谷歌加速扩散模型破记录大模型的思想钢印:如何让ChatGPT相信水是有毒的?​中文信息处理实验室最新研究揭示虚假信息在大模型中的扩散机制讲座丨养成这3个特点,让不同特色的孩子都能拿下美本顶尖offer丘陵地带的一座乡村小城镇2022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一看看Stanford’s 2023 surgical team的组成,有些出乎意料Agustín Hernández:中美洲建筑背景下的未来主义巨构马克谈天下(371) 我看TIKTOK在美国的可能命运CVPR 2023 | 模块化MoE将成为视觉多任务学习基础模型周润发上海和香港街头晨跑画面流出,两种不同的待遇,两种不同的人生…[哇塞]每十年一次公路旅行!在不同的年纪,看不同的风景…CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。