Redian新闻
>
CVPR 2023 | 多个扩散模型相互合作,新方法实现多模态人脸生成与编辑

CVPR 2023 | 多个扩散模型相互合作,新方法实现多模态人脸生成与编辑

公众号新闻

机器之心专栏

机器之心编辑部
本文提出了一种简单有效的方法来实现不同扩散模型之间的合作。

近一两年,扩散模型 (diffusion models) 展现出了强大的生成能力。不同种类的扩散模型性能各异 —— text-to-image 模型可以根据文字生成图片,mask-to-image 模型可以从分割图生成图片,除此之外还有更多种类的扩散模型,例如生成视频、3D、motion 等等。

假如有一种方法让这些 pre-trained 的扩散模型合作起来,发挥各自的专长,那么我们就可以得到一个多功能的生成框架。比如当 text-to-image 模型与 mask-to-image 模型合作时,我们就可以同时接受 text 和 mask 输入,生成与 text 和 mask 一致的图片了。

CVPR 2023 的 Collaborative Diffusion 提供了一种简单有效的方法来实现不同扩散模型之间的合作。


  • 论文: https://arxiv.org/abs/2304.10530 
  • 代码: https://github.com/ziqihuangg/Collaborative-Diffusion 
  • 网页: https://ziqihuangg.github.io/projects/collaborative-diffusion.html 
  • 视频: https://www.youtube.com/watch?v=inLK4c8sNhc 

我们先看看不同扩散模型合作生成图片的效果:


当 text-to-image 和 mask-to-image 通过 Collaborative Diffusion 合作时,生成的图片可以达到和输入的 text 以及 mask 高度一致。


给定不同的多模态输入组合,Collaborative Diffusion 可以生成高质量的图片,而且图片与多模态控制条件高度一致。即便多模态输入是相对少见的组合,例如留长头发的男生,和留寸头的女生,Collaborative Diffusion 依旧可以胜任。

那不同的扩散模型究竟怎样实现合作呢?

首先,我们知道,扩散模型在生成图片的过程中,会从高斯噪声开始,逐步去噪,最终得到自然图像。

图片来源:CVPR 2022 Tutorial: Denoising Diffusion-based Generative Modeling: Foundations and Applications

基于扩散模型迭代去噪的性质,我们的 Collaborative Diffusion 在去噪的每一步都会动态地预测不同的扩散模型如何有效合作,各取所长。Collaborative Diffusion 的基本框架如下图所示。


我们在每一步去噪时,用 Dynamic Diffusers 动态地预测每个扩散模型对整体预测结果带来的影响(也就是 Influence Functions)。Influence Functions 会选择性地增强或者减少某个扩散模型的贡献,从而让各位合作者(也就是扩散模型)发挥专长,实现合作共赢。

值得注意的是,预测得到的 Influence Functions 在时间和空间上都是适应性变化的。下图展示了 mask-to-image 和 text-to-image 模型合作时,在不同时间和空间位置的 Influence Functions 强度。


从上图中我们可以观察到,在时间上,决定 mask-to-image 模型影响的 Influence Functions 在去噪初期很强(第一行左边),到后期逐渐变弱(第一行右边),这是因为扩散模型在去噪初期会首先形成图片内容的布局,到后期才会逐渐生成纹路和细节;而在多模态控制人脸生成时,图片的布局信息主要是由 mask 提供的,因此 mask 分支的 Influence Functions 会随着时间由强变弱。与之相对应地 text-to-image 模型的 Influence Functions(第二行)会随着时间由弱到强,因为 text 提供的多数信息是与细节纹路相关的,例如胡子的浓密程度,头发颜色,以及与年龄相关的皮肤皱纹,而扩散模型的去噪过程也是在后期才会逐步确定图片的纹理以及细节。

与此同时,在空间上,mask-to-image 模型的 Influence 在面部区域分界处更强,例如面部轮廓和头发的外边缘,因为这些地方对整体面部布局是至关重要的。text-to-image 模型的 Influence 则在面中,尤其是脸颊和胡子所在的区域较强,因为这些区域的纹理需要 text 提供的年龄,胡子等信息来填充。

Collaborative Diffusion 的通用性

Collaborative Diffusion 是一个通用框架,它不仅适用于图片生成,还可以让 text-based editing 和 mask-based editing 方法合作起来。我们利用在生成任务上训练的 Dynamic Diffusers 来预测 Influence Functions,并将其直接用到 editing 中。如下图所示:





完整的实验细节和实验结果,以及更多图片结果,请参考论文。

总结

(1) 我们提出了 Collaborative Diffusion,一种简单有效的方法来实现不同扩散模型之间的合作。
(2) 我们充分利用扩散模型的迭代去噪性质,设计了 Dynamic Diffuser 来预测在时间和空间上均有适应性的 Influence Functions 来控制不同的扩散模型如何合作。
(3) 我们实现了高质量的多模态控制的人脸生成和编辑。
(4) Collaborative Diffusion 是一个通用的框架,不仅适用于图片生成,还适用于图片编辑,以及未来更多的基于扩散模型的其他任务。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
微软提出CoDi:开创性多模态扩散生成模型,实现4种模态任意输入输出九剑一魂 - 第23回 太子遇害 贾后伏诛(九)用多模态人工智能赋能交通与安全,「卓视智通」获数千万元Pre-B轮融资丨36氪首发训练时间减少71.4%,存储成本节省99.9%,厦大指令调优新方案MMA让羊驼模型实现多模态多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构※※ 2023.4.4爱晒衣服的日本人更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」长篇小说《如絮》第一百零三章 哈尔滨-1952-1953年 2 任务CVPR 2023|哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏CVPR 2023 | G2SD: 让小模型也能从自监督预训练中受益的蒸馏方法CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型蛋白质侧链预测新方法DiffPack:扩散模型也能精准预测侧链构象!给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练丨开源ICLR 2023 | DM-NeRF:从2D图像中实现3D场景的几何分解与编辑(已开源)CVPR 2023 | Collaborative Diffusion 怎样让不同的扩散模型合作?CVPR 2023 | 多模态新任务和新数据集!NTU提出广义引用分割问题GRES达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力基于扩散模型的音频驱动说话人生成,云从&上交数字人研究入选ICASSP 202312秒内AI在手机上完成作画!谷歌提出扩散模型推理加速新方法炸裂!最新CVPR2023、ICML2023、AAAI2023、ACL2023论文+Code大合集!智源Emu开源!超越DeepMind,刷新8项SOTA,首个「多模态-to-多模态」全能高手清华领衔多模态人机交互与AIGC数字生成,让「元宇宙GPT」落地千行百业2022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一CVPR'23 最佳论文候选 | 采样提速256倍!蒸馏扩散模型生成图像质量媲美教师模型意外地好!!!!!Microsoft 必应图像创建者国际要闻简报,轻松了解天下事(03CVPR 2023 | 三维场景生成:无需任何神经网络训练,从单个样例生成多样结果中科院发布多模态 ChatGPT,图片、语言、视频都可以 Chat ?中文多模态大模型力作论文插图也能自动生成了!用到了扩散模型,还被ICLR 2023接收!多模态大语言模型综述来啦!一文带你理清多模态关键技术国际要闻简报,轻松了解天下事(03国际要闻简报,轻松了解天下事(03英伟达新方法入选CVPR 2023:对未知物体的6D姿态追踪和三维重建CVPR 2023 | 结合Transformer和CNN的多任务多模态图像融合方法CVPR 2023|无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTACVPR 2023 | 微软提出LDGM:利用解耦扩散模型统一版面生成北京内推 | 微软亚洲研究院机器学习组招聘说话人脸生成方向研究实习生斜风细雨不须归上海AI实验室联合团队获CVPR最佳论文奖 | CVPR 2023
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。