Redian新闻
>
可控图像生成最新综述!北邮开源20页249篇文献!

可控图像生成最新综述!北邮开源20页249篇文献!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【扩散模型和多模态】交流群

添加微信:CVer444,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

单位:北京邮电大学   

论文:https://arxiv.org/abs/2403.04279  

代码:

https://github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models   

TL;DR(太长不看版总结)

利用文本生成图片(Text-to-Image, T2I)已经满足不了人们的需要了,近期研究在T2I模型的基础上引入了更多类型的条件来生成图像,本文对这些方法进行了总结综述。

摘要

在视觉生成领域迅速发展的过程中,扩散模型已经彻底改变了这一领域的格局,通过其令人印象深刻的文本引导生成功能标志着能力方面的重大转变。然而,仅依赖文本来调节这些模型并不能完全满足不同应用和场景的多样化和复杂需求。鉴于这种不足,许多研究旨在控制预训练文本到图像(T2I)模型以支持新条件。在此综述中,作者对关于具有 T2I 扩散模型可控性生成的文献进行了彻底审查,涵盖了该领域内理论基础和实际进展。我们的审查从简要介绍去噪扩散概率模型(DDPMs)和广泛使用的 T2I 扩散模型基础开始。然后我们揭示了扩散模型的控制机制,并从理论上分析如何将新条件引入去噪过程以进行有条件生成。此外,我们提供了对该领域研究情况详尽概述,并根据条件角度将其组织为不同类别:具有特定条件生成、具有多个条件生成以及通用可控性生成。    

图 1 利用T2I扩散模型可控生成示意图。在文本条件的基础上,加入“身份”条件来控制输出的结果。

分类体系    

图 2 可控生成的分类。从条件角度来看,我们将可控生成方法分为三个子任务,包括具有特定条件的生成、具有多个条件的生成和通用可控生成。

利用文本扩散模型进行条件生成的任务代表了一个多方面和复杂的领域。从条件角度来看,我们将这个任务分为三个子任务(参见图2)。大多数研究致力于如何在特定条件下生成图像,例如基于图像引导的生成和草图到图像的生成。为了揭示这些方法的理论和特征,我们根据它们的条件类型进一步对其进行分类。

  • 利用特定条件生成:指引入了特定类型条件的方法,既包括定制的条件(Personalization, e.g., DreamBooth, Textual Inversion),也包含比较直接的条件,例如ControlNet系列、生理信号-to-Image。    

  • 多条件生成:利用多个条件进行生成,对这一任务我们在技术的角度对其进行细分。

  • 统一可控生成:这个任务旨在能够利用任意条件(甚至任意数量)进行生成。

如何在T2I扩散模型中引入新的条件

细节请参考论文原文,下面对这些方法机理进行简要介绍。

一、条件得分预测(Conditional Score Prediction)

在T2I扩散模型中,利用可训练模型(例如UNet)来预测去噪过程中的概率得分(即噪声)是一种基本且有效的方法。在基于条件得分预测方法中,新颖条件会作为预测模型的输入,来直接预测新的得分。其可划分三种引入新条件的方法:    

  • 基于模型的条件得分预测:这类方法会引入一个用来编码新颖条件的模型,并将编码特征作为UNet的输入(如作用在cross-attention层),来预测新颖条件下的得分结果;

  • 基于微调的条件得分预测:这类方法不使用一个显式的条件,而是微调文本嵌入和去噪网络的参数,来使其学习新颖条件的信息,从而利用微调后的权重来实现可控生成。例如DreamBooth和Textual Inversion就是这类做法。

  • 无需训练的条件得分预测:这类方法无需对模型进行训练,可以直接将条件作用于模型的预测环节,例如在Layout-to-Image(布局图像生成)任务中,可以直接修改cross-attention层的attention map来实现设定物体的布局。

二、条件引导的得分评估

条件引导估的得分估计方法是通过条件预测模型(如上图Condition Predictor)反传梯度来在去噪过程中增加条件指导。

利用特定条件生成    

  • Personalization(定制化):定制化任务旨在捕捉和利用概念作为生成条件行可控生成,这些条件不容易通过文本描述,需要从示例图像中进行提取。如DreamBooth,Texutal Inversion和LoRA。

  • Spatial Control(空间控制):由于文本很难表示结构信息,即位置和密集标签,因此使用空间信号控制文本到图像扩散方法是一个重要的研究领域,例如布局、人体姿势、人体解析。方法例如ControlNet。

  • Advanced Text-Conditioned Generation(增强的文本条件生成):尽管文本在文本到图像扩散模型中起着基础条件的作用,但该领域仍存在一些挑战。首先,在涉及多个主题或丰富描述的复杂文本中进行文本引导合成时,通常会遇到文本不对齐的问题。此外,这些模型主要在英语数据集上训练,导致了多语言生成能力明显不足。解决这一限制,许多工作提出了旨在拓展这些模型语言范围的创新方法。

  • In-Context Generation(上下文生成):在上下文生成任务中,根据一对特定任务示例图像和文本指导,在新的查询图像上理解并执行特定任务。    

  • Brain-Guided Generation(脑信号引导生成):脑信号引导生成任务专注于直接从大脑活动控制图像创建,例如脑电图(EEG)记录和功能性磁共振成像(fMRI)。

  • Sound-Guided Generation(声音引导生成):以声音为条件生成相符合的图像。

  • Text Rendering(文本渲染):在图像中生成文本,可以被广泛应用到海报、数据封面、表情包等应用场景。

多条件生成

多条件生成任务旨在根据多种条件生成图像,例如在用户定义的姿势下生成特定人物或以三种个性化身份生成人物。在本节中,我们从技术角度对这些方法进行了全面概述,并将它们分类以下类别:

  • Joint Training(联合训练):在训练阶段就引入多个条件进行联合训练。

  • Continual Learning(持续学习):有顺序的学习多个条件,在学习新条件的同时不遗忘旧的条件,以实现多条件生成。

  • Weight Fusion(权重融合):用不同条件微调得到的参数进行权重融合,以使模型同时具备多个条件下的生成。    

  • Attention-based Integration(基于注意力的集成):通过attention map来设定多个条件(通常为物体)在图像中的位置,以实现多条件生成。

通用条件生成

除了针对特定类型条件量身定制的方法之外,还存在旨在适应图像生成中任意条件的通用方法。这些方法根据它们的理论基础被广泛分类为两组:通用条件分数预测框架和通用条件引导分数估计。

  • 通用条件分数预测框架:通用条件分数预测框架通过创建一个能够编码任何给定条件并利用它们来预测图像合成过程中每个时间步的噪声的框架。这种方法提供了一种通用解决方案,可以灵活地适应各种条件。通过直接将条件信息整合到生成模型中,该方法允许根据各种条件动态调整图像生成过程,使其多才多艺且适用于各种图像合成场景。

  • 通用条件引导分数估计:其他方法利用条件引导的分数估计将各种条件纳入文本到图像扩散模型中。主要挑战在于在去噪过程中从潜变量获得特定条件的指导。

应用

引入新颖条件可以在多个任务中发挥用处,其中包括图像编辑、图像补全、图像组合、文/图生成3D。例如,在图像编辑中,可以利用定制化方法,将图中出现猫编辑为特具有定身份的猫。其他内容请参考论文。

总结

这份综述深入探讨了文本到图像扩散模型的条件生成领域,揭示了融入文本引导生成过程中的新颖条件。首先,作者为读者提供基础知识,介绍去噪扩散概率模型、著名的文本到图像扩散模型以及一个结构良好的分类法。随后,作者揭示了将新颖条件引入T2I扩散模型的机制。然后,作者总结了先前的条件生成方法,并从理论基础、技术进展和解决方案策略等方面对它们进行分析。此外,作者探索可控生成的实际应用,在AI内容生成时代强调其在其中发挥重要作用和巨大潜力。这项调查旨在全面了解当前可控T2I生成领域的现状,从而促进这一充满活力研究领域持续演变和拓展。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的300+页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


多模态和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-多模态和扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如多模态或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法8199篇、2358万字、2.1亿阅读量,这是一份2023年商业白描|36氪年度精选​249篇文献!北邮发布文本到图像Diffusion可控生成最新综述,已开源!AI引爆三甲圈!科主任用AI一天读10篇文献,连发多篇SCI……北邮15名研究生联合举报导师事件,一个细节让人深思极恐Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂梵高大跳科目三,只需文字+火柴人动效!可控视频生成框架来了 | AAAI 2024“近视可防可控”成为可能!北京同仁医院院长打造的护眼神器,米粒亲测有效!CEO突然跑了!图像生成头部玩家Stability AI错在这……不会用ChatGPT的医生会被淘汰?!1小时完成综述,30s读完一篇文献,太牛了!《大寒》《花信风之大寒》AI 也会戴有色眼镜?一文揭露图像生成中的刻板印象游翠鸟湿地加拿大最新招聘趋势:大一大二留学生成最大赢家曼城、爱丁堡、格拉、布里斯托、雷丁、普雷斯顿更多转租房源2月可立即入住,持续更新...(2月4日)《纽约时报》插画师上线了世界第一款“人脑驱动”图像生成器~准确率不足20%,GPT-4V/Gemini竟看不懂漫画!首个图像序列基准测试开源陶大程团队联合港大等发布最新综述:374篇文献全面解析大模型知识蒸馏北大字节开辟图像生成新范式!超越Sora核心组件DiT,不再预测下一个tokenICLR 2024 | Adobe提出DMV3D:3D生成只需30秒!让文本、图像都动起来的新方法!开源日报 | AI PC价值在哪?Windows格式化对话框的UI用了30年;丑头像生成器;独立Redis Copyleft分支开源“靓仔”头像生成器:纯前端本地实现、完全随机绘制——保证独一无二!天亮了吗;汽车兼职;买到事故车;新能源车主的车险焦虑草间弥生成最畅销艺术家,F1添新赛道,郎朗星光大道留名新能源2024:杀出血海,开始赚钱|寻找2024上扬线可控图像生成最新综述!北邮开源20页249篇文献,包揽Text-to-Image Diffusion领域各种「条件」Suno v3音乐生成模型发布,几秒钟生成完整歌曲;富士通用生成式AI加速药物研发丨AIGC日报“难怪这几个北邮硕士赢不了代理人战争”上海城隍庙,地标景点多领域文献阅读超越GPT-4!深势科技发布科学文献多模态大模型Uni-SMART技术报告开源日报 | 微软AI程序员登场,马斯克开源Grok;Open-Sora全面开源春招丨Envision Group远景能源2024春招开启,最佳雇主,行业有前景,偏爱留学生ControlNet作者又出新作:百万数据训练,AI图像生成迎来图层设计最新综述!3D生成进展的全面调研
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。