Redian新闻
>
​249篇文献!北邮发布文本到图像Diffusion可控生成最新综述,已开源!

​249篇文献!北邮发布文本到图像Diffusion可控生成最新综述,已开源!

公众号新闻

©作者 | 曹朴
单位 | 北京邮电大学
研究方向 | 扩散模型

作者单位:

北京邮电大学

论文链接:

https://arxiv.org/abs/2403.04279

代码链接:

https://github.com/PRIV-Creation/Awesome-Controllable-T2I-Diffusion-Models


TL;DR(太长不看版总结)


利用文本生成图片(Text-to-Image, T2I)已经满足不了人们的需要了,近期研究在 T2I 模型的基础上引入了更多类型的条件来生成图像,本文对这些方法进行了总结综述。



摘要

在视觉生成领域迅速发展的过程中,扩散模型已经彻底改变了这一领域的格局,通过其令人印象深刻的文本引导生成功能标志着能力方面的重大转变。然而,仅依赖文本来调节这些模型并不能完全满足不同应用和场景的多样化和复杂需求。


鉴于这种不足,许多研究旨在控制预训练文本到图像(T2I)模型以支持新条件。在此综述中,作者对关于具有 T2I 扩散模型可控性生成的文献进行了彻底审查,涵盖了该领域内理论基础和实际进展。


我们的审查从简要介绍去噪扩散概率模型(DDPMs)和广泛使用的 T2I 扩散模型基础开始。然后我们揭示了扩散模型的控制机制,并从理论上分析如何将新条件引入去噪过程以进行有条件生成。此外,我们提供了对该领域研究情况详尽概述,并根据条件角度将其组织为不同类别:具有特定条件生成、具有多个条件生成以及通用可控性生成。

▲ 图1 利用 T2I 扩散模型可控生成示意图。在文本条件的基础上,加入“身份”条件来控制输出的结果。



分类体系

▲ 图2 可控生成的分类。从条件角度来看,我们将可控生成方法分为三个子任务,包括具有特定条件的生成、具有多个条件的生成和通用可控生成。


利用文本扩散模型进行条件生成的任务代表了一个多方面和复杂的领域。从条件角度来看,我们将这个任务分为三个子任务(参见图2)。大多数研究致力于如何在特定条件下生成图像,例如基于图像引导的生成和草图到图像的生成。为了揭示这些方法的理论和特征,我们根据它们的条件类型进一步对其进行分类。


  • 利用特定条件生成:指引入了特定类型条件的方法,既包括定制的条件(Personalization, e.g., DreamBooth, Textual Inversion),也包含比较直接的条件,例如 ControlNet 系列、生理信号 -to-Image。

  • 多条件生成:利用多个条件进行生成,对这一任务我们在技术的角度对其进行细分。

  • 统一可控生成:这个任务旨在能够利用任意条件(甚至任意数量)进行生成。


如何在T2I扩散模型中引入新的条件

细节请参考论文原文,下面对这些方法机理进行简要介绍。

1. 条件得分预测(Conditional Score Prediction)

在 T2I 扩散模型中,利用可训练模型(例如 UNet)来预测去噪过程中的概率得分(即噪声)是一种基本且有效的方法。在基于条件得分预测方法中,新颖条件会作为预测模型的输入,来直接预测新的得分。其可划分三种引入新条件的方法:


  • 基于模型的条件得分预测:这类方法会引入一个用来编码新颖条件的模型,并将编码特征作为 UNet 的输入(如作用在 cross-attention 层),来预测新颖条件下的得分结果;
  • 基于微调的条件得分预测:这类方法不使用一个显式的条件,而是微调文本嵌入和去噪网络的参数,来使其学习新颖条件的信息,从而利用微调后的权重来实现可控生成。例如 DreamBooth 和 Textual Inversion 就是这类做法。
  • 无需训练的条件得分预测:这类方法无需对模型进行训练,可以直接将条件作用于模型的预测环节,例如在 Layout-to-Image(布局图像生成)任务中,可以直接修改 cross-attention 层的 attention map 来实现设定物体的布局。

2. 条件引导的得分评估

条件引导估的得分估计方法是通过条件预测模型(如上图 Condition Predictor)反传梯度来在去噪过程中增加条件指导。



利用特定条件生成

  • Personalization(定制化):定制化任务旨在捕捉和利用概念作为生成条件行可控生成,这些条件不容易通过文本描述,需要从示例图像中进行提取。如 DreamBooth,Texutal Inversion 和 LoRA。

  • Spatial Control(空间控制):由于文本很难表示结构信息,即位置和密集标签,因此使用空间信号控制文本到图像扩散方法是一个重要的研究领域,例如布局、人体姿势、人体解析。方法例如 ControlNet。

  • Advanced Text-Conditioned Generation(增强的文本条件生成):尽管文本在文本到图像扩散模型中起着基础条件的作用,但该领域仍存在一些挑战。首先,在涉及多个主题或丰富描述的复杂文本中进行文本引导合成时,通常会遇到文本不对齐的问题。此外,这些模型主要在英语数据集上训练,导致了多语言生成能力明显不足。为解决这一限制,许多工作提出了旨在拓展这些模型语言范围的创新方法。

  • In-Context Generation(上下文生成):在上下文生成任务中,根据一对特定任务示例图像和文本指导,在新的查询图像上理解并执行特定任务。

  • Brain-Guided Generation(脑信号引导生成):脑信号引导生成任务专注于直接从大脑活动控制图像创建,例如脑电图(EEG)记录和功能性磁共振成像(fMRI)。

  • Sound-Guided Generation(声音引导生成):以声音为条件生成相符合的图像。

  • Text Rendering(文本渲染):在图像中生成文本,可以被广泛应用到海报、数据封面、表情包等应用场景。


多条件生成

多条件生成任务旨在根据多种条件生成图像,例如在用户定义的姿势下生成特定人物或以三种个性化身份生成人物。在本节中,我们从技术角度对这些方法进行了全面概述,并将它们分类以下类别:


  • Joint Training(联合训练):在训练阶段就引入多个条件进行联合训练。

  • Continual Learning(持续学习):有顺序的学习多个条件,在学习新条件的同时不遗忘旧的条件,以实现多条件生成。

  • Weight Fusion(权重融合):用不同条件微调得到的参数进行权重融合,以使模型同时具备多个条件下的生成。

  • Attention-based Integration(基于注意力的集成):通过 attention map 来设定多个条件(通常为物体)在图像中的位置,以实现多条件生成。


通用条件生成

除了针对特定类型条件量身定制的方法之外,还存在旨在适应图像生成中任意条件的通用方法。这些方法根据它们的理论基础被广泛分类为两组:通用条件分数预测框架和通用条件引导分数估计。


  • 通用条件分数预测框架:通用条件分数预测框架通过创建一个能够编码任何给定条件并利用它们来预测图像合成过程中每个时间步的噪声的框架。这种方法提供了一种通用解决方案,可以灵活地适应各种条件。通过直接将条件信息整合到生成模型中,该方法允许根据各种条件动态调整图像生成过程,使其多才多艺且适用于各种图像合成场景。

  • 通用条件引导分数估计:其他方法利用条件引导的分数估计将各种条件纳入文本到图像扩散模型中。主要挑战在于在去噪过程中从潜变量获得特定条件的指导。



应用

引入新颖条件可以在多个任务中发挥用处,其中包括图像编辑、图像补全、图像组合、文/图生成 3D。例如,在图像编辑中,可以利用定制化方法,将图中出现猫编辑为特具有定身份的猫。其他内容请参考论文。



总结

这份综述深入探讨了文本到图像扩散模型的条件生成领域,揭示了融入文本引导生成过程中的新颖条件。首先,作者为读者提供基础知识,介绍去噪扩散概率模型、著名的文本到图像扩散模型以及一个结构良好的分类法。随后,作者揭示了将新颖条件引入 T2I 扩散模型的机制。然后,作者总结了先前的条件生成方法,并从理论基础、技术进展和解决方案策略等方面对它们进行分析。


此外,作者探索可控生成的实际应用,在 AI 内容生成时代强调其在其中发挥重要作用和巨大潜力。这项调查旨在全面了解当前可控 T2I 生成领域的现状,从而促进这一充满活力研究领域持续演变和拓展。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Suno v3音乐生成模型发布,几秒钟生成完整歌曲;富士通用生成式AI加速药物研发丨AIGC日报不会用ChatGPT的医生会被淘汰?!1小时完成综述,30s读完一篇文献,太牛了!上海交大新框架解锁CLIP长文本能力,多模态生成细节拿捏,图像检索能力显著提升AI成功改写人类DNA,全球首个基因编辑器震撼开源!近5倍蛋白质宇宙LLM全生成检索增强生成引擎 RAGFlow 正式开源!仅一天收获上千颗星突发!Stable Diffusion老板也跑了!核心研发已集体辞职,已经unstable了...CVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRF最新综述!3D生成进展的全面调研Stability AI让更多的开发者可以访问其下一代文本到图像生成器基础模型、长文本、数据库、应用落地……一篇文章读懂今天大模型行业的关键问题丨2024 GDCMeta无限长文本大模型来了:参数仅7B,已开源可控图像生成最新综述!北邮开源20页249篇文献!Stable Diffusion 3 API 发布!超越Midjourney v6和DALL-E 3密码改变历史:从雅典间谍、戚继光到图灵4个令人兴奋的爆火AI项目,已开源!梵高大跳科目三,只需文字+火柴人动效!可控视频生成框架来了 | AAAI 202441、长篇家庭伦理小说《嫁接》第十章 不期而遇(2)我和我的房客(1)超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源可控图像生成最新综述!北邮开源20页249篇文献,包揽Text-to-Image Diffusion领域各种「条件」AI早知道|百度发布文心大模型4.0工具版;Poe 推出多机器人聊天功能意大利共產黨員托尼大雁鲑鱼AI引爆三甲圈!科主任用AI一天读10篇文献,连发多篇SCI……多领域文献阅读超越GPT-4!深势科技发布科学文献多模态大模型Uni-SMART技术报告宇宙人(1485期)神舟十八号船箭组合体转运至发射区;海能达产品禁售令取消,即刻恢复商业活动;李彦宏发布文心大模型4.0工具版Pika联创参与新研究:Diffusion能抢GPT的活了!成功挑战自回归文本范式Stable Diffusion 3 论文终于发布,架构细节大揭秘,对复现 Sora 有帮助?Stable Video 3D重磅开源!3D生成迎来新突破!写在星期一西安交大发表鲁棒视觉问答综述,揭秘AI视觉问答的“超强大脑”丨IEEE TPAMI开放开源!蚂蚁集团浙江大学联合发布开源大模型知识抽取框架OneKE陶大程团队联合港大等发布最新综述:374篇文献全面解析大模型知识蒸馏Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂3个令人兴奋的AI项目,已开源!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。