ELITE项目原作解读：基于扩散模型的快速定制化图像生成

2023-03-27 08:03

近年来，大规模预训练的扩散模型（如 Imagen、DALLE-2、Stable Diffusion）在图像生成方面取得了巨大进展，尤其是在文本到图像生成任务中。根据给定的文本，现有的大模型能够生成多样且逼真的图像。然而这些模型依然难以满足用户对于生成结果精细控制的需求，特别是生成特定视觉概念的要求。定制化文本到图像生成方法，如 Textual Inversion、Custom Diffusion 等通过将给定的视觉概念表示成文本嵌入，可以更方便地实现对特定概念的生成和编辑。然而这些方法通常基于优化的方式来学习文本嵌入，需要较长时间（几分钟至几十分钟）学习新概念，限制了其实际应用效果。

为了实现快速的定制化文本到图像生成，我们提出一种基于模型的方法 ELITE。首先，ELITE 利用全局编码网络将视觉概念直接映射到文本嵌入，并在训练时引入多层特征策略以提升文本嵌入的可编辑性。同时，ELITE 使用局部编码网络进行细节补充，以更好地平衡定制化生成的一致性和可编辑性。实验结果表明，ELITE 可以在极短的时间内（小于 0.1 秒）学习新的视觉概念，并可以进行高效的编辑。

机器之心最新一期线上分享邀请到了哈尔滨工业大学博士生魏于翔，为大家分享他们近期工作 ELITE。

分享主题：ELITE：基于扩散模型的快速定制化图像生成

分享嘉宾：魏于翔，哈尔滨工业大学博士生，主要研究方向为图像生成，曾在 CVPR, ICCV, ECCV 等会议上发表论文数篇。

分享摘要：ELITE 是一种基于模型的快速定制化文本到图像生成方法。其首先利用全局编码网络将视觉概念直接映射到文本嵌入，并结合局部编码网络对概念细节进行补充，以更好地平衡定制化生成的一致性和可编辑性。实验证明 ELITE 能够以极高的效率（<0.1秒）得到新的视觉概念，并可以高效快捷的编辑。

相关链接：

1）SOTA！模型平台项目主页链接：

https://sota.jiqizhixin.com/project/elite

2）论文链接：

https://arxiv.org/abs/2302.13848

3）代码仓库：

https://github.com/csyxwei/ELITE

加群看直播

直播间：关注机器之心机动组视频号，北京时间 3 月 29 日 19:00 开播。