Redian新闻
>
文生图prompt不再又臭又长!LLM增强扩散模型,简单句就能生成高质量图像|ACM MM'23

文生图prompt不再又臭又长!LLM增强扩散模型,简单句就能生成高质量图像|ACM MM'23

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】参数高效的微调方法SUR-adapter,可以增强text-to-image扩散模型理解关键词的能力。

扩散模型已经成为了主流的文本到图像生成模型,可以基于文本提示的引导,生成高质量且内容丰富的图像。

但如果输入的提示过于简洁,现有的模型在语义理解和常识推理方面都存在局限,导致生成的图像质量下降明显。

为了提高模型理解叙述性提示的能力,中山大学HCP实验室林倞团队提出了一种简单而有效的参数高效的微调方法SUR-adapter,即语义理解和推理适配器,可应用于预训练的扩散模型。

论文地址:https://arxiv.org/abs/2305.05189
开源地址:https://github.com/Qrange-group/SUR-adapter

为了实现该目标,研究人员首先收集并标注了一个数据集SURD,包含超过5.7万个语义校正的多模态样本,每个样本都包含一个简单的叙述性提示、一个复杂的基于关键字的提示和一个高质量的图像。 

然后,研究人员将叙事提示的语义表示与复杂提示对齐,并通过知识蒸馏将大型语言模型(LLM)的知识迁移到SUR适配器,以便能够获得强大的语义理解和推理能力来构建高质量的文本语义表征用于文本到图像生成。


通过集成多个LLM和预训练扩散模型来进行实验,结果展现了该方法可以有效地使扩散模型理解和推理简洁的自然语言描述,并且不会降低图像质量。

该方法可以使文本到图像的扩散模型更容易使用,具有更好的用户体验,可以进一步推进用户友好的文本到图像生成模型的发展,弥补简单的叙事提示和复杂的基于关键字的提示之间的语义差距。

背景介绍

目前,以Stable diffusion为代表的文生图 (text-to-image)预训练扩散模型已经成为目前AIGC领域最重要的基础模型之一,在包括图像编辑、视频生成、3D对象生成等任务当中发挥着巨大的作用。

然而目前的这些预训练扩散模型的语义能力主要依赖于CLIP等文本编码器 (text encoder),其语义理解能力关系到扩散模型的生成效果。

本文首先以视觉问答任务(VQA)中常用问题类别的"Counting (计数)", "Color (颜色)"以及"Action (动作)"构造相应的本文提示来人工统计并测试Stable diffusion的图文匹配准确度。

下表给出了所构造的各种prompt的例子。

 
结果如下表所示,文章揭示了目前文生图预训练扩散模型有严重的语义理解问题,大量问题的图文匹配准确度不足50%,甚至在一些问题下,准确度只有0%。


因此,需要想办法增强预训练扩散模型中本文编码器的语义能力以获得符合文本生成条件的图像。

方法概述

1. 数据准备

首先从常用的扩散模型在线网站lexica.art,civitai.com,stablediffusionweb中大量获取图片文本对,并清洗筛选获得超过57000张高质量 (complex prompt, simple prompt, image) 三元组数据,并构成SURD数据集。


如图所示,complex prompt是指生成image时扩散模型所需要的文本提示条件,一般这些文本提示带有复杂的格式和描述。simple prompt是通过BLIP对image生成的文本描述,是一种符合人类描述的语言格式。

一般来说符合正常人类语言描述的simple prompt很难让扩散模型生成足够符合语义的图像,而complex prompt(对此用户也戏称之为扩散模型的“咒语”)则可以达到令人满意的效果。
 
2. 大语言模型语义蒸馏

本文引入一个transformer结构的Adapter在特定隐含层中蒸馏大语言模型的语义特征,并将Adapter引导的大语言模型信息和原来文本编码器输出的语义特征做线性组合获得最终的语义特征。

其中大语言模型选用的是不同大小的LLaMA模型。扩散模型的UNet部分在整个训练过程中的参数都是冻结的。


3. 图像质量恢复

由于本文结构在预训练大模型推理过程引入了可学习模块,一定程度破坏了预训练模型的原图生成质量,因此需要将图像生成的质量拉回原预训练模型的生成质量水平。


本文利用SURD数据集中的三元组在训练中引入相应的质量损失函数以恢复图像生成质量,具体地,本文希望simple prompt通过新模块后获得的语义特征可以和complex prompt的语义特征尽可能地对齐。

下图展示了SUR-adapter对预训练扩散模型的fine-tuning框架。右侧为Adapter的网络结构。 


实验结果

本文从语义匹配和图像质量两个角度来看SUR-adapter的性能。

一方面,如下表所示,SUR-adapter可以有效地在不同的实验设置下缓解了文生图扩散模型中常见的语义不匹配问题。在不同类别的语义准则下,准确度有一定的提升。

另一方面,本文利用常用的BRISQUE等常用的图像质量评价指标下,对原始pretrain扩散模型和使用了SUR-adapter后的扩散模型所生成图片的质量进行统计检验,我们可以发现两者没有显著的差异。

同时,我们还对此进行了人类偏好的调查问卷测试。

以上分析说明,所提出的方法可以在保持图像生成质量的同时,缓解固有的预训练text-to-image固有的图文不匹配问题。

 


另外我们还可以定性地展示如下图所示的图像生成的例子,更详细的分析和细节请参见本文文章和开源仓库。
 

HCP实验室简介

中山大学人机物智能融合实验室 (HCP Lab) 由林倞教授于 2010 年创办,近年来在多模态内容理解、因果及认知推理、具身智能等方面取得丰富学术成果,数次获得国内外科技奖项及最佳论文奖,并致力于打造产品级的AI技术及平台。


参考资料:
https://arxiv.org/abs/2305.05189



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
文生图模型又“卷”起来了!比 Stable Diffusion 中文理解能力更强、更懂国人的文生图模型是如何构建的?54百亿参数大模型进化树重磅更新!85页盘点LLM发展史,附最详细prompt技巧第四章 三民主义救中国 (2)ACM MM 2023 | CLE Diffusion:可控光照增强扩散模型语言模型战胜扩散模型!谷歌提出MAGVIT-v2:视频和图像生成上实现双SOTA!1句指令+5美元+20分钟,就能训练出小型专业模型,Prompt2Model了解一下超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单知乎 CEO 周源回应匿名功能下线;腾讯光子收购英国游戏开发商;Meta 开发新文生图大模型,号称业界最佳 | 极客早知道拖拽下图像就能生成视频,中科大、微软等DragNUWA属实惊艳在图像、视频生成上,语言模型首次击败扩散模型,tokenizer是关键PS+AI生图一步完成,效果惊人!Adobe Firefly 2重磅更新:模型全面升级,矢量图完美支持一段乱码,竟让ChatGPT越狱!乱序prompt让LLM火速生成勒索软件,Jim Fan惊了消失一段日子的她。。。《蝴蝶与少年》&《鱼尾纹》中科大&微软提出DragNUWA:拖拽下图像就能生成视频!红茶馆的女孩阿雪号称业界最强!Meta发布全新文生图模型,实力碾压Stable Diffusion、MidjourneyAIGC时代的视频扩散模型,复旦等团队发布领域首篇综述腾讯混元大模型开放文生图;微软AI投资重心或转向应用和业务;国产大模型10月榜单公布丨AIGC大事日报AI新风口?首个高质量「文生视频」模型Zeroscope引发开源大战:最低8G显存可跑Llama2等30+模型接入千帆大模型平台,推理成本降50%!还有超全Prompt模板开放体验NeurIPS 2023 | SlotDiffusion: 基于Slot-Attention和扩散模型的全新生成模型GPT-4,Llama2,ChatGLM2,PaLM2共聚一堂 | LLM Day @KDD 2023大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友分居了, 冷眼看婚姻接入Llama 2等33个大模型,上线Prompt模板,百度智能云千帆大模型平台重磅升级NeurIPS 2023 | 扩散模型再发力!微软提出TextDiffuser:图像生成的文字部分也能搞定!还在找PPT背景图?这100张AI生成的高质量图片,现在免费送!PromptScript:轻量级 DSL 脚本,加速多样化的 LLM 测试与验证DreamLLM:多功能多模态大型语言模型,你的DreamLLM~GPT-4、ChatGLM2、Llama2、PaLM2在KDD LLM Day上一起开了个会最强开源SDXL 1.0发布!质量拉满,超简单prompt一键生成傻眼!多伦多妹子吐槽花34刀点"最贵"沙拉:吃起来又臭又恶心!“蔚小理”创始人时隔三年再同框;知乎CEO周源回应匿名功能下线;Meta公布文生图模型CM3Leon丨邦早报苹果“套娃”式扩散模型,训练步数减少七成!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。