Redian新闻
>
谷歌提出DreamBooth:新扩散模型!只需3张图一句话,AI就能定制照片级图像!

谷歌提出DreamBooth:新扩散模型!只需3张图一句话,AI就能定制照片级图像!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—> CV 微信技术交流群

转载自:机器之心  |  编辑:陈萍、小舟
来自谷歌和波士顿大学的研究者提出了一种「个性化」的文本到图像扩散模型 DreamBooth,能够适应用户特定的图像生成需求。

近来,文本到图像模型成为一个热门的研究方向,无论是自然景观大片,还是新奇的场景图像,都可能使用简单的文本描述自动生成的。


其中,渲染天马行空的的想象场景是一项具有挑战性的任务,需要在新的场景中合成特定主题(物体、动物等)的实例,以便它们自然无缝地融入场景。


一些大型文本到图像模型基于用自然语言编写的文本提示(prompt)实现了高质量和多样化的图像合成。这些模型的主要优点是从大量的图像 - 文本描述对中学到强大的语义先验,例如将「dog」这个词与可以在图像中以不同姿势出现的各种狗的实例关联在一起。


虽然这些模型的合成能力是前所未有的,但它们缺乏模仿给定参考主题的能力,以及在不同场景中合成主题相同、实例不同的新图像的能力。可见,已有模型的输出域的表达能力有限。



为了解决这个问题,来自谷歌和波士顿大学的研究者提出了一种「个性化」的文本到图像扩散模型 DreamBooth,能够适应用户特定的图像生成需求。



论文地址:https://arxiv.org/abs/2208.12242

项目地址:https://github.com/XavierXiao/Dreambooth-Stable-Diffusion


该研究的目标是扩展模型的语言 - 视觉字典,使其将新词汇与用户想要生成的特定主题绑定。一旦新字典嵌入到模型中,它就可以使用这些词来合成特定主题的新颖逼真的图像,同时在不同的场景中进行情境化,保留关键识别特征,效果如下图 1 所示。


具体来说,该研究将给定主题的图像植入模型的输出域,以便可以使用唯一标识符对其进行合成。为此,该研究提出了一种用稀有 token 标识符表示给定主题的方法,并微调了一个预训练的、基于扩散的文本到图像框架,该框架分两步运行;从文本生成低分辨率图像,然后应用超分辨率(SR)扩散模型。


首先该研究使用包含唯一标识符(带有主题类名,例如「A [V] dog」)的输入图像和文本提示微调低分辨率文本到图像模型。为了防止模型将类名与特定实例过拟合和语义漂移,该研究提出了一种自生的、特定于类的先验保存(preservation)损失,它利用嵌入模型中类的先验语义,鼓励模型生成给定主题下同一类中的不同实例。


第二步,该研究使用输入图像的低分辨率和高分辨率版本对超分辨率组件进行微调。这允许模型对场景主题中小而重要细节保持高保真度。


我们来看一下该研究提出的具体方法。


方法介绍


给定 3-5 张捕获的图像,这些图像没有文字描述,本文旨在生成具有高细节保真度和由文本提示引导变化的新图像。该研究不对输入图像施加任何限制,并且主题图像可以具有不同的上下文。方法如图 3 所示。输出图像可对原始图像进行修改,如主题的位置,更改主题的属性如颜色、形状,并可以修改主体的姿势、表情、材质以及其他语义修改。


更具体的说,本文方法将一个主题(例如,一只特定的狗)和相应类名(例如,狗类别)的一些图像(通常 3 - 5 张图)作为输入,并返回一个经过微调 / 个性化的文本到图像模型,该模型编码了一个引用主题的唯一标识符。然后,在推理时,可以在不同的句子中植入唯一标识符来合成不同语境中的主题。



该研究的第一个任务是将主题实例植入到模型的输出域,并将主题与唯一标识符绑定。该研究提出了设计标识符的方法,此外还设计了一种监督模型微调过程的新方法。


为了解决图像过拟合以及语言漂移问题,该研究还提出了一种损失( Prior-Preservation Loss ),通过鼓励扩散模型不断生成与主题相同的类的不同实例,从而减轻模型过拟合、语言漂移等问题。


为了保留图像细节,该研究发现应该对模型的超分辨率(SR)组件进行微调,本文在经过预训练的 Imagen 模型的基础上来完成。具体过程如图 4 所示,给定同一主题的 3-5 张图像,之后通过两个步骤微调文本到图像的扩散模型:



稀有 token 标识符表示主题


该研究将主题的所有输入图像标记为「a [identifier] [class noun]」,其中 [identifier] 是链接到主题的唯一标识符,而 [class noun] 是主题的粗略类别描述符 (例如猫、狗、手表等)。该研究在句子中特别使用了类描述符,以便将类的先验与主题联系起来。


效果展示


下面是 Dreambooth 一个稳定扩散的实现(参考项目链接)。定性结果:训练图像来自「Textual Inversion」库:



训练完成后,在「photo of a sks container」提示下,模型生成的集装箱照片如下:



在提示中加个位置「photo of a sks container on the beach」,集装箱出现在沙滩上;



绿色的集装箱颜色太单一了,想加点红色,输入提示「photo of a red sks container」就能搞定:



输入提示「a dog on top of sks container」就能让小狗坐在箱子里:


下面是论文中展示的一些结果。生成不同画家风格的关于狗狗的艺术图:



该研究还可以合成输入图像中没有出现的各种表情,展示了模型的外推能力:


想要了解更多细节,请参考原论文。


点击进入—> CV 微信技术交流群


CVPR/ECCV 2022论文和代码下载


后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:ECCV2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer222,进交流群


CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!


扫码进群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
女王的终身爱好—骑马生成扩散模型漫谈:最优扩散方差估计(下)卷!MIT提出泊松流生成模型击败扩散模型,兼顾质量与速度超越BEiT-3!谷歌提出多模态大模型PaLI:刷新多个数据集SOTA!7 Papers & Radios | 扩散模型只用文字PS照片;MIT泊松流生成模型击败扩散模型3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,给一个文本提示就能生成3D模型!谷歌提出FlexiViT:适用于所有Patch大小的模型美国选举结果未必就表达了民意扩散模型再下一城!AR-LDM:用扩散模型合成连贯视觉故事!输入字幕就能脑补画面,代词ta都分得清生成扩散模型漫谈:统一扩散模型(理论篇)只需3个样本一句话,AI就能定制照片级图像,谷歌在玩一种很新的扩散模型生成扩散模型漫谈:从万有引力到扩散模型谷歌新作Imagic:扩散模型只用文字就能PS照片了!网友:效果太震撼...扩散模型再发力!Hinton团队提出:图像和视频全景分割新框架7 Papers & Radios | 谷歌推出DreamBooth扩散模型;张益唐零点猜想论文出炉统治扩散模型的U-Net要被取代了,谢赛宁等引入Transformer提出DiT妙招 - 让电钻电池死而复生中科大&微软提出SinDiffusion:从单个自然图像学习扩散模型采样提速256倍,蒸馏扩散模型生成图像质量媲美教师模型,只需4步生成扩散模型漫谈:最优扩散方差估计(上)只需3秒就能偷走你的声音!微软发布语音合成模型VALL-E:网友惊呼「电话诈骗」门槛又拉低了NeurIPS 2022 | 一句话让三维模型生成逼真外观风格,精细到照片级细节NeurIPS 2022 | Stable Diffusion采样速度翻倍!清华提出扩散模型高效求解器美丽与野性共存的冰川国家公园(4)格林内尔冰川步道-美极了《西罗普郡一少年》: 45: 要是正巧,你的眼睛冒犯了你Transformer如何做扩散模型?伯克利最新《transformer可扩展扩散模型》论文生成扩散模型漫谈:“硬刚”扩散ODENeurIPS 2022 | 一句话让3D模型生成逼真外观风格!精细到照片级细节!训练速度提高最多5.4倍,谷歌提出RL训练新范式ActorQ
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。