「文生图」再升级!学习个性化参照,无限生成多样图片,轻松设计玩具建筑
新智元报道
新智元报道
【新智元导读】将图片集反演到语义空间的分布,生成多样个性化图片或3D渲染,支持灵活文本编辑、多样性控制、概念混合等。
最近,来自南加州大学、哈佛大学等机构的研究团队提出了一种全新的基于提示学习的方法——DreamDistribution。
这种方法可以让任何基于文字提示的生成模型(比如文生图、文生3D等),通过一组参照图片来学习对应的视觉属性共性和变化的文本提示分布。
不仅如此,学习到的提示分布可以用来生成近似于参照图片但更具多样性的图片,同时也支持调整分布的方差来控制多样性,结合多个提示分布生成混合概念图片等操作。
简单来说就是,仅用几张到十几张参照图片就能无限生成符合参照图片视觉效果并具有显著多样性的图片,轻松生成高达玩具模型多样新设计!
在3D生成模型上即插即用,还可以生成不同样式的跑车,建筑等:
同样支持类似于Textual Inversion,DreamBooth的文本引导编辑能力:
在3D生成上同样具有编辑能力:
在训练后支持控制生成的多样性的操作(第二行向下多样性增加):
支持多种概念的混合:
如下图所示,用户只需提供一组参照图片,比如不同的高达玩具图像,DreamDistribution就可以学习到一个对应于这一组图片的文本提示分布D*。
然后,在推理时通过从D*中采样,生成有足够变化和多样性的分布内输出图像。
此外,D*同样支持由文本引导的编辑来生成图像的变化,比如从Jumping D*的提示分布中采样即可生成跳跃姿势的高达玩具图片等等。
由于方法相对独立于下游的生成模型,学习到的提示分布同样适用于其他基于文本提示的生成任务。
除了展示中基于MVDream文本到3D生成作为例子,通过类似的提示修改也可生成具有适当变化的符合文本提示的3D模型渲染。
研究动机
在扩散生成模型日益蓬勃发展的今天,视觉生成的质量随之提高。
最先进的图片生成模型,如DALL·E,Imagen,Stable Diffusion,MidJourney等系列的文本生成图像模型,已经可以生成非常高质量的图片。
但同时,由于文本提示很难概括视觉概念上的细节,一些研究如Textual Inversion,DreamBooth等通过图片引导的方法追求模型生成的可控性以及个性化(personalization/customization)能力,即根据参照图片使生成模型理解一个个性化概念,如特定的一条宠物狗,一个特定的玩具,等等,再通过文字引导的提示编辑来生成基于个性化概念变化的图片。
然而,这些方法都着重于个性化一个具体的实例,但在很多情况下用户可能需要个性化一个更抽象的视觉特征并生成新的实例,比如生成设计风格一致的新高达玩具,或者相似画风的新卡通角色、新画作、等等。
如果使用已有的实例层面的个性化方法则很难生成不同于参照图片中给定的实例的图片,并且如果参考图片表述的并非同一个实例时,现有的实例层面的个性化方法则无法捕捉到参考图片中的变化,并在生成过程中导致有限的多样性。
方法概述
方法概述
DreamDistribution训练方法主要分为三部分。
1. 基于类似Textual Inversion的提示学习的方法,只更新固定长度的提示嵌入,冻结其余下游文本编码器以及扩散模型的参数。
2. 在提示学习的基础上,引入了提示分布学习,即保存多个长度相同的文本提示嵌入,并在语义空间内用这些提示的语义特征去拟合一个提示的高斯分布。
同时为保证不同的提示在语义空间内的特征不同,引入了正交损失项(Orthogonal Loss)去最小化不同提示之间在语义空间内的的余弦相似度。
3. 为了优化整体分布,使用了重参数的方法进行多次可导采样,最后的损失函数为与训练下游生成模型相同的图片重建损失或噪声预测的均方损失函数,以及由超参数控制的正交损失函数。
推理时即可直接从学习到的文本提示分布中采样,作为下游生成模型的提示输入来输出图片。
如果需要进行文本引导的提示修改,则对所有提示在嵌入空间加同样的文本前缀或后缀,并重新在语义特征空间拟合高斯分布并采样作为下游生成模型的输入。
实验和结果
总结
总结
这项工作注重于不同于实例层面而时更广泛的图片集层面的个性化生成任务,从而使得生成的图像更具多样性、创新性,但同时符合参照图片的一些视觉属性。
工作还有一些不足,比如生成效果高度依赖于训练图片的质量和多样性,并且在3D生成上的结果还有提高空间。
研究人员希望未来能有办法将方法优化得更鲁棒,同时提升在类似3D生成任务上的效果。更多细节请参考原文章。
微信扫码关注该文公众号作者