Redian新闻
>
阿里公开文生图研究新进展,提出组合式的多概念定制生成方法

阿里公开文生图研究新进展,提出组合式的多概念定制生成方法

公众号新闻


文生图在最近一年取得了显著的进步,DreamBooth 定制化生成工作,进一步证明了文生图的潜力,并且广泛引起了社区关注,相比于单概念生成,在一张图内定制多个概念是更加有趣且具有广泛应用场景(AI 影楼,AI 漫画生成....)。


相比于单概念定制生成取得的成功,阿里提出的 Cones 和 Adobe 提出的 Custom Diffusion 作为现有的多定制概念生成方法仍存在两个挑战:


  • 首先,他们需要为每一种多个概念的组合都学习单独的模型,这可能会受到以下影响:1)无法利用已有的模型,比如一个新的需要定制的多概念组包含三种概念 {A,B,C},无法从已有的 {A,B} 的定制模型中获得知识,只能重新训练。2)当需要定制的概念数量增加时,计算资源的消耗指数上升。


  • 不同的定制概念可能会互相干扰,导致最终生成时有些概念无法显示,或者概念间的属性存在混淆。当概念之间的语义相似度较高时,这种现象尤其明显(例如,同时定制一只猫和一只狗,可能生成的图片中,定制的猫混淆了狗的某些特征。)

基于此,阿里巴巴和蚂蚁集团的研究团队提出了组合式的多概念定制生成方法:Cones 2,能同时定制更多物体,且生成图片质量显著提升。

论文主页:Cone 2

https://arxiv.org/abs/2305.19327
项目主页:Cones-page

https://cones-page.github.io


该团队的前作 Cones 获得了 ICML 2023 的 oral,并且在推特获得了广泛关注。

Cones 2 优势主要体现在 3 个方面。(1)使用简单而有效的方法来表示概念,可以任意组合,复用各种训练好单概念,从而进行多定制概念生成,而无需为多概念进行任何重新训练。(2)使用空间布局作为指导,这在实践中非常容易获得,用户只需要提供一个 bounding box,即可以控制每个概念的特定位置,并同时减轻概念之间的属性混淆。(3)在一些具有挑战性的场景下也能取得令人满意的性能:进行语义相似的多定制概念的生成,如定制两只狗,并且可以交换眼镜;在概念数量上,也可以合成六个概念。




方法

1. 基于扩散模型的文本引导图像生成


扩散模型学习从正态分布噪声中逐步去噪来恢复真实的视觉内容,该过程实际上是在模拟可逆的长度为 T=1000 的马尔可夫链。在文本到图像任务中,条件扩散模型 的训练目标可以简化为重建损失:

文本嵌入 通过交叉注意力机制注入到模型 中。在推理时,网络通过迭代去噪 进行采样。


2. 残差文本嵌入表示概念


为了可以定制化生成用户需要的特定概念,模型首先需要“记住”这些概念的特征。由于改变预训练模型参数往往会导致模型的泛化性下降,Cones 2 选择针对每个特定概念学习一个合适的编辑方向。将这个方向作用于概念对应的基类的特征编码上,就可以得到定制化的结果,这个方向称为 residual token embedding。


举个例子,在使用 Stable Diffusion 生成图像“一只狗坐在海滩上”时,整个生成过程由文本经过文本编码模型得到的文本编码控制,那么只需要将“狗”对应的文本编码做合适的偏移,就可以让模型生成出定制化的“狗”。为了得到 residual token embedding,首先需要用给定的数据微调文本编码模型,在训练过程中 Cones 2 通过引入文本编码保持损失,限制微调后的文本编码器的输出和原始预训练的文本编码器的输出尽可能接近。


同样参考上面的例子,给定“一只狗坐在海滩上”作为输入,这两个文本编码器输出的文本编码,只在定制化概念对应的类别词(狗)这里差别较大,在其他词(海滩等。。。)的部分尽可能保持输出一致。结合原本的生成模型,微调后的文本编码器具有定制特定概念的能力,由于微调过程采用了文本编码保持损失的约束,这种能力可以通过计算微调过的文本编码器和原始文本编码器在类别词部分的平均差异,来得到需要的 residual token embedding:

基于上述方法得到残差表示,是可以重复使用并且即插即用的。在做多概念定制化生成的时候,只需要将每个定制概念所对应类别词的文本编码加上对应的残差项即可。

3. 通过空间布局引导多概念组合生成

交叉注意力层之间的注意力图如下 ,交叉注意力图直接影响最终生成的空间布局,多概念定制生成的图片中的一个问题是某些概念可能无法显示。为了避免这种情况,Cones 2 在希望其出现即用户通过 bounding box 指定的区域中增强目标概念的激活值。另一个问题是概念间的属性存在混淆,即生成图像中的概念可能包含其他概念的特征。

为了避免这种情况,则希望削弱每个对象出现在用户指定区域外的激活值。结合上述两种想法,Cones 2 提出了一种根据预定义布局 指导生成过程的方法。在实践中,将布局 定义为一组概念边界框,由每个概念的的指导布局 组成。在希望概念 出现的区域中将  的值设置为正值,并在与该概念无关区域中将 的值设置为负。对注意力图进行编辑。



实验

将生成结果与现有方法进行对比,从训练的计算复杂度,以及生成效果,均有显著提升。

并且在处理更多概念的生成,以及处理语义相似物体的场景下,都有着优越表现。



应用前景


多定制概念生成除了能够生成更加高质量,内容丰富的图片外,同时具有广泛的应用前景,现在大火的 ControlNet 更多是控制生成图片中的结构,多概念定制生成可以对生成的内容进行控制,使文本到图像的生成更加可控,进一步提高了文生图模型的应用价值。比如,创作者通过输入文本,通过几个定制好的角色概念,进行多格漫画生成;通过组合用户定制的自身角色概念和商家提供的多个试戴试穿的定制概念(衣服,首饰,鞋帽等等),实现多款服装的试穿体验。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
《西部让我走进你》&合唱《这一生关于你的风景》超大杯Stable Diffusion免费来袭!「最强文生图开放模型」,提示词也更简单喜报 |施一公团队研究新进展、必扬医药完成数千万元PreA轮融资文生图prompt不再又臭又长!LLM增强扩散模型,简单句就能生成高质量图像|ACM MM'23Redox Biology | 何玲/孙逸团队合作发表阿尔兹海默症治疗药物研究新进展开源文生图模型再进化,Stable Diffusion XL 1.0登场,出图效果不输Midjourney颜宁团队的研究新进展!关于大麻刚刚,阿里公告:不参与!Nature Medicine | 临床研究新进展!复旦大学联合华大为食管癌治疗提供参考中国团队自动驾驶大模型斩获CVPR最佳论文;Stability AI推出新文生图模型;京东大模型即将发布丨AIGC大事日报对标DALL·E 3!Meta最强文生图Emu技术报告出炉C919各系统的供货商双林奇案录第三部之川黔连环案: 第十六节关注血脂残余风险——2023血脂领域研究新进展|CIT 2023重磅!再次登顶 Nature,张锋团队研究新进展!苹果或降低Vision Pro销售预期/中国电信回应广东无信号/微信上线「文生图」功能AI创作有著作权吗?首例 “AI 文生图” 案开审做了亿万富翁才有安全感重磅会议!央行等三部委最新部署!证监会祭出组合拳…周末影响一周市场的十大消息(新股+点评)重磅利好!证监会祭出组合拳!事关延长A股交易时间、IPO节奏、印花税、T+0、增量资金…信息量巨大“蔚小理”创始人时隔三年再同框;知乎CEO周源回应匿名功能下线;Meta公布文生图模型CM3Leon丨邦早报阿里公益、小米公益基金会驰援京津冀等地防汛救灾|绿研院日报文生图模型又“卷”起来了!比 Stable Diffusion 中文理解能力更强、更懂国人的文生图模型是如何构建的?知乎 CEO 周源回应匿名功能下线;腾讯光子收购英国游戏开发商;Meta 开发新文生图大模型,号称业界最佳 | 极客早知道17万网友围观!中国首例“AI文生图”著作权案庭审直播,AIGC构成作品吗?不只降本增效!文生图以后,AI正在帮助净化游戏环境号称业界最强!Meta发布全新文生图模型,实力碾压Stable Diffusion、MidjourneyFacebook推荐系统研究新进展:结合多模态信息与排名式学习的搜索EBR系统AI文生图有没有著作权?国内首例案件公开审理邀你点开这一篇来记得六·四高通:生成式AI商机不只在数据中心,混合式AI才是真正王道Nature子刊|威大华人团队全新多模态数据分析及生成方法JAMIE,大幅提升细胞类型、功能预测能力Meta重新定义多模态!北大校友共同一作,70亿参数文生图模型击败DiffusionPatagonia创始人Yvon Chouinard获戛纳创意节狮心奖;阿里公关部门疑似独立,知情人士否认(广告狂人日报)科技狠活!多伦多概念鞋博物馆:Nike回到未来MAG首次亮相!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。