Redian新闻
>
图像生成过程中遭「截胡」:稳定扩散的失败案例受四大因素影响

图像生成过程中遭「截胡」:稳定扩散的失败案例受四大因素影响

公众号新闻

机器之心专栏

机器之心编辑部

稳定扩散(Stable Diffusion)并不稳定?


文本到图像的扩散生成模型,如 Stable Diffusion、DALL-E 2 和 mid-journey 等,一直都处于蓬勃的发展状态,有着极强的文本到图片的生成能力,但是「翻车」案例也会偶尔出现。


如下图所示,当给定文字提示:「A photo of a warthog」,Stable Diffusion 模型能生成一张相应的、清晰逼真的疣猪照片。然而,当我们对这个文本提示稍作修改,变为:「A photo of a warthog and a traitor」,说好的疣猪呢?怎么变成车了?



一起再来看一看接下来的几个例子,这些又是什么新物种?



是什么原因导致了这些奇怪的现象?这些生成失败的案例都来自于近期发布的一篇论文《Stable Diffusion is Unstable》:


  • 论文地址:https://arxiv.org/abs/2306.02583


在这篇论文中首次提出了一种基于梯度的文本到图像模型的对抗攻击算法。这种算法能够高效且有效地生成大量的攻击性文本提示,能够有效的发掘 Stable diffusion 模型的不稳定之处。这个算法在短文本提示中实现了 91.1% 的攻击成功率,而在长文本提示中,攻击成功率也达到了 81.2%。此外,该算法为研究文本到图像生成模型的失败模式提供了丰富的案例,为图片生成可控性研究奠定了基础。


基于该算法生成出的大量生成失败案例,研究者总结出四点生成失败的原因,分别是: 


  • 生成速度的差异

  • 粗粒度特征的相似性

  • 单词的多义性

  • 词语在 prompt 中的位置


生成速度的差异


当一个提示(prompt)包含多个生成目标时,常常会遇到某个目标在生成过程中消失的问题。理论上讲,同一个提示内的所有目标都应该共享同一个初始噪声。如图 4 所示,研究者们在固定初始噪声的条件下,生成了 ImageNet 上的一千个类别目标。他们将每个目标生成的最后一张图像作为参考图像,并计算了在每个时间步长上生成的图像与最后一步生成的图像的结构相似性指数(SSIM)得分,以此展示了不同目标生成速度的差异。



粗粒度特征的相似性


在扩散生成过程中,研究者发现,当两类目标存在全局或局部的粗粒度特征相似性时,会在计算交叉注意力(cross attention)权重时出现问题。这是因为这两个目标名词可能会同时关注同一张图片的同一个区块,从而产生特征纠缠的现象。例如,在图 6 中,羽毛(feather)和银三文鱼(silver salmon)在粗粒度特征上具有一定的相似性,这导致羽毛可以在基于银三文鱼的第八步生成过程中继续完成其生成任务。而对于没有纠缠的两类目标,比如银三文鱼和魔术师(magician),魔术师就无法在基于银三文鱼的中间步骤图像上完成其生成任务。



一词多义


在这一章节中,研究者们深入探索了当一个词语具有多重含义时的生成情况。他们的发现是,如果没有任何外界的扰动,生成的图像通常会按照该词语的某一特定含义来呈现。以 「warthog」(疣猪)为例,在图 A4 中的第一行就是根据这个词语 「疣猪」这种动物的含义进行生成的。



然而,研究者们也发现,当在原始 prompt 中注入其他词语时,就可能会引发语义的偏移。例如,当在描述 「warthog」的提示中引入了词语 「traitor」(叛徒),生成的图像内容可能就会偏离原来的 「疣猪」含义,产生全新的内容。


词语在 prompt 中的位置


在图 10 中,研究者观察到了一个有趣的现象。虽然从人类的视角来看,那些不同顺序排列的 prompt 大体上含义相同,都是在描述一个既有猫,又有木屐和手枪的图片。然而,对于语言模型,也就是 CLIP 文本编码器来说,词语的顺序在一定程度上影响了其对文本的理解,这种影响反过来又会改变生成图片的内容。这种现象说明,尽管我们的描述在语义上是一致的,但模型却可能因为词语的顺序不同而产生不同的理解和生成结果。这不仅揭示了模型处理语言和理解语义的方式与人类存在差异,同时也提示我们在设计和使用这类模型时,需要更加考虑词语顺序的影响。



模型结构


如下图 1 所示,在不改变提示中原本目标名词的前提下,研究者通过学习 Gumbel Softmax 分布,将单词替换或扩展的离散过程连续化,从而确保扰动生成的可微分性,生成图像后,使用 CLIP 分类器和 margin loss 来优化 ω,旨在生成 CLIP 无法正确分类的图像,为了确保攻击性提示与干净提示具有一定的相似性,研究着近一步使用了语义相似性约束和文本流利度约束。


一旦学会了这个分布学会后,该算法能够针对同一个干净的文本提示采样出多个具有攻击效果的文本提示。




更多细节请见原文。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
药物研发道阻且长:盘点ADC药物十大失败案例Midjourney 5.1来了!图像生成更丝滑,网友已经玩嗨了...逐利的商人和国家利益比Diffusion更快!OpenAI新图像生成模型开源了!清华校友宋飏一作CVPR'23 最佳论文候选 | 采样提速256倍!蒸馏扩散模型生成图像质量媲美教师模型ChatGPT上线新必应搜索;PS更新AI图像生成工具;Anthropic募资近4.5亿美元丨AIGC大事日报乌贼变色的图像生成术:没有一次伪装是相同的SparkyLinux 7 “Orion Belt” 评测:稳定性与新鲜感的结合 | Linux 中国中信建投武超则:下半年AI板块走势关键看两大因素推理效率比ControlNet高20+倍!谷歌发布MediaPipe Diffusion插件,「移动端」可用的图像生成控制模型油价跌穿70,四大因素导致?国际能源署最新发声【首发】贤石生物完成数千万元 A 轮融资,首款子宫内膜修复产品注册临床第一例受试者入组5047 血壮山河之武汉会战 鏖战幕府山 1627只产品25只亏!两大因素制约,公募REITs跌跌不休,机构投资者定价能力何在?美股市场即将出现回调?三大因素不得不防!裁员、不涨薪等因素影响,微软员工士气明显低落楼市刚复苏又现波动:两大因素影响加拿大人买卖房屋计划与Midjourney开战!Stable Diffusion XL 0.9重磅发布,35亿+66亿双模型,AI图像生成飞跃式进步国家统计局:稳就业政策持续显现,就业形势总体稳定增速创10年新低!五大因素压制,2.87万亿企业年金如何扩围?业界呼吁加大税收优惠AI图像生成技术服务商「Tiamat」再获A+轮投资,上线网页版产品加速工具化|早起看早期图像生成终结扩散模型,OpenAI「一致性模型」加冕!GAN的速度一步生图,高达18FPS大温联排告急!三大因素缺一不可,UBC成赢家,有娃父母闭眼入手!回国-出租司机吐槽,老百姓喜欢的饭菜(多图)李超:四大因素逆转,股市已进入牛市状态,重点关注中特估扩散模型还能预测地震和犯罪?清华团队最新研究提出时空扩散点过程Stability AI 发布开源版 DreamStudio,可使用最新 Stable Diffusion XL 图像生成器刘燕硬核观察 #1081 仅 100KB 大小,只需 4 分钟训练的人工智能图像生成器中国团队推出脑电图图像生成模型DreamDiffusion《伤心无话》&《一剪梅*舟过吴江》我的X档案 - 不可思议之事 2(灵魂出窍)(请勿上城头)用GPT-4实现可控文本图像生成,UC伯克利&微软提出新框架Control-GPT三维点云的开放世界理解,分类、检索、字幕和图像生成样样行Stable Diffusion团队放大招!新绘画模型直出AI海报,实现像素级图像生成什么信号?规模狂飙后,量化超额持续衰减!背后有两大因素
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。