Redian新闻
>
StyleMamba:图片风格不满意?一句话就能调!

StyleMamba:图片风格不满意?一句话就能调!

公众号新闻
 夕小瑶科技说 原创
 作者 | Axe_越

你与哈利波特的距离,只剩一个StyleMamba!

“我想,把我的图变成朦胧马赛克”

“我想,我的画能不能变成美美的莫奈风格”

“我想,我刚刚拍的自拍能不能加上个摄魂怪滤镜(???)”

“...”

如今,这些堪比“哈利波特世界”魔咒的炫酷效果,正在AI界逐步成为现实

图片不喜欢?想要换一种风格? —— 说出你的想法,立马就能实现

论文标题:
StyleMamba - State Space Model for Efficient Text-driven Image Style Transfer

论文链接:
https://arxiv.org/pdf/2405.05027.pdf

动机

在计算机视觉和自然语言处理的交叉领域,文本驱动的图像风格转换技术近年来取得了显著的进展。与传统的图像驱动风格转换不同,文本驱动风格转换通过文本描述来指导图像的风格变换。这种方式不仅增强了灵活性,还提高了可解释性,因为文本提供了一种比具体参考图像更抽象、语义更丰富的风格或属性表达。这使得用户能够表达复杂的艺术概念和情感,而这是单独通过示例图像所不能传达的。

图像驱动风格转换

文本驱动风格转换

文本驱动的风格转换技术,如Clipstyler、DiffusionCLIP和TxST等,展示了文本在视觉多样性方面的巨大潜力。这些方法的核心思想是对齐文本和图像嵌入,使得风格化图像能够忠实地反映文本。然而,这些方法需要考虑文本描述的细微差别和视觉风格的一致性。更重要的是,它们需要数百次训练迭代和大量的GPU资源,这对实际应用来说效率很低。

为解决这两个问题,本文提出了StyleMamba。

方法

StyleMamba框架

  • 自动编码器(Auto Encoder):用于编码内容图像并重构风格化图像。考虑到在编码内容图像到丰富且压缩的隐空间方面的出色能力,以及对重要特征的保留能力,这里采用经过预训练的来自稳定扩散模型(Stable Diffusion Model)的变分自动编码器(VAE),从而实现准确的风格重构。
  • 风格融合模块(Style Fusion Module):这一模块通过结合自适应层规范化(Adaptive Layer Norm,AdaLN)和Mamba过程,有效地将文本风格特征与内容图像特征结合起来。由于只关注相关特征,Mamba的选择性过程加速了风格转移,从而加快了训练和推理速度。
  • SigLIP模块:SigLIP模块的引入,是为了增强风格融合过程。由于其丰富的语义编码能力,SigLIP在零样本分类准确率上要更优于CLIP,能更好地概括未见过的图像类别。

简单来说,在StyleMamba的操作流程中,输入的内容图像首先被转换为隐向量,而风格文本则被转换为嵌入,然后将他们在风格融合模块中融合,得到新的特征图。在文本到图像风格损失的指导下,解码器解码成风格化图像

损失函数

在文本驱动的图像风格转换领域,损失函数的设计是提升模型性能的关键。StyleMamba框架中引入了几种创新的损失函数,旨在更精确地对齐文本描述与图像风格,同时加速模型的训练过程。

  • 全局方向损失(Global directional loss):全局方向损失是StyleMamba的核心,它通过计算文本和图像特征的方向向量之间的余弦相似度,确保风格化过程与文本描述保持一致。这种损失函数的设计帮助模型更好地捕捉到文本表达的目标风格。

  • 掩方向损失(Masked directional loss):掩方向损失是对传统方向损失的扩展,它通过在图像的随机区域应用掩码,强化了模型对风格特征的学习。这种方法不仅提高了风格转换的一致性,还通过自监督的方式加快了重建过程,使模型在部分可见的风格特征下也能保持高度的风格保真度。

  • 二阶方向损失(Second-order directional loss):二阶方向损失是一个创新的设计,用于加速模型对风格化方向的调整。通过考虑连续迭代中风格化图像的变化,这种损失函数确保了向目标视觉风格的快速且连贯的过渡。它通过计算连续迭代期间图像特征差的平方范数,并通过动态调整项来加权,从而实现快速优化。

上图展示了二阶方向损失()如何在风格化的方向上进行快速调整。值得注意的是,它促进了精细化风格转变,确保了向目标视觉风格的快速连贯过渡。

这些损失函数的组合使用,不仅加快了模型的训练速度,还在风格转换的精确度和内容保持方面表现出色。通过这些创新的损失函数设计,StyleMamba能够在较少的训练迭代中,实现复杂风格的快速且高保真的转换,展示了其在艺术创作和实际应用中的巨大潜力。

实验

实验设置与评估指标

为评估StyleMamba的性能,本文使用了两个不同的数据集:COCO和WikiArt。这两个数据集在训练阶段均未被使用,以评估模型在捕捉和渲染复杂艺术风格方面的有效性。

这里采用了三个主要的评估指标来衡量模型的性能:

  • CLIP得分:通过计算文本和图像特征之间的余弦相似度来评估风格对齐的质量。
  • SSIM指数:用于衡量原始图像与风格化图像之间的相似度,较高的SSIM指数表示更好的内容保留。
  • VGG损失:通过比较内容图像和风格化图像在VGG网络不同层上的特征响应来捕捉内容差异,较低的VGG内容损失表明性能更佳。

实验结果与分析

在与现有的最先进技术进行比较后,StyleMamba在CLIP得分、SSIM指数和VGG损失方面均显示出优越性,这表明其在风格转换和内容保留方面的能力较强。

此外,与其他风格转换模型(如Clipstyler和DiffusionCLIP)的训练时间和推理时间相比,StyleMamba在达到相似的风格损失水平时,训练和推理时间都大大缩短。

如下图所示,与其他模型相比,StyleMamba不仅在风格转换和内容保留方面具有优势,在美学上也较为符合人类的期望,具有较高的应用价值。

为了测试StyleMamba的泛化效果,本文在下图中展示了6个实际应用效果。StyleMamba展现出了在一系列自由创作场景下的强势能力。

结论与展望

本文提出了一个创新的文本驱动图像风格迁移框架StyleMamba,通过将条件状态空间模型集成到自编码架构中,显著减少了训练迭代次数、推理时间以及每个epoch所需的训练时间。同时,本文还引入了掩方向损失和二阶方向损失,这些新颖的损失函数对实现与文本描述高度一致的高质量风格转化非常有效。

然而,尽管StyleMamba在风格迁移任务中表现出色,但它在理解文本内容,尤其是不常见文本方面仍有局限性,这表明需要进一步的研究和开发来改进模型。因此,作者也计划探索更多样化的语言输入,以扩展模型处理更广泛视觉风格的能力,并以更精细、可控的方式实现风格迁移。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
大佬出走后首个发布!Stability官宣代码模型Stable Code Instruct 3B6月:满意与不满意的日子媒人一句话,14万彩礼结婚;父母一句话,丈夫自杀妻子溺亡…嘴炮王者Tyler1化身免费AI陪玩,帮你在英雄联盟中打爆三路,轻松上分今日arXiv最热大模型论文:图灵测试中,GPT-4仍不及人类!练字--灵飞经中方一通电话就能结束乌克兰危机?外交部回应可编辑的DALL·E 3要来了?一句话就能PS图片Style|新季Trends推荐免费打卡CN Tower:图书证就是薅羊毛神器!蹲点抢票!关于网络隐私保护和相关法律的几个常见问题和答案老外说对“city不city”里面的「city」究竟是什么意思?人类的三层脑让香港武打动作片风靡全球 洪金宝获金像奖「终身成就奖」为什么你总是对自己不满意?AI赋能时代:图文音视频全面爆发,内容创作者如何应对?英国星巴克送杯子!PrettyLittleThing限时1折!山大王精选1折起!特别策划|清华-INSEAD双学位EMBA项目(TIEMBA)招生简章Sustainable Fashion & Lifestyle Seminar in Singapore, May 17鲲鹏CPU软件性能调优(精编版)中式幽默西方人不笑?跨平台 CPU 加速,百度智能云的一键性能调优技术分享2024招生季:在职硕博(MBA/EMBA/DBA)直通车常青藤喜报!宾夕法尼亚大学University of Pennsylvania offer一枚“如果你听了哈佛招生官的话就能上哈佛,那么哈佛录取率应该是100%”多元CPU性能调优技术挑战、产品设计和业务实践HotelFT新增Hilton Impresario, IHG Luxury & Lifestyle, Accor STEP地图眉毛city不city啊?这简直太city了!Mamba杀入MICCAI 2024!SegMamba和Swin-UMamba均收录!会说话就能搞编程,听完李彦宏三大开发神器,我退了所有编程课酒业“老兵”朱伟:图书馆是大脑的健身房说不出她家风格,可我觉得很有风格【居住榜样】狗引儿【长篇】下部(五十九)今年爆火的新中式,英文是叫“New-Chinese Style”吗?阿里玉伯创业AI原生在线办公,首轮估值过亿;StabilityAI4亿美元债务一笔勾销;Perplexity获新投资丨AI情报局
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。