Redian新闻
>
即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了

即插即用,完美兼容:SD社区的图生视频插件I2V-Adapter来了

公众号新闻
机器之心专栏
机器之心编辑部


图像到视频生成(I2V)任务旨在将静态图像转化为动态视频,这是计算机视觉领域的一大挑战。其难点在于从单张图像中提取并生成时间维度的动态信息,同时确保图像内容的真实性和视觉上的连贯性。大多数现有的 I2V 方法依赖于复杂的模型架构和大量的训练数据来实现这一目标。

近期,由快手主导的一项新研究成果《I2V-Adapter: A General Image-to-Video Adapter for Video Diffusion Models》发布,该研究引入了一个创新的图像到视频转换方法,提出了一种轻量级适配器模块,即 I2V-Adapter,它能够在不需要改变现有文本到视频生成(T2V)模型原始结构和预训练参数的情况下,将静态图像转换成动态视频。


  • 论文地址:https://arxiv.org/pdf/2312.16693.pdf
  • 项目主页:https://i2v-adapter.github.io/index.html
  • 代码地址:https://github.com/I2V-Adapter/I2V-Adapter-repo


相比于现有方法,I2V-Adapter 大幅减少了可训练参数(最低可达 22M,为主流方案例如 Stable Video Diffusion [1] 的 1%),同时具备与 Stable Diffusion [2] 社区开发的定制化 T2I 模型(DreamBooth [3]、Lora [4])与控制工具(ControlNet [5])的兼容性。通过实验,研究者证明了 I2V-Adapter 在生成高质量视频内容方面的有效性,为 I2V 领域的创意应用开辟了新的可能性。


方法介绍

Temporal modeling with Stable Diffusion

相较于图像生成,视频生成的独特挑战在于建模视频帧间的时序连贯性。现有大多数方案都基于预训练的 T2I 模型(例如 Stable Diffusion 和 SDXL [6])加入时序模块对视频中的时序信息进行建模。受到 AnimateDiff [7] 的启发,这是一个最初为定制化 T2V 任务而设计的模型,它通过引入与 T2I 模型解耦的时序模块建模了时序信息并且保留了原始 T2I 模型的能力,能够结合定制化 T2I 模型生成流畅的视频。于是,研究者相信预训练时序模块可以看作是通用时序表征并能够应用于其他视频生成场景,例如 I2V 生成,且无需任何微调。因此,研究者直接利用预训练 AnimateDiff 的时序模块并保持其参数固定。

Adapter for attention layers

I2V 任务的另一难点在于保持输入图像的 ID 信息,现有方案大多使用一个预训练的图像编码器对输入图像进行编码,并将此编码后的特征通过 cross attention 注入至模型中引导去噪的过程;或在输入端将图像与 noised input 在 channel 维度拼接后一并输入给后续的网络。前者由于图像编码器难以捕获底层信息会导致生成视频的 ID 变化,而后者往往需要改变 T2I 模型的结构与参数,训练代价大且兼容性较差。

为了解决上述问题,研究者提出了 I2V-Adapter。具体来说,研究者将输入图像与 noised input 并行输入给网络,在模型的 spatial block 中,所有帧都会额外查询一次首帧信息,即 key,value 特征都来自于不加噪的首帧,输出结果与原始模型的 self attention 相加。此模块中的输出映射矩阵使用零初始化并且只训练输出映射矩阵与 query 映射矩阵。为了进一步加强模型对输入图像语义信息的理解,研究者引入了预训练的 content adapter(本文使用的是 IP-Adapter [8])注入图像的语义特征。


Frame Similarity Prior

为了进一步增强生成结果的稳定性,研究者提出了帧间相似性先验,用于在生成视频的稳定性和运动强度之间取得平衡。其关键假设是,在相对较低的高斯噪声水平上,带噪声的第一帧和带噪声的后续帧足够接近,如下图所示:


于是,研究者假设所有帧结构相似,并在加入一定量的高斯噪声后变得难以区分,因此可以把加噪后的输入图像作为后续帧的先验输入。为了排除高频信息的误导,研究者还使用了高斯模糊算子和随机掩码混合。具体来说,运算由下式给出:


实验结果

定量结果

本文计算了四种定量指标分别是 DoverVQA (美学评分)、CLIPTemp (首帧一致性)、FlowScore (运动幅度) 以及 WarppingError (运动误差) 用于评价生成视频的质量。表 1 显示 I2V-Adapter 得到了最高的美学评分,在首帧一致性上也超过了所有对比方案。此外,I2V-Adapter 生成的视频有着最大的运动幅度,并且相对较低的运动误差,表明此模型的能够生成更加动态的视频并且同时保持时序运动的准确性。


定性结果

Image Animation(左为输入,右为出)


w/ Personalized T2Is(左为输入,右为出):



w/ ControlNet(左为输入,右为出):


总结

本文提出了 I2V-Adapter,一种即插即用的轻量级模块,用于图像到视频生成任务。该方法保留原始 T2V 模型的 spatial block 与 motion block 结构与参数固定,并行输入不加噪的第一帧与加噪的后续帧,通过注意力机制允许所有帧与无噪声的第一帧交互,从而产生时序连贯且与首帧一致的视频。研究者们通过定量与定性实验证明了该方法在 I2V 任务上的有效性。此外,其解耦设计使得该方案能够直接结合 DreamBooth、Lora 与 ControlNet 等模块,证明了该方案的兼容性,也促进了定制化与可控图像到视频生成的研究。

引用
[1] Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets
[2] High-Resolution Image Synthesis with Latent Diffusion Models
[3] DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation
[4] LoRA: Low-Rank Adaptation of Large Language Models
[5] Adding Conditional Control to Text-to-Image Diffusion Models
[6] Improving Latent Diffusion Models for High-Resolution Image Synthesis
[7] Animate Your Personalized Text-to-Image Diffusion Models without Specific Tuning
[8] IP-Adapter: Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
“我们投了恒大260多亿,完美逃出来了”超实用多功能电炒锅!无需明火插电即用,煎炒烹炸炖煮蒸涮,美味“触”手可得~外企社招 | AMD社招岗位火热上新!14薪,月薪25-55k,产品折扣,充值假期,含非技术岗,留学生有优势真·任意时刻视频插帧利器,更清晰,可编辑!已开源,可在线试用文生图10倍速,视频实时渲染!清华发布LCM:兼容全部SD大模型、LoRA、插件等天降喜讯!留学生奖学金天花板,剑桥怡和奖学金面邀offer来了!还有剑桥心理学offer!dá àn jiē xiǎo 🥳媲美Gen-2,Meta多模态创AI生图新里程碑!破文生视频历史难题,静图秒变视频逼真到炸裂简化版Transformer来了!网友:年度论文龙行龘(dá)龘(dá)!2024央视春晚宣布→6049 血壮山河 卢沟桥之变 18背景提升学员|喜报!港中大、港理工、港科大、格拉斯哥、圣路易斯华盛顿offer来了!D社开年顶流瓜,韩娱历代级颜值情侣官宣了Hooli办公室招租:拎包即用,你的完美工作空间就在这!令地主最头疼的不是房客45个即插即用的涨点神器分享!阿里云通义千问上线图生视频功能;小冰宣布通过大模型备案;深圳前海深港AI算力中心正式启动丨AIGC大事日报简化版Transformer来了,网友:年度论文无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造龙行龘(dá)龘(dá)!华为鸿蒙将不再兼容安卓应用,美团网易等急招鸿蒙开发者AI早知道|字节跳动推出超高清文生视频模型;SVD的Web平台发放测试资格;苹果计划收购 Brighter AI咀外文嚼汉字(293)药草; 香草;“巴吉尔”,“罗勒”龙行龘(dá)龘(dá)!这些三叠字怎么念?全网第一封UCL无条件录取offer来了!!喜报!悉尼大学、港大、纽大、港中文、诺丁汉offer来了!|背景提升学员文生视频下一站,Meta已经开始视频生视频了背景提升学员|喜报!港大、港中文、城大、布里斯托大学offer来了!中文创意写作能力超GPT-4,「最会写」的中文大模型Weaver来了台湾“蓝白”合谈成了,开创台湾新纪元!Meta清华校友推全新AI「视频生视频」方法!单张A100生成「男人秒变猩猩」大片红色日记 再添女孩 11.1-3020%的杨幂+80%的泰勒长什么样?小红书风格化AI来了,可兼容SD和ControlNet多伦多12个区的社区夏令营报名日历:不是别家夏令营报不起,而是社区夏令营更有性价比视频场景图生成任务新SOTA!中山大学提出全新时空知识嵌入框架,登顶刊TIP'24
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。