Redian新闻
>
字节最新文生视频模型,引发围观!狐狸跳舞超丝滑,效果超Gen-2

字节最新文生视频模型,引发围观!狐狸跳舞超丝滑,效果超Gen-2

科技

夕小瑶科技说 原创
作者 | 谢年年、python
扩散模型带动了文生视频领域的发展。Runway、Pika 1.0、Morph、Moon Valley和Stable Video Diffusion model等模型在文生视频界崭露头角。只需文本描述,就能轻松生成视频。让人不禁感叹,世界已经发展成这样了吗?

国内公司也不甘示弱,字节团队最近发布了一个新的多级文生视频框架——MagicVideo-V2,集成了文本到图像(T2I),图像到视频(I2V)、视频到视频(V2V)和视频帧插值(VFI)模块组成多级端到端视频生成pipeline,能够根据文本描述生成美观且高分辨率的视频,在人工评估中,其性能优于上面提到的一些明星文生视频产品

论文标题:
MagicVideo-V2: Multi-Stage High-Aesthetic Video Generation

论文链接:
https://arxiv.org/pdf/2401.04468.pdf

先来看看效果到底如何~

更多示例与对比高清视频可在官方发布的链接中找到:
https://magicvideov2.github.io/

模型结构

如图所示,MagicVideo-V2,集成了文本到图像(T2I),图像到视频(I2V)、视频到视频(V2V)和视频帧插值(VFI)模块。

  • T2I模块根据文本描述创建了一个1024×1024图像。
  • I2V模块将此静止图像动画化,生成600×600×32帧序列,并预先使用latent noise prior确保初始帧的连续性。
  • V2V模块在细化视频内容的同时将这些帧增强到1048×1048分辨率。
  • 最后,插值模块VFI将序列扩展到94帧,得到一个1048×1048分辨率视频,既保证高质量,又具有时间平滑性。

接下来将具体看看每个模块是如何实现的?

文本到图片模块(Text-to-Image)

T2I模块以用户的文本提示作为输入,生成1024 × 1024的图像作为视频生成的参考图像。参考图像有助于阐述视频内容和风格。MagicVideo-V2兼容不同的T2I型号,使用内部开发的基于扩散的MagicVideo-V2中的T2I模型,可以输出高美感的图像。

图像到视频模块(Image-to-Video)

I2V模块建立在Stable Diffusion1.5版本基础上,该版本利用人类反馈来提高模型在视觉质量和内容一致性方面的能力。

I2V模块搭载了参考图像嵌入模块,通过调整外观编码器来提取嵌入信息,并利用交叉注意力机制将其融入模块中。这使得图像提示能够与文本提示有效分离,为图像提供更强大的条件。

此外,作者采用潜在噪声先验策略,为起始噪声潜在值设定布局条件。帧从标准高斯噪声中初始化,均值逐渐向参考图像潜在值偏移。适当的噪声先验技巧使得图像布局得以保留,并提升帧间的时序一致性。

为进一步强化布局和空间条件,作者部署了ControlNet模块,从参考图像中直接提取RGB信息并应用于所有帧。这些技术确保帧与参考图像精准对齐,同时使模型能够生成清晰的运动。

作者还采用了图像-视频联合训练策略来训练I2V模块,将图像视为单帧视频。联合训练利用内部的高质量和美学图像数据集,提高生成视频的帧质量。图像数据集有效地弥补了视频数据集在多样性和数量上的不足。

视频到视频模块(Video-to-Video)

V2V模块与I2V模块设计相似,采用相同的骨干和空间层。其运动模块经过高分辨率视频子集的微调。同时采用图像外观编码器和ControlNet模块,确保视频帧在更高分辨率下生成。参考图像的信息有助于减少结构误差和失败率,同时增强高分辨率下的细节表现。

视频帧插值(VFI)

VFI模块基于GAN的VFI模型训练得到,采用增强型可变形可分离卷积(EDSC)头与VQ-GAN配对,类似于自动编码器模型。为提高稳定性和流畅性,还采用了预先训练的轻量级插值模型。

实验结果

人类评估

为了评估MagicVideo-V2,作者组织了61名评估人员,与最先进的T2V系统进行对比。进行了500次随机比较实验,每次选取MagicVideo-V2和T2V使用相同文本提示生成的视频,评估人员从“好”、“一样”和“坏”中选择,分别代表对MagicVideo-V2的偏好、无偏好和偏好另一个T2V产品。

评估指标包含三类::1)哪个视频具有更高的帧质量和整体视觉吸引力。2)哪个视频的时间一致性更强,运动范围和运动有效性更好。3)哪个视频结构错误少,或者情况不好。

实验结果如下表所示,从人类视觉感知的角度,MagicVideo-V2明显优于其他产品。

除此之外,作者还展示了MagicVideo-V2的I2V和V2V模块的一大优势——擅长于纠正和完善T2I模块的缺陷,制作流畅美观的视频。

比如将初始的狗修正为猫。

一只灰色的英国短毛猫在时代广场玩滑板,立体派绘画风格.

铁人的多余手臂被I2V和V2V模块移除。

V2V模块细化树的细节和场景亮度,分辨率更高。

V2V模块增强画面细节与分辨率,视频更清晰。

不同产品示例对比展示

除了定量分析,作者还展示了不同文生视频产品在相同文本提示下生成的视频对比情况。以下的动图从左到右依次为MagicVideo-V2、SVD-XT、Pika 1.0、Gen-2产生的结果。

从以上对比图中可以看到MagicVideo-V2生成的视频在动作上更加流畅,且色彩饱和度更高,画面细节更好。但要说更喜欢哪一种,属于仁者见仁智者见智,小编觉得不同产品侧重点不一样,比如SVD-XT生成的视频更偏写实风,更像真实拍摄的场景。

你更喜欢哪一种呢?欢迎在评论区讨论~

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
纯爱小说﹕ 风云赋 (54) 人各有缘突发!谷歌发布史上最强大模型Gemini,赶超GPT-4|亮马桥小纪严选悼大学同学汤奕平文生视频“黑马”Morph Studio来袭:好用、1080P 、7秒时长还免费斯坦福华人博士文生视频Pika 1.0爆火!4人公司估值2亿,OpenAI联创参投斯坦福华人女博士退学创业,6个月打造爆火文生视频Pika 1.0,4人团队估值超2亿美元周鸿祎谈视频模型Sora;胖东来回应员工悄悄尝面;极兔快递股价跳水;支付宝:6亿人次参与AI年俗...谷歌Gemini刚发就惹质疑:测试标准有失偏颇,效果视频疑似剪辑傅盛揭穿OpenAI「阳谋」,引130万人围观!百亿参数模型帮老板打王者,一张3060就能跑抖音跳舞不用真人出镜,一张照片就能生成高质量视频!字节新技术连抱抱脸CTO都下场体验了斯坦福华人女博士退学创业,6个月打造爆火文生视频Pika1.0,4人团队估值超2亿美元AI早知道|AI首次拥有类人感官;Adobe发布视频模型;三星Galaxy AI两年内将开启付费AI早知道|字节跳动推出超高清文生视频模型;SVD的Web平台发放测试资格;苹果计划收购 Brighter AI文生视频下一站,Meta已经开始视频生视频了“我在珠峰被侵犯了2次”,引2.3亿网友围观!無題《歌德堡变奏曲1454》浓人,nèng死淡人效果超越Gen-2!字节最新视频生成模型,一句话让绿巨人戴上VR眼镜带娃坐飞机出游超丝滑攻略:申请摇篮儿童餐、出关证件、乘机好物....今日arXiv最热NLP大模型论文:引入噪声,可提升RAG检索效果超30%??特斯拉Cyber​​truck来了!大温这儿引发围观一锤降维!解密OpenAI超级视频模型Sora技术报告,虚拟世界涌现了硅谷恐慌:Open AI发布全新视频模型Sora!现实,不存在了AI早知道|同花顺推出问财大模型;Midjourney将推文本转视频模型;谷歌即将推出Bard Assistant贾跃亭炮轰高合汽车是行业耻辱;清华大学辟谣土木工程专业停招;理想汽车年营收突破千亿元;首部文生视频AI动画片开播|邦早报ChatGPT大范围出现幻觉;传谷歌视频模型负责人加入字节;OpenAI工程师曝工作时间表丨AIGC大事日报斯坦福华人博士文生视频Pika 1.0爆火!让每个人都能成为自己故事的导演媲美Gen-2,Meta多模态创AI生图新里程碑!破文生视频历史难题,静图秒变视频逼真到炸裂忆青春效果炸裂!OpenAI 发布首个视频生成模型,这就是 AI 视频的 GPT 时刻文生视频PIKA1.0爆火,斯坦福华人学生退学创业,估值超2亿美元hé bàng?hé bèng?太突然!字节最新业绩曝光:2224亿,第一阿里云通义千问上线图生视频功能;小冰宣布通过大模型备案;深圳前海深港AI算力中心正式启动丨AIGC大事日报
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。