Redian新闻
>
NUWA系列再添新成员——超长视频生成模型NUWA-XL

NUWA系列再添新成员——超长视频生成模型NUWA-XL

科技


(本文阅读时间:9分钟)


编者按:最近,大型语言模型展现出的强大能力引发了新一轮的 AIGC (人工智能生成内容)研究和应用热潮。人工智能的创作能力边界已经从文字问答、编程逐渐扩展到了绘画、音频等多模态领域。但在视频领域,尤其是超长视频内容的生成上,目前大多数模型的效果还不尽如人意。

近期,微软亚洲研究院 NUWA 多模态生成模型家族迎来了新成员——NUWA-XL,其以创新的 Diffusion over Diffusion 架构,首次实现了高质量超长视频的并行生成,为多模态大模型提供了新的解题思路。


输入16句简单描述就能生成一段长达11分钟的动画片?


没错!微软亚洲研究院提出的超长视频生成模型 NUWA-XL 可以根据文字自动生成高质量动画作品。让我们先来看一看这段由 NUWA-XL 生成的动画片吧!



早在多年前,微软亚洲研究院就开始了包括图像和视频在内的视觉生成方面的研究,并于2021年推出了多模态生成模型 NUWA。NUWA 可以通过自然语言指令实现文本、图像、视频之间的生成、转换和编辑,为视觉内容创作提供灵感。随后推出的 NUWA 升级版——无限视觉生成模型 NUWA-Infinity,则可以支持更高分辨率的图像和短视频生成任务,让视觉艺术创作趋于“无限流”(还记得那个无限延展的 Windows 桌面吗?)。


随着视频行业需求的增长和技术的发展,近两年人工智能在视频生成方面取得了一定的进展,然而,大多数模型还仅能够生成3到5秒左右的短视频。但在实际应用中,人们所需的视频通常要比5秒长得多,例如,一部电影通常持续在90分钟以上,一集动画片往往也超过20分钟,即使是常见的短视频时长也多在30秒以上。因此,超长视频的快速生成对于人工智能来说仍然是一个巨大的挑战。


“视频生成任务和语言、图像的生成类似,但图片是静止的,只包含了空间信息,而视频还需要考虑时间等因素。我们认为视频生成模型是可以对标语言生成模型的,并且拥有更大的应用潜力和更多的应用场景。所以在基于大模型的 AIGC 发展初期,我们就已经将视觉生成列为研究对象 (https://arxiv.org/abs/2104.14806),并放在了与文本生成同等重要的位置上。”微软亚洲研究院首席研究员段楠表示。


当前,长视频生成的多数方法是采用“Autoregressive over X”架构,“X”表示任何能够生成短视频片段的生成模型,包括 Phenaki 、TATS 、NUWA-Infinity 使用的自回归模型 (Autoregressive Models),或者 MCVD、FDM、LVDM 使用的扩散模型(Diffusion Models)。这些方法的主要思想是在短视频片段上训练模型,再通过推理,像滑动窗口一样自回归的自左向右生成长视频。


由于在训练时只需要短视频数据,“Autoregressive over X”架构在一定程度上降低了对长视频数据的要求,但微软亚洲研究院的研究员们发现了这种方法存在的问题:


  • 首先,在短视频上进行训练再推理出长视频,会导致巨大的训练-推理差距(Train-Inference Gap)。也就是说,这种方法只知道所生成长视频的开始和结尾的故事信息,视频中间的情节则完全依赖前一段小视频的再推理,这种状态不断叠加之后就会导致不真实的、扭曲的镜头变化。缺乏长视频数据的训练,还会让模型生成的视频存在帧与帧之间不连贯以及故事情节无法逻辑自洽等问题。


  • 其次,由于滑动窗口的依赖性限制,模型只能顺序自左向右生成视频,无法并行推理,因此需要花费更长的时间。例如,TATS 需要7.5分钟才能生成1024帧,而 Phenaki 需要4.1分钟。


全新Diffusion over Diffusion架构,“从粗到细”的生成过程


为了解决这些问题,微软亚洲研究院提出了 NUWA-XL(eXtremely Long),它采用 Diffusion over Diffusion 架构,通过“从粗到细”的生成过程,以相同的粒度并行生成视频,并应用全局扩散模型(Global Diffusion)来生成整个时间范围内的关键帧,然后通过局部扩散模型(Local Diffusion)递归地填充附近帧之间的内容,既提升了生成效率,也确保了视频的质量和连续性。


图1:NUWA-XL 长视频生成流程动态演示

具体而言,如图2所示,NUWA-XL 中的全局扩散模型首先会基于 L 个文本提示生成 L 个视频关键帧,形成视频的“粗略”故事情节。然后将第一个局部扩散模型应用于 L 个提示和相邻的关键帧,将其视为第一帧和最后一帧,以完成中间的 L−2 帧,从而总共产生 L+(L−1)×(L−2)≈L^2 个“精细”帧。通过迭代应用局部扩散来生成中间帧,视频的长度将以指数级增加,进而生成非常长的视频。例如,具有 m 深度和 L 局部扩散长度的 NUWA-XL 能够生成具有 O(L^m) 大小的长视频。


图2:“粗略到精细”——NUWA-XL 超长视频生成概述


NUWA-XL “从粗到细”的生成方法具有三个优势:


  • 分层结构使模型能够直接在长视频上进行训练,从而消除了训练和推理之间的差距。NUWA-XL 会先生成类似于连环画的关键帧,既加强了场景切换又保证全局内容的统一,再在关键帧之间生成更多帧画面。同时,模型从 L 到 L^m 的每一层关键帧还支持文字提示生成关键帧,极大地确保了视频情节的连续性。


  • 模型包含多个局部扩散模型,自然支持并行推理,可以显著提高生成长视频时的推理速度。例如在相同的硬件设置下,当生成1024帧时,NUWA-XL 使平均推理时间从7.55分钟减少到26秒,速度提升了94.26%。


  • 由于视频的长度可以相对于深度 m 呈指数级扩展,因此模型可以很容易地扩展出更长的视频。


长视频生成的时间、质量和连续性均获得最优性能


除了生成时间的大幅缩短外,NUWA-XL 在 Avg FID 和 Block FVD(B-FVD)两个指标上也优于其它模型。Avg FID 起始距离(FID)是一种评估图像生成的度量,用于计算生成帧的平均质量,数值越低越好。B-FVD 视频距离(FVD)则被广泛用于评估生成视频的质量。


如表1所示,对于 “X over AR” 架构,由于误差累积,生成帧的 Avg FID 随着视频长度的增加而下降,例如 Phenaki,生成16帧的数值是40.14,生成1024帧时是48.56。与之相比,NUWA-XL 不是按顺序生成帧,所以质量不会随着视频长度的增长而下降,Avg FID 始终保持在35左右。


同时,与仅在短视频上训练的 “AR over X” 相比,NUWA-XL 能够生成更高质量的长视频,而且随着视频长度的增长,NUWA-XL 的生成片段(B-FVD-16)质量下降得更慢,因为 NUWA-XL 已经学习了长视频的模式。此外,可并行执行这一特性使得 NUWA-XL 在生成256帧时,推理速度提高了85.09%;生成1024帧时,推理速度提高了94.26%。


表1:NUWA-XL 长视频生成与最先进模型的定量比较(其中 Avg FID 数值越小代表性能越好)


NUWA-XL为人工智能视频生成提供新思路


“在长视频生成的研究过程上,我们也咨询了专业的动画制作人员,了解了真正的动画制作流程,即先画出故事中的几个关键画面(即关键帧,再在关键帧之间不断添加更多的画面,来丰富故事情节确保连续性。正是受到真实动画创作流程的启发,我们在 NUWA-XL 工作中采取了 Diffusion over Diffusion 这样一种由粗到细的设计。相较传统从左至右的生成方法,NUWA-XL 由粗到细的生成方法从根本上改变了人工智能生成长视频的方式。”微软亚洲研究院主管研究员吴晨飞说。


NUWA-XL 以动画片为例验证了 Diffusion over Diffusion 架构的有效性,为超长视频的人工智能生成研究打开了新的思路。未来,通过在电影、电视等更多的视频数据上的训练,以及更强大的算力,NUWA-XL 或将进一步帮助动画、电影、电视、广告等视觉制作领域提高生产力。


对于人工智能多模态大模型的发展,段楠认为,“现在的大模型还停留在文字生成阶段,尽管 GPT-4 在理解端加入了视觉信息,但也仅限于图片,输出端还是文字或代码。因此,当前及未来的研究路线非常清晰,就是将语言与视觉的理解和生成融入到一个基础大模型中,在输出端加强图像、视频、音频的生成。我们希望未来可以用一套架构来融合支持语言、视觉的生成算法,让人工智能模型更加通用。”



相关链接:


NUWA-XL项目页面:

https://msra-nuwa-dev.azurewebsites.net/#/

论文链接:

https://arxiv.org/abs/2303.12346









在进行计算机科研工作和学习的日日夜夜,你或许有些科研中的问题难以开口问询,或许有些焦虑与情绪无处安放,或许在感到迷茫时需要咨询与支持。微软亚洲研究院树洞计划现已开启。你在计算机领域科研、学习、生活中遇到的难题,都可以随时随地倾倒在树洞里。后台会从树洞收到的内容中选择具有代表性的问题匹配到最同频的频道,邀请微软亚洲研究院的研究员们帮忙回答。作为一个半透明的树洞,部分问题与回应会通过微软亚洲研究院账号公开发表。


快来点击上图链接,把你的难题倾倒在树洞里吧!让我们将这些困难封存在过去,轻装上阵,继续科研新旅途!















你也许还想看:





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
无需微调,一张照片即可换脸、换背景!NUS等华人团队破局个性化视频生成英伟达推出新AI模型Neuralangelo 可将视频转换为高精3D模型首个3D人像视频生成模型来了:仅需1张2D人像,眨眼、口型都能改变 | ICLR 2023我推荐了5年的加拿大儿童户外品牌,今夏速干系列再放大招|开团好看的欧美电视剧午餐中国龙家族再添新成员!两恐龙种被证实为中国龙属小米13系列还有新成员?曝折叠屏也有新升级CVPR 2023 | YOLOv7强势收录!时隔6年,YOLOv系列再登CVPR!女儿回家过年魅族20系列再预热:首次搭载红外遥控【注意】公办体育本科院校再添一所新成员干部平反恢复级别后以前降级扣除的工资是否补发?EMNLP 2022 | ELMER: 高效强大的非自回归预训练文本生成模型全球首发,国产开源「文本-视频生成」模型!免费在线体验,一键实现视频生成自由天使信号增强!魅族20系列再预热,13根电竞级天线加持谷歌Bard遭自家员工差评/ 英伟达发布视频生成模型/ 波士顿动力机器狗整活…今日更多新鲜事在此罗尔德·达尔之后,詹姆斯·邦德系列再版同遭删改大模型战队再添新丁,王小川、商汤、昆仑万维同日官宣!CVPR 2023 Workshop | 马普所、麻省理工等举办生成模型研讨会语音合成模型NaturalSpeech 2:只需几秒提示语音即可定制语音和歌声腾讯ROG游戏手机7系列再曝,外观设计基本没变,还有全新配件休战!腾讯视频与抖音宣布合作,长视频授权衍生创作短视频宝妈蜕变记——超强妈妈天团和你来聊育儿工作两不误OpenAI再发3D生成模型Shap-E,传Midjourney入局3D模型生成vivo S17系列再预热:后置智慧柔光环,前置 5000万广角柔光镜头Linux ——超级漂亮的 Shell提前实现“十四五”目标——超65%,城镇化进入“下半场”“视频领域的Midjourney”!AI视频生成新秀Gen-2内测作品流出,网友直呼太逼真ICLR 2023 | 扩散生成模型新方法:极度简化,一步生成澳洲首位华人女性特级飞行员——美女学霸Mido,冲上云霄既是实现梦想,也是挑战自我!【转载】全球顶尖投资人榜单"福布斯Midas List"再添新面孔——AMINO李强给自己偏爱的——超值妇女节礼盒,鹅绒被四件套底价拿下|种草机会议预告|首都治理热点问题研讨会(第6期)——超大城市积极应对人口老龄化
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。