NUWA系列再添新成员——超长视频生成模型NUWA-XL

2023-04-06 10:04

（本文阅读时间：9分钟）

编者按：最近，大型语言模型展现出的强大能力引发了新一轮的 AIGC （人工智能生成内容）研究和应用热潮。人工智能的创作能力边界已经从文字问答、编程逐渐扩展到了绘画、音频等多模态领域。但在视频领域，尤其是超长视频内容的生成上，目前大多数模型的效果还不尽如人意。

近期，微软亚洲研究院 NUWA 多模态生成模型家族迎来了新成员——NUWA-XL，其以创新的 Diffusion over Diffusion 架构，首次实现了高质量超长视频的并行生成，为多模态大模型提供了新的解题思路。

输入16句简单描述就能生成一段长达11分钟的动画片？

没错！微软亚洲研究院提出的超长视频生成模型 NUWA-XL 可以根据文字自动生成高质量动画作品。让我们先来看一看这段由 NUWA-XL 生成的动画片吧！

早在多年前，微软亚洲研究院就开始了包括图像和视频在内的视觉生成方面的研究，并于2021年推出了多模态生成模型 NUWA。NUWA 可以通过自然语言指令实现文本、图像、视频之间的生成、转换和编辑，为视觉内容创作提供灵感。随后推出的 NUWA 升级版——无限视觉生成模型 NUWA-Infinity，则可以支持更高分辨率的图像和短视频生成任务，让视觉艺术创作趋于“无限流”（还记得那个无限延展的 Windows 桌面吗？）。

随着视频行业需求的增长和技术的发展，近两年人工智能在视频生成方面取得了一定的进展，然而，大多数模型还仅能够生成3到5秒左右的短视频。但在实际应用中，人们所需的视频通常要比5秒长得多，例如，一部电影通常持续在90分钟以上，一集动画片往往也超过20分钟，即使是常见的短视频时长也多在30秒以上。因此，超长视频的快速生成对于人工智能来说仍然是一个巨大的挑战。

“视频生成任务和语言、图像的生成类似，但图片是静止的，只包含了空间信息，而视频还需要考虑时间等因素。我们认为视频生成模型是可以对标语言生成模型的，并且拥有更大的应用潜力和更多的应用场景。所以在基于大模型的 AIGC 发展初期，我们就已经将视觉生成列为研究对象 (https://arxiv.org/abs/2104.14806)，并放在了与文本生成同等重要的位置上。”微软亚洲研究院首席研究员段楠表示。

当前，长视频生成的多数方法是采用“Autoregressive over X”架构，“X”表示任何能够生成短视频片段的生成模型，包括 Phenaki 、TATS 、NUWA-Infinity 使用的自回归模型（Autoregressive Models），或者 MCVD、FDM、LVDM 使用的扩散模型（Diffusion Models）。这些方法的主要思想是在短视频片段上训练模型，再通过推理，像滑动窗口一样自回归的自左向右生成长视频。

由于在训练时只需要短视频数据，“Autoregressive over X”架构在一定程度上降低了对长视频数据的要求，但微软亚洲研究院的研究员们发现了这种方法存在的问题：

首先，在短视频上进行训练再推理出长视频，会导致巨大的训练-推理差距（Train-Inference Gap）。也就是说，这种方法只知道所生成长视频的开始和结尾的故事信息，视频中间的情节则完全依赖前一段小视频的再推理，这种状态不断叠加之后就会导致不真实的、扭曲的镜头变化。缺乏长视频数据的训练，还会让模型生成的视频存在帧与帧之间不连贯以及故事情节无法逻辑自洽等问题。

其次，由于滑动窗口的依赖性限制，模型只能顺序自左向右生成视频，无法并行推理，因此需要花费更长的时间。例如，TATS 需要7.5分钟才能生成1024帧，而 Phenaki 需要4.1分钟。

全新Diffusion over Diffusion架构，“从粗到细”的生成过程

为了解决这些问题，微软亚洲研究院提出了 NUWA-XL（eXtremely Long），它采用 Diffusion over Diffusion 架构，通过“从粗到细”的生成过程，以相同的粒度并行生成视频，并应用全局扩散模型（Global Diffusion）来生成整个时间范围内的关键帧，然后通过局部扩散模型（Local Diffusion）递归地填充附近帧之间的内容，既提升了生成效率，也确保了视频的质量和连续性。

图1：NUWA-XL 长视频生成流程动态演示

具体而言，如图2所示，NUWA-XL 中的全局扩散模型首先会基于 L 个文本提示生成 L 个视频关键帧，形成视频的“粗略”故事情节。然后将第一个局部扩散模型应用于 L 个提示和相邻的关键帧，将其视为第一帧和最后一帧，以完成中间的 L−2 帧，从而总共产生 L+（L−1）×（L−2）≈L^2 个“精细”帧。通过迭代应用局部扩散来生成中间帧，视频的长度将以指数级增加，进而生成非常长的视频。例如，具有 m 深度和 L 局部扩散长度的 NUWA-XL 能够生成具有 O（L^m）大小的长视频。

图2：“粗略到精细”——NUWA-XL 超长视频生成概述

NUWA-XL “从粗到细”的生成方法具有三个优势：

分层结构使模型能够直接在长视频上进行训练，从而消除了训练和推理之间的差距。NUWA-XL 会先生成类似于连环画的关键帧，既加强了场景切换又保证全局内容的统一，再在关键帧之间生成更多帧画面。同时，模型从 L 到 L^m 的每一层关键帧还支持文字提示生成关键帧，极大地确保了视频情节的连续性。

模型包含多个局部扩散模型，自然支持并行推理，可以显著提高生成长视频时的推理速度。例如在相同的硬件设置下，当生成1024帧时，NUWA-XL 使平均推理时间从7.55分钟减少到26秒，速度提升了94.26%。

由于视频的长度可以相对于深度 m 呈指数级扩展，因此模型可以很容易地扩展出更长的视频。

长视频生成的时间、质量和连续性均获得最优性能

除了生成时间的大幅缩短外，NUWA-XL 在 Avg FID 和 Block FVD（B-FVD）两个指标上也优于其它模型。Avg FID 起始距离（FID）是一种评估图像生成的度量，用于计算生成帧的平均质量，数值越低越好。B-FVD 视频距离（FVD）则被广泛用于评估生成视频的质量。

如表1所示，对于 “X over AR” 架构，由于误差累积，生成帧的 Avg FID 随着视频长度的增加而下降，例如 Phenaki，生成16帧的数值是40.14，生成1024帧时是48.56。与之相比，NUWA-XL 不是按顺序生成帧，所以质量不会随着视频长度的增长而下降，Avg FID 始终保持在35左右。

同时，与仅在短视频上训练的 “AR over X” 相比，NUWA-XL 能够生成更高质量的长视频，而且随着视频长度的增长，NUWA-XL 的生成片段（B-FVD-16）质量下降得更慢，因为 NUWA-XL 已经学习了长视频的模式。此外，可并行执行这一特性使得 NUWA-XL 在生成256帧时，推理速度提高了85.09%；生成1024帧时，推理速度提高了94.26%。

表1：NUWA-XL 长视频生成与最先进模型的定量比较（其中 Avg FID 数值越小代表性能越好）

NUWA-XL为人工智能视频生成提供新思路

“在长视频生成的研究过程上，我们也咨询了专业的动画制作人员，了解了真正的动画制作流程，即先画出故事中的几个关键画面（即关键帧），再在关键帧之间不断添加更多的画面，来丰富故事情节确保连续性。正是受到真实动画创作流程的启发，我们在 NUWA-XL 工作中采取了 Diffusion over Diffusion 这样一种由粗到细的设计。相较传统从左至右的生成方法，NUWA-XL 由粗到细的生成方法从根本上改变了人工智能生成长视频的方式。”微软亚洲研究院主管研究员吴晨飞说。

NUWA-XL 以动画片为例验证了 Diffusion over Diffusion 架构的有效性，为超长视频的人工智能生成研究打开了新的思路。未来，通过在电影、电视等更多的视频数据上的训练，以及更强大的算力，NUWA-XL 或将进一步帮助动画、电影、电视、广告等视觉制作领域提高生产力。

对于人工智能多模态大模型的发展，段楠认为，“现在的大模型还停留在文字生成阶段，尽管 GPT-4 在理解端加入了视觉信息，但也仅限于图片，输出端还是文字或代码。因此，当前及未来的研究路线非常清晰，就是将语言与视觉的理解和生成融入到一个基础大模型中，在输出端加强图像、视频、音频的生成。我们希望未来可以用一套架构来融合支持语言、视觉的生成算法，让人工智能模型更加通用。”