谷歌最新研究：可交互式动态图片生成，细节逼真！

科技

2023-09-27 04:09

©PaperWeekly 原创 · 作者 | 岳廷

论文链接：

https://arxiv.org/abs/2309.07906

项目链接：

https://generative-dynamics.github.io./

要解决的问题：通过单张自然景观（树木，花朵等）图像，生成自然的动态视频（风、水流、呼吸或其他自然节奏造成的动态）一直是难点，要么生成不真实，要么不可控。如拍摄一朵荷花，如何生成一个荷花被风吹过摇曳的视频？

具体而言，自然界总处于运动之中，即使看似静止的场景也包含微妙的震荡，这是由风、水流、呼吸或其他自然节奏造成的。运动是最引人注目的视觉信号之一，人类尤其灵敏于此：如果拍下的图像没有运动（或者运动不太真实），通常会让人感到不自然或不真实。

虽然人类可以轻松地解释或想象场景中的运动，但训练一个模型学习真实场景运动远非易事。

解决方案：通过学习一系列从真实视频序列中提取的运动轨迹，从而建立一个图像空间场景动态的先验模型。模型通过一个频率协调的扩散采样过程来预测在频域中的每个像素的长期运动表示，即神经随机运动纹理。这个表示可以转换为跨越整个视频的密集运动轨迹。

效果：效果显著、基本看不出来是生成的，且可交互（建议查看 project 页视频）。不仅可以将静止的图像转变为无缝循环的动态视频，还可以让用户与真实图片中的物体进行交互，如上面提到的拍摄的荷花，可以有 2 种动态图片生成方式：1）直接生成；2）交互式生成，即用户选定花朵，并给出风的方向，整个画面朝招该方向摇曳。

与基于原始 RGB 像素的先验相比，这种基于运动的先验能够更有效地解释像素值的变化，因此，这种运动表示形式可以导致更连贯的长期生成，并对动画提供更细粒度的控制。

额外：拍摄大自然时，可根据单张图像、按照自己的方式，生成想要包含自然节奏运动的动态视频。

效果示意图：

▲ demo

方法概述

给定一张图片，目标是生成长度为T的视频，展示像树木、花朵或烛焰在微风中的摇曳等震荡动力学。系统由两个模块组成：运动预测模块（第二部分）和基于图像的渲染模块（第三部分）。

流程从使用潜在扩散模型（Latent Diffusion Model ，LDM）预测输入图像的神经随机运动纹理开始。一个随机运动纹理是输入图像中每个像素运动轨迹的一个频域表示。然后使用一个逆离散傅里叶变换将预测的随机运动纹理转换为运动位移场序列。

这些运动场又用于确定每个输入像素在每个未来时间步的位置。给定这些预测运动场，本文的渲染模块使用基于图像的渲染技术对输入 RGB 图像进行动画处理，编码输入图像的特征并使用图像合成网络对编码的特征进行采样和解码以生成输出帧。因为本文的方法明确估计一张静态图片中的一个运动表示，它支持几种下游应用，比如以不同速度和运动幅度动画单张静态图片，生成无缝循环视频，以及模拟对象响应外部用户激励的动力学响应（即交互动态）。

神经随机运动纹理

2.1 运动纹理

一个运动纹理定义一个时变 2D 位移映射序列，其中来自输入图像的每个像素坐标 p 上的 2D 位移向量 Ft(p) 定义了该像素在未来时间 t 的位置。要在时间 t 生成未来帧，可以使用对应的位移映射对进行采样，生成前向包围的图像：

2.2 随机运动纹理

许多自然运动，尤其是本文关注的震荡运动，可以描述为由不同频率、幅值和相位的少数谐波振荡器的叠加。引入随机性的一种方法是集成噪声场，但如先前工作所观察到的，直接向估计运动场的时域和时域中添加随机噪声通常会导致不真实或不规律的动画。

此外，在时间域采用运动纹理，如上面定义的，意味着需要预测 T 个 2D 位移场才能生成具有T帧的视频。为避免对长输出视频预测如此大的输出表示，许多先前的动画方法要么对生成的视频帧进行自回归生成，要么通过额外的时间嵌入独立地预测每个未来输出帧。但是，这两种策略都不能确保生成视频帧的长期时间一致性，都可能产生随时间漂移或发散的视频。

为解决上述问题，本文在频域中表示输入场景的每个像素运动纹理（即所有像素的完整运动轨迹），并将运动预测问题表述为一个多模态的图像到图像转换任务。采用潜在扩散模型（LDM）来生成一个随机运动纹理，它包含 4K 个通道的 2D 运动频谱映射，其中是建模的频率数，每个频率需要四个标量来表示复 X 和 Y 维度的傅里叶系数。图 1 说明了这些神经随机运动纹理。

时间域中的像素运动轨迹与其在频域中的运动频谱表示

之间的关系由快速傅里叶变换（FFT）决定：

应该如何选择表示中 K 个输出频率？先前关于实时动画的工作观察到，大多数自然震荡运动主要由低频成分组成。为验证这一假设，计算了从 1000 个随机采样的 5 秒真实视频片段中提取的运动的平均功率谱。

如图 2 左侧所示，来自数据集中真实视频的 x 和 y 运动分量的功率谱随频率的增加近似指数衰减。这表明大多数自然震荡运动确实可以用较低频率项很好地表示。在实践中，本文发现前 K=16 个傅里叶系数就足以真实地重建原始自然运动的大多数真实视频和场景。

2.3 用扩散模型预测运动

选择潜在扩散模型（LDM）作为运动预测模块的骨干，因为 LDM 比像素空间扩散模型计算上更高效，而保持生成质量。一个标准 LDM 由两个主要模块组成：（1）一个变分自动编码器（VAE），它通过一个编码器压缩输入图像到潜在空间，然后通过一个解码器从潜在特征重建输入；（2）一个基于 U-Net 的扩散模型，它学习迭代去噪训练开始时的高斯随机噪声的潜在特征。

本文的训练不是应用于输入图像，而是应用于来自真实视频序列的随机运动纹理，它们被编码然后通过预定义的方差计划在 n 步扩散以产生嘈杂潜在特征。2D U-Net 被训练去噪每一步n的嘈杂潜在特征，通过迭代估计在每个步骤n使用的噪声来更新潜在特征。LDM 的训练损失写为：

其中 c 是任何条件信号的嵌入，比如文本、语义标签或者在本文的例子中是训练视频序列的第一帧。干净的潜在特征然后通过解码器传递来恢复随机运动纹理。

频率自适应归一化。观察到一个问题是随机运动纹理在不同频率具有特定的分布特性。如图2左侧所示，运动纹理幅值跨越 0 到 100 的范围，并随频率的增加近似指数衰减。由于扩散模型要求输出值在 0 到 1 之间以获得稳定训练和去噪，必须在使用它们进行训练之前对从真实视频中提取的 S 系数进行归一化。

如果根据图像宽度和高度缩放系数到 [0,1]，几乎所有较高频率的系数都会接近零，如图 2 右侧所示。在这种数据上训练的模型可能产生不准确的运动，因为在推理期间，甚至很小的预测误差在归一化后的极小 S 系数进行反归一化后也会导致很大的相对误差。

为解决这个问题，采用一个简单但有效的频率自适应归一化技术。首先根据训练数据集的统计信息独立地对每个频率的傅立叶系数进行归一化。即，对每个独立频率，计算训练样本中所有傅里叶系数幅值的百分位，并使用该值作为每个频率的缩放因子。

此外，对每个缩放后的傅里叶系数应用幂变换，使其远离极小或极大值。在实践中发现平方根变换优于对数或倒数等其他变换。总之，从真实视频中提取的随机运动纹理在频率上的最终系数值（用于训练 LDM）计算如下：

如图 2 右侧所示，在应用频率自适应归一化后，随机运动纹理系数不再集中在极小值的范围内。

频率协调去噪。预测具有个频带的随机运动纹理的直接方法是从标准扩散 UNet 输出 4K 个通道的张量。然而观察到训练一个模型产生如此大量通道倾向于产生过度平滑和不准确的输出。另一种方法是通过向 LDM 注入额外的频率嵌入来独立地在每个单独频率预测运动频谱图，但这在频域中导致不相关的预测，产生不真实的运动。

因此，提出一个频率协调去噪策略，如图 3 所示。给定输入图像，首先训练一个 LDM 来预测具有四个通道表示每个独立频率的随机运动纹理图，与时间步嵌入一起向 LDM 网络中注入额外的频率嵌入。然后固定 LDM 模型的参数，并在个频带中引入注意力层，并与的 2D 空间层交织。具体地，对于大小为 B 的输入图像批次，2D 空间层将对应的个嘈杂潜在特征作为独立样本，其通道大小为 C，形状为。

交叉注意力层然后将它们解释为沿频率轴连续的特征，本文在馈送到注意力层之前将来自上一个 2D 空间层的潜在特征重新整形为。换句话说，频率注意力层用于协调预训练运动潜在特征跨所有频率通道，以产生连贯的随机运动纹理。在本文的实验中，本文观察到当从标准 2D U-Net 切换到频率协调去噪模块时，平均 VAE 重建误差从 0.024 提高到 0.018，这表明 LDM 预测准确度的上限有所改善。

基于图像的渲染

现在描述如何获取给定输入图像的预测随机运动纹理，并在时间t渲染未来帧。首先使用逆离散时间傅里叶变换在每个像素应用得到时域中的运动轨迹场。运动轨迹场确定每个输入像素在每个未来时间步的位置。给定这些预测运动场，采用深度基于图像的渲染技术，使用预测运动场在编码的上进行采样，如图 4 所示。

由于前向变形可能会导致孔洞，并且多个源像素可以映射到相同的 2D 输出位置，本文采用分层 softmax 采样策略。具体来说，通过特征提取器网络对进行编码，以产生多尺度特征映射。对于每一尺度 j 的单独特征映射，本文根据的分辨率调整并缩放预测的 2D 运动场。

本文使用流量大小作为几何的替代，以确定映射到其目的地位置的每个源像素的贡献权重。具体而言，计算每个像素的权重作为预测运动轨迹场的平均幅度。换句话说，假设大运动对应移动的前景对象，小运动或零运动对应背景对象。使用基于运动的权重而不是可学习的权重，因为观察到在单视图的情况下，可学习的权重无法有效解决曝光歧义，如图 5 的第二列所示。

有了运动场和权重 W，对每一个尺度应用 softmax 采样以生成权重特征

，其中是 softmax 采样操作。经汇总的特征然后注入图像合成解码器网络的中间块中，以产生最终渲染图像。

使用从真实视频中随机采样的起始帧和目标帧联合训练特征提取器和合成网络，其中使用从到的估计流场来变形的编码特征，并用 VGG 感知损失监督预测帧与的预测。如图 5 所示，与直接平均采样和基准深度变形方法相比，本文的运动感知特征采样产生没有孔洞或伪影的帧。

应用

演示使用提出的运动表示和动画流程为单张静态图片添加动态的应用。

▲ latern

图像到视频。系统通过首先从输入图像预测神经随机运动纹理，然后将本文的基于图像的渲染模块应用于从随机运动纹理派生的运动位移场，以动画单张静态图片。由于本文明确建模场景运动，这允许本文通过线性插值运动位移场来产生慢动作视频，并通过调整预测随机运动纹理系数的幅值来放大（或缩小）动画运动。

无缝循环。有时候生成无缝循环运动的视频是有用的，意味着视频开始和结束之间在外观或运动上没有不连续。不幸的是，很难找到大量无缝循环视频用于训练扩散模型。

相反，本文设计了一种方法，使用在常规非循环视频片段上训练的运动扩散模型来产生无缝循环视频。受最近图像编辑指导工作的启发，本文的方法是一种运动自我指导技术，它使用显式循环约束指导推理阶段的运动去噪取样处理。特别是，在每一迭代去噪步骤期间，本文除了标准的无分类器指导之外，还结合了一个额外的运动指导信号，其中强制每个像素在序列开始和结束时的位置和速度尽可能相似：

其中是在时间 t 和去噪步骤 n 处预测的 2D 运动位移场。w 是无分类器指导权重，u 是运动自我指导权重。

基于单张图的无缝循环视频如上 latern 图示意。

单幅图像的交互动力学。从震荡对象的观察视频中获得的图像空间运动频谱与该对象的物理振动模态基本成比例。模态形状捕获对象在不同频率下的震荡动力学，因此对象振动模式的图像空间投影可以用来模拟对象对用户定义力（如戳或拉）的响应。采用先前工作中的模态分析技术，该技术假设对象的运动可以用一组谐振荡器的叠加来解释。这使本文可以将图像空间 2D 运动位移场写为在每个模拟时间步 t 处调制的频谱系数和复模态坐标的加权和：

通过将解耦质量-弹簧-阻尼系统（在模态空间中）的运动方程组合欧拉前向方法来模拟模态坐标的状态。

实验

5.1 实现细节

使用 LDM 作为预测随机运动纹理的 backbone，其中使用具有连续4维潜在空间的变分自动编码器（VAE）。使用 L1 重构损失、多尺度梯度一致性损失以及权重为的 KL 散度正则化来训练VAE。本文采用与原始 LDM 工作中相同的 2D U-Net 和方差调度来以 MSE 损失迭代地对编码特征进行去噪。

对于定量评估，在大小的图像上训练 VAE 和 LDM，在 16 个 Nvidia A100 GPU 上需要约 6 天收敛。对于主要定量和定性结果，使用 DDIM 运行运动扩散模型 500 步，设置来生成随机运动纹理。对于 ablation 研究，运行 DDIM 200 步，并将所有配置的设置为 0。本文还展示了高达分辨率的生成视频，这些视频是通过在更高分辨率的数据上微调本文的模型创建的。

采用 ResNet-34 作为多尺度特征提取器。图像合成网络基于共调制 StyleGAN 架构。渲染模块在推理时以每秒 25 帧的速度在单个 Nvidia V100 GPU 上实时运行。

采用通用指导技术来生成无缝循环视频，设置权重和自递归迭代次数为 2。

5.2 数据和基线

数据。由于本文重点是展示如树木、花朵和蜡烛在风中移动等振荡运动的自然场景，因此从在线资源以及自己的采集中收集并处理了 2631 个这样的现象视频，其中保留 10% 的视频用于测试，其余用于训练。为了生成用于训练运动预测模块的真实随机运动纹理，在视频序列中选定的起始帧和每个未来帧之间应用基于图像金字塔的光流算法。注意，本文发现光流方法的选择至关重要。

本文观察到，基于深度学习的流量估计器倾向于产生过度平滑的流场，导致动画变得模糊或不真实。将每个训练视频中的每 10 帧作为起始图像，并使用后续的 149 帧生成相应的真实随机运动纹理。通过删除平均流动幅度 >8 像素的样本或所有像素的平均运动幅度大于一个像素的示例，过滤掉运动估计不正确或存在明显相机运动的样本。总的来说，数据集包含超过 13 万个图像-运动对样本。

基线。与几种最近的单图像动画和视频预测方法进行比较。如预测瞬时 2D 运动场以及以自回归方式预测未来帧。其他最近的工作，如采用 VAE 或扩散模型直接从单张图片预测视频帧。LFDM 在潜在空间中预测流场，然后使用这些流场对编码的输入图像进行变形，通过解码器生成未来帧。对这些模型进行自回归地应用，以将最后一个输出帧作为输入，进行另一轮生成，直到视频长度达到 150 帧。

5.3 指标

以两种主要方式评估本文的方法和基线生成的视频质量。首先，使用设计用于图像合成任务的指标评估合成帧的质量。本文采用 Frechet Inception Distance（FID）和 Kernel Inception Distance（KID）来测量生成帧分布与真实帧分布之间的平均距离。此外，本文使用滑动窗口 FID FIDsw（窗口大小为 30 帧），来测量生成的帧质量随时间的变化。

其次，为了评估视频在空间和时间域中的合成质量和时间一致性，采用基于在 Human Kinetics 数据集上训练的 I3D 模型的视频距离（FVD）。为了更准确地反映本文寻求生成的自然振荡运动的合成质量，还采用动态纹理视频距离（DT-FVD），该距离使用在以自然运动纹理为主的动态纹理数据库上训练的 I3D 模型测量 FVD。引入滑动窗口 FVD，窗口大小为 16，以测量生成视频质量随时间的变化。对于所有方法，在 256×128 中心裁剪的预测视频上评估每个错误指标，视频长度为150帧，分辨率为 256×128。生成时没有执行时域插值。

5.4. 定量结果

表 1 显示了本文方法与基线在未见测试视频剪辑上的定量比较。与之前的单图像动画基线相比，本文的方法在图像和视频合成质量方面有显着改进。具体来说，更低的 FVD 和 DT-FVD 距离表明本文方法生成的视频更逼真，时间一致性更好。此外，图 6 显示了不同方法生成的视频的滑动窗口 FID 和滑动窗口 DT-FVD 距离。正是由于本文的全局随机运动纹理表示，本文方法生成的视频在时间上更一致，不会随时间漂移或退化。

5.5. 定性结果

以两种方式可视化本文方法和基线生成的视频之间的定性比较。首先，显示生成视频的空间-时

切片，这是可视化视频中小或细微运动的标准方式。如图 7 所示，本文生成的视频动态更强烈地类似于相应的真实参考视频（第二列）中观察到的运动模式，与其他方法相比。基线如 Stochastic I2V 和 MCVD 在时间上无法对外观和运动进行逼真建模。Endo 等人 [28] 生成的视频帧具有较少的伪影，但表现出过度平滑或非振荡运动。

还通过可视化预测图像及其相应的运动位移场在 t=128 时刻，定性地比较不同方法生成的单个帧和运动的质量。图 8 显示，本文方法生成的帧与其他方法相比伪影和变形更少，本文对应的 2D 运动场最接近从相应的真实视频中估计的参考位移场。相比之下，其他方法生成的背景内容倾向于漂移，如偶数行中流场的可视化所示。此外，其他方法生成的视频帧存在显着的颜色失真或残影伪影，表明当生成较长时间的视频序列时，基线的稳定性较差。