此外,在时间域采用运动纹理,如上面定义的,意味着需要预测 T 个 2D 位移场才能生成具有T帧的视频。为避免对长输出视频预测如此大的输出表示,许多先前的动画方法要么对生成的视频帧进行自回归生成,要么通过额外的时间嵌入独立地预测每个未来输出帧。但是,这两种策略都不能确保生成视频帧的长期时间一致性,都可能产生随时间漂移或发散的视频。
为解决上述问题,本文在频域中表示输入场景的每个像素运动纹理(即所有像素的完整运动轨迹),并将运动预测问题表述为一个多模态的图像到图像转换任务。采用潜在扩散模型(LDM)来生成一个随机运动纹理,它包含 4K 个通道的 2D 运动频谱映射,其中 是建模的频率数,每个频率需要四个标量来表示复 X 和 Y 维度的傅里叶系数。图 1 说明了这些神经随机运动纹理。时间域中的像素运动轨迹与其在频域中的运动频谱表示 之间的关系由快速傅里叶变换(FFT)决定:
应该如何选择表示中 K 个输出频率?先前关于实时动画的工作观察到,大多数自然震荡运动主要由低频成分组成。为验证这一假设,计算了从 1000 个随机采样的 5 秒真实视频片段中提取的运动的平均功率谱。
如图 2 左侧所示,来自数据集中真实视频的 x 和 y 运动分量的功率谱随频率的增加近似指数衰减。这表明大多数自然震荡运动确实可以用较低频率项很好地表示。在实践中,本文发现前 K=16 个傅里叶系数就足以真实地重建原始自然运动的大多数真实视频和场景。2.3 用扩散模型预测运动选择潜在扩散模型(LDM)作为运动预测模块的骨干,因为 LDM 比像素空间扩散模型计算上更高效,而保持生成质量。一个标准 LDM 由两个主要模块组成:(1)一个变分自动编码器(VAE),它通过一个编码器 压缩输入图像到潜在空间,然后通过一个解码器 从潜在特征重建输入;(2)一个基于 U-Net 的扩散模型,它学习迭代去噪训练开始时的高斯随机噪声的潜在特征。本文的训练不是应用于输入图像,而是应用于来自真实视频序列的随机运动纹理,它们被编码然后通过预定义的方差计划在 n 步扩散以产生嘈杂潜在特征 。2D U-Net 被训练去噪每一步n的嘈杂潜在特征,通过迭代估计在每个步骤n使用的噪声 来更新潜在特征。LDM 的训练损失写为:其中 c 是任何条件信号的嵌入,比如文本、语义标签或者在本文的例子中是训练视频序列的第一帧 。干净的潜在特征 然后通过解码器传递来恢复随机运动纹理。频率自适应归一化。观察到一个问题是随机运动纹理在不同频率具有特定的分布特性。如图2左侧所示,运动纹理幅值跨越 0 到 100 的范围,并随频率的增加近似指数衰减。由于扩散模型要求输出值在 0 到 1 之间以获得稳定训练和去噪,必须在使用它们进行训练之前对从真实视频中提取的 S 系数进行归一化。如果根据图像宽度和高度缩放 系数到 [0,1],几乎所有较高频率的系数都会接近零,如图 2 右侧所示。在这种数据上训练的模型可能产生不准确的运动,因为在推理期间,甚至很小的预测误差在归一化后的极小 S 系数进行反归一化后也会导致很大的相对误差。为解决这个问题,采用一个简单但有效的频率自适应归一化技术。首先根据训练数据集的统计信息独立地对每个频率的傅立叶系数进行归一化。即,对每个独立频率 ,计算训练样本中所有傅里叶系数幅值的 百分位,并使用该值作为每个频率的缩放因子 。此外,对每个缩放后的傅里叶系数应用幂变换,使其远离极小或极大值。在实践中发现平方根变换优于对数或倒数等其他变换。总之,从真实视频中提取的随机运动纹理 在频率 上的最终系数值(用于训练 LDM)计算如下:
相反,本文设计了一种方法,使用在常规非循环视频片段上训练的运动扩散模型来产生无缝循环视频。受最近图像编辑指导工作的启发,本文的方法是一种运动自我指导技术,它使用显式循环约束指导推理阶段的运动去噪取样处理。特别是,在每一迭代去噪步骤期间,本文除了标准的无分类器指导之外,还结合了一个额外的运动指导信号,其中强制每个像素在序列开始和结束时的位置和速度尽可能相似:其中 是在时间 t 和去噪步骤 n 处预测的 2D 运动位移场。w 是无分类器指导权重,u 是运动自我指导权重。
基于单张图的无缝循环视频如上 latern 图示意。
单幅图像的交互动力学。从震荡对象的观察视频中获得的图像空间运动频谱与该对象的物理振动模态基本成比例。模态形状捕获对象在不同频率下的震荡动力学,因此对象振动模式的图像空间投影可以用来模拟对象对用户定义力(如戳或拉)的响应。采用先前工作中的模态分析技术,该技术假设对象的运动可以用一组谐振荡器的叠加来解释。这使本文可以将图像空间 2D 运动位移场写为在每个模拟时间步 t 处调制的频谱系数 和复模态坐标 的加权和:通过将解耦质量-弹簧-阻尼系统(在模态空间中)的运动方程组合欧拉前向方法来模拟模态坐标 的状态。