Redian新闻
>
谷歌最新研究:可交互式动态图片生成,细节逼真!

谷歌最新研究:可交互式动态图片生成,细节逼真!

科技

©PaperWeekly 原创 · 作者 | 岳廷



论文链接:

https://arxiv.org/abs/2309.07906

项目链接:

https://generative-dynamics.github.io./


要解决的问题通过单张自然景观(树木,花朵等)图像,生成自然的动态视频(风、水流、呼吸或其他自然节奏造成的动态)一直是难点,要么生成不真实,要么不可控。如拍摄一朵荷花,如何生成一个荷花被风吹过摇曳的视频?

具体而言,自然界总处于运动之中,即使看似静止的场景也包含微妙的震荡,这是由风、水流、呼吸或其他自然节奏造成的。运动是最引人注目的视觉信号之一,人类尤其灵敏于此:如果拍下的图像没有运动(或者运动不太真实),通常会让人感到不自然或不真实。

虽然人类可以轻松地解释或想象场景中的运动,但训练一个模型学习真实场景运动远非易事。

解决方案通过学习一系列从真实视频序列中提取的运动轨迹,从而建立一个图像空间场景动态的先验模型。模型通过一个频率协调的扩散采样过程来预测在频域中的每个像素的长期运动表示,即神经随机运动纹理。这个表示可以转换为跨越整个视频的密集运动轨迹。

效果效果显著、基本看不出来是生成的,且可交互(建议查看 project 页视频)。不仅可以将静止的图像转变为无缝循环的动态视频,还可以让用户与真实图片中的物体进行交互,如上面提到的拍摄的荷花,可以有 2 种动态图片生成方式:1)直接生成;2)交互式生成,即用户选定花朵,并给出风的方向,整个画面朝招该方向摇曳。

与基于原始 RGB 像素的先验相比,这种基于运动的先验能够更有效地解释像素值的变化,因此,这种运动表示形式可以导致更连贯的长期生成,并对动画提供更细粒度的控制。

额外拍摄大自然时,可根据单张图像、按照自己的方式,生成想要包含自然节奏运动的动态视频。

效果示意图

▲ demo




方法概述
给定一张图片 ,目标是生成长度为T的视频 ,展示像树木、花朵或烛焰在微风中的摇曳等震荡动力学。系统由两个模块组成:运动预测模块(第二部分)基于图像的渲染模块(第三部分)
流程从使用潜在扩散模型(Latent Diffusion Model ,LDM)预测输入图像 的神经随机运动纹理 开始。一个随机运动纹理是输入图像中每个像素运动轨迹的一个频域表示。然后使用一个逆离散傅里叶变换将预测的随机运动纹理转换为运动位移场序列
这些运动场又用于确定每个输入像素在每个未来时间步的位置。给定这些预测运动场,本文的渲染模块使用基于图像的渲染技术对输入 RGB 图像进行动画处理,编码输入图像的特征并使用图像合成网络对编码的特征进行采样和解码以生成输出帧。因为本文的方法明确估计一张静态图片中的一个运动表示,它支持几种下游应用,比如以不同速度和运动幅度动画单张静态图片,生成无缝循环视频,以及模拟对象响应外部用户激励的动力学响应(即交互动态)。



神经随机运动纹理

2.1 运动纹理

一个运动纹理定义一个时变 2D 位移映射序列 ,其中来自输入图像 的每个像素坐标 p 上的 2D 位移向量 Ft(p) 定义了该像素在未来时间 t 的位置。要在时间 t 生成未来帧,可以使用对应的位移映射 进行采样,生成前向包围的图像

2.2 随机运动纹理

许多自然运动,尤其是本文关注的震荡运动,可以描述为由不同频率、幅值和相位的少数谐波振荡器的叠加。引入随机性的一种方法是集成噪声场,但如先前工作所观察到的,直接向估计运动场的时域和时域中添加随机噪声通常会导致不真实或不规律的动画。

此外,在时间域采用运动纹理,如上面定义的,意味着需要预测 T 个 2D 位移场才能生成具有T帧的视频。为避免对长输出视频预测如此大的输出表示,许多先前的动画方法要么对生成的视频帧进行自回归生成,要么通过额外的时间嵌入独立地预测每个未来输出帧。但是,这两种策略都不能确保生成视频帧的长期时间一致性,都可能产生随时间漂移或发散的视频。

为解决上述问题,本文在频域中表示输入场景的每个像素运动纹理(即所有像素的完整运动轨迹),并将运动预测问题表述为一个多模态的图像到图像转换任务。采用潜在扩散模型(LDM)来生成一个随机运动纹理,它包含 4K 个通道的 2D 运动频谱映射,其中 是建模的频率数,每个频率需要四个标量来表示复 X 和 Y 维度的傅里叶系数。图 1 说明了这些神经随机运动纹理。
时间域中的像素运动轨迹 与其在频域中的运动频谱表示 之间的关系由快速傅里叶变换(FFT)决定:

应该如何选择表示中 K 个输出频率?先前关于实时动画的工作观察到,大多数自然震荡运动主要由低频成分组成。为验证这一假设,计算了从 1000 个随机采样的 5 秒真实视频片段中提取的运动的平均功率谱。

如图 2 左侧所示,来自数据集中真实视频的 x 和 y 运动分量的功率谱随频率的增加近似指数衰减。这表明大多数自然震荡运动确实可以用较低频率项很好地表示。在实践中,本文发现前 K=16 个傅里叶系数就足以真实地重建原始自然运动的大多数真实视频和场景。

2.3 用扩散模型预测运动
选择潜在扩散模型(LDM)作为运动预测模块的骨干,因为 LDM 比像素空间扩散模型计算上更高效,而保持生成质量。一个标准 LDM 由两个主要模块组成:(1)一个变分自动编码器(VAE),它通过一个编码器 压缩输入图像到潜在空间,然后通过一个解码器 从潜在特征重建输入;(2)一个基于 U-Net 的扩散模型,它学习迭代去噪训练开始时的高斯随机噪声的潜在特征。
本文的训练不是应用于输入图像,而是应用于来自真实视频序列的随机运动纹理,它们被编码然后通过预定义的方差计划在 n 步扩散以产生嘈杂潜在特征 。2D U-Net 被训练去噪每一步n的嘈杂潜在特征,通过迭代估计在每个步骤n使用的噪声 来更新潜在特征。LDM 的训练损失写为:

其中 c 是任何条件信号的嵌入,比如文本、语义标签或者在本文的例子中是训练视频序列的第一帧 。干净的潜在特征 然后通过解码器传递来恢复随机运动纹理。
频率自适应归一化观察到一个问题是随机运动纹理在不同频率具有特定的分布特性。如图2左侧所示,运动纹理幅值跨越 0 到 100 的范围,并随频率的增加近似指数衰减。由于扩散模型要求输出值在 0 到 1 之间以获得稳定训练和去噪,必须在使用它们进行训练之前对从真实视频中提取的 S 系数进行归一化。
如果根据图像宽度和高度缩放 系数到 [0,1],几乎所有较高频率的系数都会接近零,如图 2 右侧所示。在这种数据上训练的模型可能产生不准确的运动,因为在推理期间,甚至很小的预测误差在归一化后的极小 S 系数进行反归一化后也会导致很大的相对误差。
为解决这个问题,采用一个简单但有效的频率自适应归一化技术。首先根据训练数据集的统计信息独立地对每个频率的傅立叶系数进行归一化。即,对每个独立频率 ,计算训练样本中所有傅里叶系数幅值的 百分位,并使用该值作为每个频率的缩放因子
此外,对每个缩放后的傅里叶系数应用幂变换,使其远离极小或极大值。在实践中发现平方根变换优于对数或倒数等其他变换。总之,从真实视频中提取的随机运动纹理 在频率 上的最终系数值(用于训练 LDM)计算如下:

如图 2 右侧所示,在应用频率自适应归一化后,随机运动纹理系数不再集中在极小值的范围内。

频率协调去噪预测具有 个频带的随机运动纹理 的直接方法是从标准扩散 UNet 输出 4K 个通道的张量。然而观察到训练一个模型产生如此大量通道倾向于产生过度平滑和不准确的输出。另一种方法是通过向 LDM 注入额外的频率嵌入来独立地在每个单独频率预测运动频谱图,但这在频域中导致不相关的预测,产生不真实的运动。
因此,提出一个频率协调去噪策略,如图 3 所示。给定输入图像 ,首先训练一个 LDM 来预测具有四个通道表示每个独立频率 的随机运动纹理图,与时间步嵌入一起向 LDM 网络中注入额外的频率嵌入。然后固定 LDM 模型 的参数,并在 个频带中引入注意力层,并与 的 2D 空间层交织。具体地,对于大小为 B 的输入图像批次,2D 空间层将对应的 个嘈杂潜在特征作为独立样本,其通道大小为 C,形状为
交叉注意力层然后将它们解释为沿频率轴连续的特征,本文在馈送到注意力层之前将来自上一个 2D 空间层的潜在特征重新整形为 。换句话说,频率注意力层用于协调预训练运动潜在特征跨所有频率通道,以产生连贯的随机运动纹理。在本文的实验中,本文观察到当从标准 2D U-Net 切换到频率协调去噪模块时,平均 VAE 重建误差从 0.024 提高到 0.018,这表明 LDM 预测准确度的上限有所改善。



基于图像的渲染

现在描述如何获取给定输入图像 的预测随机运动纹理 ,并在时间t渲染未来帧 。首先使用逆离散时间傅里叶变换在每个像素应用得到时域中的运动轨迹场 。运动轨迹场确定每个输入像素在每个未来时间步的位置。给定这些预测运动场,采用深度基于图像的渲染技术,使用预测运动场 在编码的 上进行采样,如图 4 所示。
由于前向变形可能会导致孔洞,并且多个源像素可以映射到相同的 2D 输出位置,本文采用分层 softmax 采样策略。具体来说,通过特征提取器网络对 进行编码,以产生多尺度特征映射 。对于每一尺度 j 的单独特征映射 ,本文根据 的分辨率调整并缩放预测的 2D 运动场
本文使用流量大小作为几何的替代,以确定映射到其目的地位置的每个源像素的贡献权重。具体而言,计算每个像素的权重 作为预测运动轨迹场的平均幅度。换句话说,假设大运动对应移动的前景对象,小运动或零运动对应背景对象。使用基于运动的权重而不是可学习的权重,因为观察到在单视图的情况下,可学习的权重无法有效解决曝光歧义,如图 5 的第二列所示。
有了运动场 和权重 W,对每一个尺度应用 softmax 采样以生成权重特征 ,其中 是 softmax 采样操作。经汇总的特征 然后注入图像合成解码器网络的中间块中,以产生最终渲染图像
使用从真实视频中随机采样的起始帧和目标帧 联合训练特征提取器和合成网络,其中使用从 的估计流场来变形 的编码特征,并用 VGG 感知损失监督预测帧 的预测。如图 5 所示,与直接平均采样和基准深度变形方法相比,本文的运动感知特征采样产生没有孔洞或伪影的帧。



应用

演示使用提出的运动表示和动画流程为单张静态图片添加动态的应用。

▲ latern

图像到视频系统通过首先从输入图像预测神经随机运动纹理,然后将本文的基于图像的渲染模块应用于从随机运动纹理派生的运动位移场,以动画单张静态图片。由于本文明确建模场景运动,这允许本文通过线性插值运动位移场来产生慢动作视频,并通过调整预测随机运动纹理系数的幅值来放大(或缩小)动画运动。

无缝循环有时候生成无缝循环运动的视频是有用的,意味着视频开始和结束之间在外观或运动上没有不连续。不幸的是,很难找到大量无缝循环视频用于训练扩散模型。

相反,本文设计了一种方法,使用在常规非循环视频片段上训练的运动扩散模型来产生无缝循环视频。受最近图像编辑指导工作的启发,本文的方法是一种运动自我指导技术,它使用显式循环约束指导推理阶段的运动去噪取样处理。特别是,在每一迭代去噪步骤期间,本文除了标准的无分类器指导之外,还结合了一个额外的运动指导信号,其中强制每个像素在序列开始和结束时的位置和速度尽可能相似:
其中 是在时间 t 和去噪步骤 n 处预测的 2D 运动位移场。w 是无分类器指导权重,u 是运动自我指导权重。

基于单张图的无缝循环视频如上 latern 图示意。

单幅图像的交互动力学从震荡对象的观察视频中获得的图像空间运动频谱与该对象的物理振动模态基本成比例。模态形状捕获对象在不同频率下的震荡动力学,因此对象振动模式的图像空间投影可以用来模拟对象对用户定义力(如戳或拉)的响应。采用先前工作中的模态分析技术,该技术假设对象的运动可以用一组谐振荡器的叠加来解释。这使本文可以将图像空间 2D 运动位移场写为在每个模拟时间步 t 处调制的频谱系数 和复模态坐标 的加权和:

通过将解耦质量-弹簧-阻尼系统(在模态空间中)的运动方程组合欧拉前向方法来模拟模态坐标 的状态。



实验

5.1 实现细节

使用 LDM 作为预测随机运动纹理的 backbone,其中使用具有连续4维潜在空间的变分自动编码器(VAE)。使用 L1 重构损失、多尺度梯度一致性损失以及权重为 的 KL 散度正则化来训练VAE。本文采用与原始 LDM 工作中相同的 2D U-Net 和方差调度来以 MSE 损失迭代地对编码特征进行去噪。
对于定量评估,在 大小的图像上训练 VAE 和 LDM,在 16 个 Nvidia A100 GPU 上需要约 6 天收敛。对于主要定量和定性结果,使用 DDIM 运行运动扩散模型 500 步,设置 来生成随机运动纹理。对于 ablation 研究,运行 DDIM 200 步,并将所有配置的 设置为 0。本文还展示了高达 分辨率的生成视频,这些视频是通过在更高分辨率的数据上微调本文的模型创建的。

采用 ResNet-34 作为多尺度特征提取器。图像合成网络基于共调制 StyleGAN 架构。渲染模块在推理时以每秒 25 帧的速度在单个 Nvidia V100 GPU 上实时运行。

采用通用指导技术来生成无缝循环视频,设置权重 和自递归迭代次数为 2。

5.2 数据和基线

数据由于本文重点是展示如树木、花朵和蜡烛在风中移动等振荡运动的自然场景,因此从在线资源以及自己的采集中收集并处理了 2631 个这样的现象视频,其中保留 10% 的视频用于测试,其余用于训练。为了生成用于训练运动预测模块的真实随机运动纹理,在视频序列中选定的起始帧和每个未来帧之间应用基于图像金字塔的光流算法。注意,本文发现光流方法的选择至关重要。

本文观察到,基于深度学习的流量估计器倾向于产生过度平滑的流场,导致动画变得模糊或不真实。将每个训练视频中的每 10 帧作为起始图像,并使用后续的 149 帧生成相应的真实随机运动纹理。通过删除平均流动幅度 >8 像素的样本或所有像素的平均运动幅度大于一个像素的示例,过滤掉运动估计不正确或存在明显相机运动的样本。总的来说,数据集包含超过 13 万个图像-运动对样本。

基线与几种最近的单图像动画和视频预测方法进行比较。如预测瞬时 2D 运动场以及以自回归方式预测未来帧。其他最近的工作,如采用 VAE 或扩散模型直接从单张图片预测视频帧。LFDM 在潜在空间中预测流场,然后使用这些流场对编码的输入图像进行变形,通过解码器生成未来帧。对这些模型进行自回归地应用,以将最后一个输出帧作为输入,进行另一轮生成,直到视频长度达到 150 帧。
5.3 指标

以两种主要方式评估本文的方法和基线生成的视频质量。首先,使用设计用于图像合成任务的指标评估合成帧的质量。本文采用 Frechet Inception Distance(FID)和 Kernel Inception Distance(KID)来测量生成帧分布与真实帧分布之间的平均距离。此外,本文使用滑动窗口 FID FIDsw(窗口大小为 30 帧),来测量生成的帧质量随时间的变化。

其次,为了评估视频在空间和时间域中的合成质量和时间一致性,采用基于在 Human Kinetics 数据集上训练的 I3D 模型的视频距离(FVD)。为了更准确地反映本文寻求生成的自然振荡运动的合成质量,还采用动态纹理视频距离(DT-FVD),该距离使用在以自然运动纹理为主的动态纹理数据库上训练的 I3D 模型测量 FVD。引入滑动窗口 FVD,窗口大小为 16,以测量生成视频质量随时间的变化。对于所有方法,在 256×128 中心裁剪的预测视频上评估每个错误指标,视频长度为150帧,分辨率为 256×128。生成时没有执行时域插值。

5.4. 定量结果

表 1 显示了本文方法与基线在未见测试视频剪辑上的定量比较。与之前的单图像动画基线相比,本文的方法在图像和视频合成质量方面有显着改进。具体来说,更低的 FVD 和 DT-FVD 距离表明本文方法生成的视频更逼真,时间一致性更好。此外,图 6 显示了不同方法生成的视频的滑动窗口 FID 和滑动窗口 DT-FVD 距离。正是由于本文的全局随机运动纹理表示,本文方法生成的视频在时间上更一致,不会随时间漂移或退化。

5.5. 定性结果
以两种方式可视化本文方法和基线生成的视频之间的定性比较。首先,显示生成视频的空间-时
切片,这是可视化视频中小或细微运动的标准方式。如图 7 所示,本文生成的视频动态更强烈地类似于相应的真实参考视频(第二列)中观察到的运动模式,与其他方法相比。基线如 Stochastic I2V 和 MCVD 在时间上无法对外观和运动进行逼真建模。Endo 等人 [28] 生成的视频帧具有较少的伪影,但表现出过度平滑或非振荡运动。

还通过可视化预测图像 及其相应的运动位移场在 t=128 时刻,定性地比较不同方法生成的单个帧和运动的质量。图 8 显示,本文方法生成的帧与其他方法相比伪影和变形更少,本文对应的 2D 运动场最接近从相应的真实视频中估计的参考位移场。相比之下,其他方法生成的背景内容倾向于漂移,如偶数行中流场的可视化所示。此外,其他方法生成的视频帧存在显着的颜色失真或残影伪影,表明当生成较长时间的视频序列时,基线的稳定性较差。

本文方法可以生成高分辨率、长时间的逼真视频,而不会产生明显的伪影或背景漂移。生成视频的质量主要取决于运动预测模块预测的运动质量。当真实视频中存在大位移时,生成的结果质量可能会下降。此外,由于本文的方法基于图像渲染,如果生成的视频需要大量输入图像中未见内容,动画质量也可能降低。



结论

提出了一种从单张静态图片建模自然振荡动力学的新方法。本文证明了该方法可以从单张图片生成逼真动画,并且明显优于之前的基准方法,它还可以支持其他下游应用,如创建交互式动画。有较大的趣味性!

更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
小费真是越来越夸张了!最新研究:超6成美国人对“小费文化”持负面看法,礼仪专家支招小费应该怎么给!生成模型构建交互式现实世界模拟器,LeCun觉得非常酷宾大最新研究:AI产生创意的效率比人类高7倍,GPT创意能力击败99%的人类!哈佛最新研究:同等标化成绩下,富家子弟的藤校录取率是普通家庭的4倍!最新研究:疫苗打哪只胳膊或影响免疫效果美好Worldbox 1/6肥腿一体脚:4组造型,细节无敌逼真!谷歌最新山景城访客体验中心开放心动!最新研究:加拿大这7个城市的中等收入者还买得起房!图像识别更准确!尤洋团队最新研究:全新自适应计算模型AdaTape使用 R 语言构建一个可交互的 Web 应用 | Linux 中国英伟达爆火智能体研究:AI逼真还原人类情感!会饿会孤独,会跑步会发火突发!新冠再次反扑,超强最新变种来袭!多国已“沦陷”,澳洲也未能幸免!最新研究:新冠竟这样影响大脑!协和最新研究:如不加大防控,慢阻肺病或致我国损失1.4万亿美元新研究:鸽子可以用类似人工智能方式解决问题;谷歌Bard聊天机器人升级,可实时生成回复丨AIGC日报红色日记 6.26-6.30DeepMind创始人:生成式AI只是过渡,AI未来将获得自由,交互式AI将改变人类OpenAI 和谷歌最怕的,是一张"开源笑脸" |【经纬低调分享】白宫拒港特首赴美,习将如期参会贝恩最新研究:生成式AI重塑游戏产业的未来博后招募 | 清华大学​交互式人工智能课题组招聘NLP方向博士后博士申请 | 英国布里斯托大学沈俊潇老师招收交互式人工智能方向全奖博士生大语言模型击败扩散模型!视频图像生成双SOTA,谷歌CMU最新研究,一作北大校友NeRF基于线稿生成逼真三维人脸,细节风格随意改,论文已上SIGGRAPH数字交互成重要互动媒介, 澳洲急需创新人才! 莫纳什交互设计专业详解单张A100,50亿步训练!英伟达开源最强虚拟角色定制模型,超逼真动作零样本生成,游戏动画行业要变天哈佛最新研究:决定女性衰老速度的行为,运动第三,睡觉第二,第一很多人做不到天气越来越奇怪了《新康定情歌》&《夜太黑》赵丽颖突然官宣喜讯!全网炸了:10年了图片图片图片我们公开吧……问界新M7推营销新玩法:可享华为Mate 60或X5优先购买权;白宫:英伟达等八家公司承诺为AI生成内容添加数字水印丨大公司动态狙击扩散模型!谷歌&伯克利提出IGN:单步生成逼真图像!终结扩散模型,IGN单步生成逼真图像!UC伯克利谷歌革新LLM,美剧成灵感来源谷歌最后一位Transformer论文作者离职创业,野心不小,要颠覆当前生成AI范式SIGGRAPH 2023 | NeRF基于线稿生成逼真三维人脸,细节风格随意改
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。