
新智元报道
新智元报道
【新智元导读】文本到2维图像、2维视频、3维模型,现在终于发展到3维模型视频了!
论文链接:https://arxiv.org/abs/2301.11280
项目链接:https://make-a-video3d.github.io/
柯基玩球
MAV3D的训练不需要任何3D或4D数据,T2V 模型只需要在文本-图像对和未标记的视频上进行训练。
在实验部分,研究人员进行了全面的定量和定性实验以证明该方法的有效性,对之前建立的内部基线有明显提升。
文本到4D动态场景
文本到4D动态场景
由于缺乏训练数据,研究人员为了解决这个任务构想了几种思路。
一种方法可能是找到一个预先训练好的二维视频生成器,并从生成的视频中提炼出一个四维重建。不过从视频中重建可变形物体的形状仍然是一个非常具有挑战性的问题,即非刚性运动结构(Non-Rigid Structure from Motion, NRSfM)。
如果给定物体的多个同步视点(multiple simultaneous viewpoints),任务就变得简单了。虽然多机位设置在真实数据中很少见,但研究人员认为,现有的视频生成器隐含了生成场景的任意视点模型。
也就是说,可以将视频生成器作为一个「统计学」的多摄像机设置来重建可变形物体的几何和光度。
MAV3D算法通过优化动态神经辐射场(NeRF)与将输入文本解码成视频,对物体周围的随机视点进行采样来实现该目的。
直接使用视频生成器来优化动态NeRF并没有取得令人满意的结果,实现过程中还有几个难题需要攻克:
1. 需要一个有效的、端到端可学习的动态三维场景表征;
2. 需要一个有监督学习的数据源,因为目前并不存在大规模的(文本,4D)对的数据集可供学习;
3. 需要在空间和时间维度上扩展输出的分辨率,因为4D输出需要大量的内存和计算能力;
MAV3D模型
MAV3D模型
MAV3D模型基于神经辐射场(NeRFs)的最新工作,结合了高效(静态)NeRFs和动态NeRFs中的成果,并将4D场景表示为六个多分辨率特征平面的集合。
为了在没有相应(文本、4D)数据的情况下监督这种表示,研究人员提出了一个用于动态场景渲染的多阶段训练pipeline,并证明了每个组件在实现高质量结果中的重要性。
一个比较关键的观察结果是,使用Text-to-Video(T2V)模型,利用Score Distillation Sampling(SDS)直接优化动态场景会导致视觉伪影和次优收敛。
所以研究人员选择首先利用文本到图像(T2I)模型,将静态的三维场景与文本提示相匹配,随后再用动态的方式增强三维场景模型。
此外,模型中还引入了一个新的temporal-aware SDS损失和运动正则项,通过实验证明了其对现实中和具有挑战性的运动至关重要。
实验部分
实验部分
评价指标
使用CLIP R-Precision来评估生成的视频,可以用于衡量文本和生成场景之间的一致性,可以反应输入提示从渲染的框架中的检索准确性。研究人员使用CLIP的ViT-B/32变体,并在不同的视图和时间步中提取帧。
除此之外还使用了四个定性指标,通过询问人类标注员在两个生成的视频中的偏好,可以得出(i)视频质量;(ii)对文本提示的忠实度;(iii)运动量;以及(iv)运动的真实性。
Text-to-4D对比
由于之前没有文字转4D的方法,所以研究人员建立了三个基于T2V生成方法的基线用于对比,二维帧的序列就会用三种不同的方法转化为三维场景表示的序列。
第一个序列是通过one-shot神经场景渲染器(Point-E)得到;第二个是通过对每一帧独立应用pixelNeRF生成的;第三个是应用D-NeRF结合使用COLMAP提取的相机位置。
可以看出,该方法在客观的R-精度指标上超过了基线模型,并且在所有指标上都得到了人类标注员更高的评价。
此外,研究人员还探索了该方法在不同相机视角下的表现。
消融实验
1、 在没有场景超分辨率(SR)微调的情况下训练的模型,其步骤数与MAV3D相同(阶段3)的情况下,人类标注员在质量、文本对齐和运动方面都更倾向于选择用SR训练的模型。
此外,超分辨率微调增强了渲染视频的质量,使高分辨率视频具有更精细的细节和更少的噪音。
2、无预训练:在直接优化动态场景(没有静态场景预训练)的步骤与MAV3D相同的情况下,结果是场景质量低得多或收敛性差:在73%和65%的情况下,用静态预训练的模型在视频质量和现实运动方面更受欢迎。
微信扫码关注该文公众号作者