让PyTorch创始人直呼「Amazing」的视频「脑补」，动态场景NeRF合成速度提升百倍

2023-02-11 04:02

选自arXiv

作者：Ang Cao等

机器之心编译

编辑：袁铭怿

来自的密歇根大学的研究者提出了「HexPlane」，一种能高效合成动态场景新视图的方法。该研究引起了 PyTorch 创始人 Soumith Chintala 的关注。

从一组 2D 图像中重建和重新渲染 3D 场景，一直是计算机视觉领域的核心问题，它使许多 AR/VR 应用成为可能。过去几年，重建静态场景方面取得了巨大的进展，但也存在局限性：现实世界是动态的，在复杂场景中，运动应是常态的，而非例外情况。

目前许多表征动态 3D 场景的方法都依赖于构建在 NeRF 基础上的隐式表征。他们训练了一个大型多层感知器（MLP），该感知器可以输入点在空间和时间上的位置，并且输出点的颜色或标准静态场景的形变。任何情况下从新视图渲染图像都是耗资巨大的，因为每个生成的像素都需要许多 MLP 来进行计算。训练进程同样也是缓慢的，需要长达数天的 GPU 时间来建模动态场景。这样的计算瓶颈阻碍了相关方法的广泛应用。

通过使用显式混合的方法，最近的几种静态场景建模方法已经实现了比 NeRF 更大的、速度方面的提升。这些方法使用显式空间数据结构，存储显式场景数据或特征，由小型 MLP 解码。这将模型的容量与其速度解耦，并可以实时渲染高质量的图像。不过这些方法虽然有效，但目前只能应用于静态场景。

论文链接：https://arxiv.org/pdf/2301.09632.pdf

项目地址：https://caoang327.github.io/HexPlane/

在最近的一篇论文中，密歇根大学的研究者 Justin Johnson、Ang Cao 为动态 3D 场景设计了显式表征，取得了类似静态场景层面的进展。他们设计了一个存储场景数据的时空数据结构，其中必须克服两个关键的技术挑战：首先是内存使用。研究必须模拟空间和时间中的所有点；在密集的 4D 网格中存储数据将以网格分辨率的四次方进行缩放，这对于大场景或长时间持续是不可行的。其次是稀疏观测。在静态场景中移动单个摄像机可以获得密集覆盖场景的视图；相比之下，在动态场景中移动相机每个时间步只能提供一个视图。单独处理时间步可能无法提供高质量重建的场景覆盖，因此必须实现跨时间步共享信息。

研究者采用新式的 HexPlane 架构克服了这些挑战。受静态场景因子表征的启发，HexPlane 将一个 4D 时空网格分解为跨越每对坐标轴（例如 XY, ZT）的六个特征平面。HexPlane 通过将一个 4D 时空点投影到每个特征平面上，聚合六个结果特征向量来计算时空点的特征向量。然后将融合的特征向量传递给一个小型 MLP，该 MLP 预测点的颜色；之后可以通过体渲染来渲染新视图。

HexPlane 很简洁，且为上述挑战提供了一个巧妙的解决方案。由于它的因子化表征，HexPlane 的内存占用的空间只与场景分辨率成四等分。此外，每个平面的分辨率可以独立调整，以适应需要空间和时间可变容量的场景。由于一些平面仅依赖于空间坐标（例如 XY），通过构建 HexPlane，可以促进不相交的时间步长之间的信息共享。

实验结果表明，HexPlane 是一种能高效合成动态场景新视图的方法。研究者在 Plenoptic 视频数据集上匹配了先前工作的图像质量，但将训练速度提高了 100 多倍；该方法也在单目视频数据集上优于先前所采用的方法。多项消融实验验证了 HexPlane 设计的合理性，并证明了它对不同的特征融合机制、坐标系（矩形与球面）和解码机制（球面谐波与 MLP）具有鲁棒性。