ICLR 2023 | 神经规范场：渲染引导空间规范变换

2023-10-19 05:10

©作者 | 占方能

单位 | 马克斯普朗克计算机所

研究方向 | 神经渲染

近期，神经场（Neural Fields）领域的巨大进展，已经显著推动了神经场景表示和神经渲染的发展。为了提高 3D 场景的计算效率和渲染质量，一个常见的范式是将 3D 坐标系统映射到另一种测量系统，例如 2D 流形和哈希表，以建模神经场。本文将这种坐标或者测量系统的转换定义为“规范变换”（gauge transformation）。

这种规范变换通常采用预定义的函数，例如 EG3D 中的垂直投影和 Instant-NGP 中的空间哈希函数。然而，这种预先定义的函数往往并非最优选择，所以一个很自然的问题浮现出来：是否能以端到端的方式直接学习规范变换，让它与神经场一同进行优化？本研究将此问题拓展为一个广义的范式，包括连续型和离散型规范变换，并设计了统一的学习框架以共同优化规范变换和神经场。

论文地址：

https://arxiv.org/abs/2305.03462

GitHub地址：

https://github.com/fnzhan/Neural-Gauge-Fields

项目地址：

https://fnzhan.com/Neural-Gauge-Fields/

介绍

规范通常表示一种测量标准或测量系统，比如温度测量中的华氏度和摄氏度。而两种规范之间的转换则被称为规范变换，比如华氏度和摄氏度之间的转换。在物理领域中，各种坐标系统的变换也可以被称之为规范变换，如图一所示的局部和总体的规范变换。

▲ 图一：物理中的规范变换

而在神经场领域中，规范变换的定义可以进一步扩展为连续变换和离散变换，如图二。

▲ 图二：神经场的规范变换

连续规范变换：如果目标规范（测量系统）是连续的，那么这种变换定义为连续规范变换。这种连续规范变换，基本等同于坐标变换。对于一个原始 3D 空间中的点x，可以通过一个神经网络 M 对它进行规范变换，从而得到它在目标规范中的新坐标即 M(x) 或者 x+M(x)。这个新坐标可以用来索引神经场，包括隐式神经场（MLP-based）和显式神经场（grid-based）。连续规范变换的典型应用包括 UV 纹理映射和学习 TriPlane 映射。

对于 UV 纹理映射，规范变换具体定义为 3D 空间到 2D UV 空间的映射，由于神经场是在 2D UV 空间进行索引，所以我们通过在 UV 空间进行均匀点采样可以得到每个点的颜色，从而得到显式的 UV，同时可以对 2D UV 进行编辑（如图）。

▲ 图三：学习 2D UV 映射和进行 UV 编辑

对于 TriPlane 映射也是类似，我们采用三个单独的网络来分别学习 3D 空间到 2D 平面的映射。我们发现这种可学习的变换可以提升 TriPlane 神经场的渲染效果和模型收敛速度，如图四所示。

▲ 图四：学习 3D 空间到 TriPlane 的规范变换

以上只是列举出两种应用，实际上这种可学习的连续规范变换可以根据目的灵活地嵌入到各种 NeRF 模型当中，比如动态场景 NeRF，和基于 NeRF 的本征分解。

离散规范变换：如果目标规范是离散的（比如哈希表空间），那么这种变换定义为离散规范变换。由于离散空间的索引参数是离散的，我们不能像连续规范变换那样直接通过网络预测索引参数值。所以，对于 3D 空间中的一个点x，我们用神经网络预测这个点在哈希表上的离散概率分布，然后通过 Top-1 操作得到最大概率点对应的哈希表索引。由于 Top-1 操作是不可微分的，所以需要通过重参数技巧来得到近似梯度进行模型优化，算法流程图五所示。

▲ 图五：离散规范变换学习中的正向/反向传播

离散规范的主要应用包括 Instant-NGP 的模型压缩，可泛化 NeRF 等。对于可泛化 NeRF，由于哈希映射变得可学习，所以多个场景都可以学习映射到同一个哈希表中，从而实现场景泛化 NeRF。

可视化分析

尽管证明了学习规范变换是可行的，但是学习到的规范变换具体遵循什么样的规律依然不清楚，所以这里对学习到的规范变换进行了可视化。对于 3D 空间和 2D 流形（球面或者平面）的规范变换，我们学习一个逆映射将 2D 流形上均匀采样的点投影到 3D 空间，如图六所示。

▲ 图六：规范变换可视化

通过观察，我们发现学习到的规范变换和场景的几何（或者说密度）有很明显的关系，物体表面的点（也就是密度比较大的点）会被很好的投影到目标平面即占有率很高，而密度小的点所在空间会被高度压缩并在目标平面只有很低的占有率。这个结果也符合直觉：物体表面对渲染结果影响最大，所以渲染损失函数倾向于让物体表面更多地占用目标平面的特征，同时压缩对渲染影响很小的低密度空间。

信息不变性规范

理想情况下，我们期望 3D 空间信息能在规范变换中保证保持不变（Information Invariant, or InfoInv），一半情况下这个很难实现，这里我们通过推导证明了神经场中的位置编码实际上实现了规范变换中的相对信息不变性，从而有助于神经场建模。而本质上，这种不变性规范是对神经场坐标施加了一个相位变换：