高效低成本构建元宇宙场景：NeRF神经辐射场

2023-03-31 13:03

文/VR陀螺冉启行

NeRF 技术可以加速元宇宙的发展，为 VR 和 AR 硬件设备提供独特的三维内容。

在 VR 游戏和虚拟世界（如《地平线山之呼唤》）中展示的 3D 图形通常由数百万个相互连接的多边形组成，每个对象都有相应的颜色、阴影和纹理，以震撼的画风带给用户更加逼真的近眼体验。

虽然多边形建模（Polygon Modeling）是目前三维软件中比较流行的建模方法，但实现部分偏写实的画风却具有一定挑战性，譬如 VR 节奏射击游戏《Pistol Whip》，它使用程式化的图像来代替。

《Pistol Whip》游戏画面（图源：网络）

物理世界是由不完美、流动的形状组成的，即使是一个简单的纸板箱，它的边缘也有圆形，而一个快速建模的 3D 盒子则是刚性的 90 度直角。另外，纸板箱的表面可能有微小的瑕疵、皱褶和折痕，盒子的纹理是不均匀的纤维状，以漫反射的棕色色调反射光线，这是微妙的色调风格，是更加贴近现实的风格。

自然光在极其复杂的物体结构中反射和反弹，这很难在计算机中模拟重现。光线追踪通过模拟数百万条光线在物体上弹跳和散射，以创建详细逼真的图像来解决这个问题。

然而，为 VR 游戏或虚拟元宇宙处理带有实时光线追踪的复杂渲染需要强大的图形性能，这需要更加强大的独立 CPU 或云渲染能力，这对于当前量级的 VR 硬件市场来说成本过于高昂，跳脱现实。

一种新的解决方案以 NeRF 技术的形式出现，这是一种解决在计算机内重建真实世界对象问题的新方法。

NVIDIA Instant NeRF（图源：英伟达）

NeRF：从2D图像中重建三维视觉

NeRF 是神经辐射场（Neural Radiance Field）的首字母缩写，它是一种基于神经网络的 3D 重建技术，不同于传统的三维重建方法把场景表示为点云、网格、体素等显式的表达，它独辟蹊径，将场景建模成一个连续的 5D 辐射场隐式存储在神经网络中，只需输入多角度的 2D 图像，就可以通过训练得到一个神经辐射场模型，根据这个模型可以渲染出任意视角下的清晰照片。

NeRF 提出的隐式表达以空间点的坐标和观察者的视角、位置作为输入，输出则是点的 RGB 信息和占用密度。占用密度这一点与占用函数相似，但没有像占用函数那样粗暴地用 0 和 1 表示一个点是否被占用，而是用 0~1 之间的数字表示点被占用的程度这样可以大幅减少计算量。

图源：CSDN

NeRF 从 2D 图像中组建出 3D 画面，从而实现对虚拟环境中物体的精确定位和跟踪。NeRF 技术的核心思想是将场景中的每个像素都视为一个神经元，然后使用神经网络来学习这些神经元之间的关系，这种方法可以有效地提高场景的精度和真实感。

要创建 NeRF，首先要从整个环境或物体周围的不同角度拍摄一系列照片。在某些情况下，录制视频更方便。这允许设计师使用无人机捕获的视频或任何其他预先录制的内容制作 NeRF，甚至可以使用这项技术重新捕获 3D 游戏内容作为 NeRF。

为达到最佳模型，开发者在创建 NeRF 时，需要慢慢移动相机，可以从上方、中间和下方绕圈。然后使用这些照片或视频来训练人工智能模型，在你的电脑、手机或 VR 头显中重新创建虚拟物体。

图源：CSDN

与许多计算机表示图像一样，通过 NeRF 生成的图形质量也各不相同，因此快速生成或原图像较少的 NeRF 图像可能会产生噪点，撕裂等问题。不过，画面整体来看，真实感依旧会表现得较好。

色斑和块状伪影降低了早期 JPEG 照片的质量，第一波 NeRF 渲染也有类似的缺陷。随着技术的成熟，这些问题将变得不那么常见。

RawNeRF：Google 的新图像 AI 为黑暗带来光明（图源：Ben Mildenhall / Google）

渲染成本要求低，可达类“光线追踪”图形效果

除 3D 场景的建立，NeRF 的另一个优势在于它可以在低功耗的设备上进行运算渲染。多边形光线追踪以高帧率渲染高分辨率、逼真的场景，这需要昂贵的显卡支撑，但高质量的 NeRF 可以在手机甚至网络浏览器上渲染。

在图像渲染方面， NeRF 采用了光线追踪的方法将隐式表示渲染为二维图像，光线追踪法就是沿着观察者眼里发射出光线，对光线进行采样取得每个采样点的 RGB 和密度信息，并使用体绘制技术将这些值合成图像。

所以，NeRF 技术又一衍生出的优点是它可以处理复杂的光照和阴影效果，使得虚拟环境更加真实。此外，它还可以处理透明和反射材料，使得虚拟环境中的物体更加逼真。

用手机拍了段视频，5秒训练自己的NeRF

(来源：B站up主——文森特秦）

NeRF 快速生成逼真 3D 图像视觉的能力，以及低廉的硬件适配成本，对于尚处于前期发展阶段的 XR 硬件，无疑具备强大的吸引力。NeRF 在 XR 领域的开发仍处于早期阶段，但是使用 NeRF 来构建某些 VR/AR 游戏内容或元宇宙世界未来是必然的应用趋势。

在 VR 和 AR 技术中，NeRF 可以用来创建更加真实的虚拟环境。例如，在 VR 游戏或元宇宙世界中，NeRF 可以用来创建高度精细的 3D 场景，增强沉浸式体验。在 AR 应用中，NeRF 可以用来创建更加逼真的虚拟物体，还原文物等模型。

在上文提及一个小小的纸板箱也有复杂的形状、纹理和灯光效果，那想象一个充满珠宝、枝形吊灯、彩色玻璃、多盏挂灯和镜子的场景——这种复杂的光线环境即使用昂贵 GPU 的计算机也会不堪重负，从而导致帧速率受到影响，更别提性能几乎落后 PC、手机 3-4 年的 VR 一体机，以及采用穿戴式移动平台的 AR 眼镜。

为设计一个更接近自然世界，细节详实、对象逼真、包含光线、阴影仅有细微差别的虚拟元宇宙，需要一种更先进的解决方案，它比光线追踪数百万束光线穿过充满数百万个多边形的场景要求更低，这就是 NeRF 的意义所在。

图源：网络

对比摄影测量和激光雷达，NeRF“性价比”更高

在 3D 图形的生成过程中，NeRF 需要大量的照片和视频，这一记录方法与“摄影测量”和“激光雷达”类似。

摄影测量是从图像进行测量的过程，对获取的重叠图像进行处理以生成精确的空间模型，它的主要目的是数字化现实以进行测绘。激光雷达主要用于激光测量距离，它的工作原理是用激光照亮目标物体或空间，并记录激光返回传感器所需的时间，以高精度测量距离。

激光雷达可以用于执行与摄影测量类的任务，并可以加强其输出，一些摄影测量应用程序也使用激光来加快处理速度。虽然摄影测量+激光雷达的捕获技术与 NeRF 类似，但摄影测量以数学方式对齐图像以创建称为点云（Point Cloud）的 3D 对象表示。

根据激光测量原理得到的点云，包括三维坐标（XYZ）和激光反射强度（Intensity）；根据摄影测量原理得到的点云，包括三维坐标（XYZ）和颜色信息（RGB）；结合激光测量和摄影测量原理得到点云，包括三维坐标（XYZ）、激光反射强度（Intensity）和颜色信息（RGB）。

Robert Morris 的虚拟现实珍品柜展示了数百件通过摄影测量数字化的稀有奇妙物品（图源：Mechanical Whispers）

由于采集数据信息庞大，虽然点云可以准确捕捉对象的颜色和纹理，但其关键的一点是无法重现光线细节。这些传统的技术非常适合捕获的第一阶段，若要生成逼真的模型，需要将点云转换为多边形模型，由 3D 艺术家手动调整，并使用光线追踪进行渲染。

与传统的 3D 重建方法不同，NeRF 不需要人工标注或手动建模。相反，它可以从单张或多张图像中自动学习场景的 3D 形状和光照，准确地捕捉场景中的细节和光线传播，并且能够快速地进行场景渲染。

AI浪潮下，NeRF加速

事实上，NeRF 技术已经存在多年。1936 年，物理学家 Andrey Gershun 首次描述了光场的概念。在过去几年中，神经处理作为应对许多计算挑战的解决方案呈爆炸式增长。图像和文本生成、计算机视觉和语音识别等 AI 进步依赖于神经处理来解决自然世界的复杂性，以及几乎不可预测的未来性。

Nvidia 的研究人员展示了一种新的 AI 方法，旨在使人工智能在计算机图形学中得到有效利用（图源：英伟达）

在早期，神经渲染非常耗时。现在，计算机、移动设备和 VR 一体机在其中央处理器和图形芯片中包含专用神经核心，显示 NeRF 变得快速而简单。Nvidia 的 Instant-NGP 展示了立竿见影的效果，几乎可以在瞬间编译照片和训练 NeRF——时代杂志还将 NVIDIA Instant NeRF 评为2022 年最佳发明之一。

即使是 iPhone 也可以使用 Luma AI 应用程序捕获和创建 NeRF，Google 的最新进展使 NeRF 技术更快。随着 NeRF 技术不断进步并变得更加通用，神经渲染可能会在构建充满元宇宙的虚拟对象和环境方面发挥重要作用，并可能使 VR 一体机和 AR 眼镜在未来成为必需品。

在常见的三维表示中，相比于点云的高成本，NeRF 是一种近似的方法，适用于部分不需要编辑或交互的 XR 静态内容，这是一个可探索的方向。

NeRF 现在的缺点是不能做结构数据，也就是 Mesh，所以现阶段用 NeRF 来开发像《地平线山之呼唤》这种多资产的游戏不大可能。NeRF 做出的 VR 内容是体积数据，属于静态的无法交互。不过，动态的经济效益就会很高，NeRF 未来极具商业价值。

最后附六种常见三维表示方法：