Redian新闻
>
数字文艺复兴来了:英伟达造出「AI版」米开朗基罗,实现高保真3D重建

数字文艺复兴来了:英伟达造出「AI版」米开朗基罗,实现高保真3D重建

公众号新闻
机器之心报道

编辑:Panda W

正如米开朗基罗能用大理石雕刻出令人惊叹、栩栩如生的作品,英伟达宣称 Neuralangelo 生成的 3D 结构也带有精细的细节和纹理。

对通过基于图像的神经渲染来恢复密集的 3D 表面,神经表面重建已被证明是可行的。然而,目前的方法很难恢复真实世界场景的详细结构。


为了解决这个问题,英伟达和约翰霍普金斯大学发布了一项研究,开发了一种命名为 Neuralangelo(即神经朗基罗)的模型,其可以将 2D 视频片段重建成细节丰富的 3D 结构,比如生成建筑、雕塑和其它现实物体的逼真虚拟复制品。



  • 项目网站:https://research.nvidia.com/labs/dir/neuralangelo/

  • 论文地址:https://research.nvidia.com/labs/dir/neuralangelo/paper.pdf

  • 附加材料:https://research.nvidia.com/labs/dir/neuralangelo/supplementary.pdf


这项研究已入选 CVPR 2023。英伟达在其官方博客上使用了「数字文艺复兴」来形容这项研究,足见其潜在的重要价值。


正如米开朗基罗能用大理石雕刻出令人惊叹、栩栩如生的作品,英伟达宣称 Neuralangelo 生成的 3D 结构也带有精细的细节和纹理。创意专业人士可以将这些 3D 对象导入到设计应用中,进一步编辑它们来创造艺术作品、开发视频游戏、创造机器人和产业数字人应用。


Neuralangelo 能将复杂的材料纹理(比如屋顶瓦、玻璃板和光滑大理石)从 2D 视频转译到成 3D 结构,其能力已经显著超越之前的方法。其具有非常高的保真度,让开发者和创意专业人士能更轻松地快速创建可用的虚拟对象,而所需的材料不过是用手机拍摄的一段视频。


该研究的作者之一同时也是一位高级研究主管的 Ming-Yu Liu 表示:「Neuralangelo 具备的 3D 重建能力将能极大地造福创作者,帮助他们在数字世界中创建出现实世界。这一工具最终能让开发者将细节丰富的对象 —— 不管是小型雕像还是大型建筑 —— 导入到虚拟环境中,进而用于视频游戏或产业数字孪生人。」


英伟达给出了一段演示视频,可以看到该模型既能重建出米开朗基罗那著名的大卫雕像,也能重建出日常可见的平板卡车。Neuralangelo 还能重建出建筑的内部和外部 —— 视频中给出了英伟达的湾区公园的详细 3D 模型。



下面我们来看看 Neuralangelo 的具体方法和论文中的一些实验结果。

 

方法


Neuralangelo 采用了实时 NGP 作为底层 3D 场景的一种神经 SDF 表征,并通过神经表面渲染根据多视角图像观察进行优化;其中 NGP 是指 Neural Graphics Primitives(神经图形基元);SDF 是指 signed distance function(有符号的距离函数)。为了充分释放多分辨率哈希编码的潜力,英伟达研究者提出了两大发现。一,使用数值梯度来计算高阶导数对实现优化稳定来说至关重要,比如用于程函正则化(eikonal regularization)的表面法线。二,为了重建出不同细节程度的结构,需要一种渐进式的优化方案。研究者将这两种思路组合到了 Neuralangelo 中,实验也证明了这样做确实可行,能极大提升神经表面重建的重建准确度和视图合成质量。


Neuralangelo 重建场景的密集结构使用的是多视角图像。它会跟随相机视角方向采样 3D 位置,并使用一种多分辨率哈希编码来对这些位置进行编码。编码后的特征会被输入一个 SDF MLP 和一个颜色 MLP,以使用基于 SDF 的体积渲染来合成图像。


数值梯度计算


研究者表示,有关哈希编码位置的解析梯度会受到局部性的影响。因此,优化更新只会传递给局部哈希网格,缺乏非局部的平滑性。针对这种局部性问题,英伟达提出了一种简单的补救方案:使用数值梯度。图 2 给出了该方法的概况。

 

图 2:为高阶导数使用数值梯度可将反向传播更新散播到局部哈希网格单元之外,由此变成解析梯度的一种平滑化版本。


SDF 有一种特殊性质:其在单位范数的梯度方面是可微的。SDF 的梯度几乎在所有地方都满足程函方程(eikonal equation)。为了迫使经过优化的神经表征成为可行的 SDF,通过会在 SDF 预测结果上施加一个程函损失。


为了实现端到端优化,需要在 SDF 预测结果上使用一种双重反向操作。


在计算 SDF 的表面法线时,人们事实上采用的方法就是使用解析梯度。但是,在三线性插值(trilinear interpolation)下,与位置相关的哈希编码的解析梯度在空间上不是连续的。为了找到体素网格中的采样位置,需要首先根据网格分辨率对每个 3D 点进行缩放。


哈希编码的导数是局部的,即当 3D 点越过网格单元边界时,对应的哈希项将会不同。因此,前述的程函损失就只会反向传播到本地采样的哈希项。当连续表面(比如平墙)横跨多个网格单元时,这些网格单元应当产生连贯一致的表面法线,而不该有突然的过渡。为了确保表面表征中的一致性,需要对这些网格单元进行联合优化。但是,解析梯度却受限于局部网格单元,除非对应的网格单元碰巧能被同时采样和优化。但我们很难保证总是能够这样采样。


为了克服哈希编码的解析梯度的局部性问题,英伟达提出的方案是使用数值梯度来计算表面法线。如果数值梯度的步长小于哈希编码的网格大小,则数值梯度就等于解析梯度;否则,多个网格单元的哈希项就会参与到表面法线计算中。


这样一来,通过表面法线的反向传播就能让多个网格单元的哈希项同时收到优化更新。直观来说,使用精心选择的步长的数值梯度可被解读成在解析梯度表达式上的平滑化操作。还有另一种方法可以替代法线监督,即 teacher-student curriculum,其中要使用预测的有噪声法线来帮助 MLP 输出,这样就能利用到 MLP 的平滑性。但是,这样的教师 - 学生损失的解析梯度仍然只会反向传播给局部网格单元。相较而言,数值梯度无需添加网络便能够解决局部性问题。


要使用数值梯度计算表面法线,还需要额外的 SDF 样本。给定一个采样过的点,还需要在该点周围一定步长内沿正则坐标的每个轴额外采样两个点。

 

渐进式的细节水平


为了避免陷入错误的局部最小值,从粗到细的优化可以更好地塑造损失图景。这样的策略已被用于许多计算机视觉应用。Neuralangelo 也采用了一种从粗到细的优化方案来在细节上渐进式地重建表面。使用高阶导数的数值梯度能自然地让 Neuralangelo 执行从粗到细的优化,这需要考虑两个方面。


步长:前面已经提到,数值梯度可被解释成一种平滑化操作,其中步长控制着分辨率及重建的细节量。如果让程函损失用更大的步长来计算数值表面法线,能在更大规模上确保表面法线的一致性,由此能得到一致和连续的表面。反过来,如果程函损失的步长更小,就只能影响更小的区域,就能避免细节平滑。在实践中,英伟达的做法是先将步长初始化为最粗的哈希网格大小,然后在整个优化过程中指数级地降低步长以匹配不同的哈希网格大小。


哈希网格分辨率:如果从优化一开始,所有哈希网格都被激活,为了捕获几何细节,细粒度哈希网格就必须首先「忘记」粗粒度优化(更大步长)所学到的东西,并用更小的步长「重新学习」。如果优化收敛而导致这个过程失败,那么就会丢失几何细节。因此,一开始只会激活一组初始的粗粒度哈希网格,当步长缩小至其空间大小时,会在优化过程中渐进式地激活更细的哈希网格。这样一来,就能避免「重新学习」过程,从而更好地捕获细节。在实践中,英伟达研究者的做法是在所有参数上应用权重衰减,以避免最终结果被单一分辨率特征主导。

 

优化


为了进一步促进重建表面的平滑性,他们还提出添加一个先验,具体做法是正则化 SDF 的平均曲率。平均曲率是通过离散拉普拉斯算子计算的,类似于表面法线计算,否则当使用三线性插值时,哈希编码的二阶解析梯度在任意位置都为零。


Neuralangelo 的整体损失定义为所有损失(RGB 合成损失、程函损失、曲率损失)的加权和,如下所示:



包括 MLP 和哈希编码在内的所有网络参数都是以端到端方式联合训练的。


实验


图 3:在 DTU 基准上的定性比较


可以看到,Neuralangelo 得到的表面更加准确,保真度也更高。


图 4:定性比较不同的从粗到细优化方案


当使用解析梯度时(AG 和 AG+P),粗粒度的表面通常带有伪影。当使用数值梯度时(NG),可以得到更好的粗粒度形状,细节也更为平滑。英伟达的新方法(NG+P)得到的表面既平滑又有精细细节。


表 1:在 DTU 数据集上的定量实验结果


可以看到,Neuralangelo 的重建准确度最高,图像合成质量也最好。


图 5:在 Tanks 和 Temples 数据集上的定性比较


相比于其它对比方法会丢失表面细节或有较多噪声,Neuralangelo 能更好地捕获场景细节。


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
“3D重置”:重塑全球经济的三大趋势英伟达推出ACE for Games游戏定制化AI方案,实现智能NPC,对话,动画年度最绝融资:拿英伟达H100抵押贷款165亿,买更多英伟达GPU扩建10个数据中心数字文娱「起风」,华为云盘古「扬旗」ICLR 2023|场景三维重建新SOTA!基于3D Transformer的单目场景重建东北文艺复兴,复兴的到底是什么?对未知物体进行6D追踪和3D重建,英伟达方法取得新SOTA,入选CVPR 2023国家大剧院副院长宫吉成:以超高清等高科技手段打造数字文化传播平台尼德兰画派:北方文艺复兴的桂冠【国际移民研究】加拿大华人和印度人政治参与比较研究机器人ChatGPT来了:大模型进现实世界,DeepMind重量级突破大卫复活!英伟达再造「神经朗基罗」,3D重建肌肉纹理肉眼可见纯随机数学无限生成逼真3D世界火了!普林斯顿华人一作|CVPR 2023【穿越时空】聚点君带你回到中古世纪,与你相遇在文艺复兴时期,绝佳的家庭游乐圣地!景德镇文艺复兴关门:真LiveHouse凉透了,假LiveHouse却赢麻了韩国造出「世界首个室温超导体」?127度即可实现超导[照片] 这些年飘在欧洲的日子(十六)文艺复兴之源——翡冷翠凌晨一点的长沙:娱乐至死,这是文艺复兴吗?HEATBOYS“机甲神龟”米开朗基罗:配枪管可转的电动加特林火炮!5054 血壮山河之武汉会战 鏖战幕府山 23女学者大胆还原文艺复兴时期的化妆品:有的没毒,还挺好用?!CVPR 2023|Crowd3D:支持数百人3D/姿态/形状/位置重建的新基准零AI含量!纯随机数学无限生成逼真3D世界火了,普林斯顿华人一作|CVPR‘23从“有钱人不愿意坐飞机的秘密”谈风险控制CVPR 2023|Crowd3D:数百人大场景3D位置、姿态、形状重建,开源benchmark数据集《心中的歌唱》&《无念》成功在于远见?英伟达CEO称英伟达5年前把一切都押在了AI上【穿越时空】带你回到中古世纪,与你相遇在文艺复兴时期,绝佳的家庭游乐圣地!超逼真3D生成模型!华南理工贾奎团队ICCV'23新作:支持重新照明、编辑和物理仿真哥大旁有座城堡?法式文艺复兴风学生公寓,奢华格调,到学校仅150米。伏尼契手稿的秘密{【原创】 ----- 装神弄鬼服你气Meta音频AI三件套爆火:一句话生成流行音乐&音效,还能高保真压缩音频|开源独属于东北人的骄傲与落寞带来了东北“文艺复兴”?3D版「分割一切」来了!NUS华人团队最新模型,单视图重建3D,又快又准从眼影盘看我的现代文艺复兴
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。