Redian新闻
>
4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

4K画质3D合成视频不再卡成幻灯片,新方法将渲染速度提高了30多倍

科技

机器之心报道

编辑:张倩、陈萍

本文提出了一种突破性的点云表示 4K4D,能够以 4K 分辨率对动态 3D 场景进行高保真实时渲染,达到了前所未有的渲染速度和令人印象深刻的渲染质量。

当 4K 画质、60 帧视频在某些 APP 上还只能开会员观看时,AI 研究者已经把 3D 动态合成视频做到了 4K 级别,而且画面相当流畅。



在现实生活中,我们接触的大多数视频都是 2D 的。在观看这种视频时,我们是没有办法选择观看视角的,比如走到演员中间,或者走到空间的某个角落。VR、AR 设备的出现弥补了这一缺陷,它们提供的 3D 视频允许我们变换视角、甚至随意走动,沉浸感大大提升。

但是,这种 3D 动态场景的合成一直是个难点,无论是在画质上还是流畅度上。

最近,来自浙江大学、像衍科技和蚂蚁集团的研究者对这个问题发起了挑战。在一篇题为「4K4D: Real-Time 4D View Synthesis at 4K Resolution」的论文中,他们提出了一种名为4K4D的点云表示方法,大大提升了高分辨率3D动态场景合成的渲染速度。具体来说,使用 RTX 4090 GPU,他们的方法能以 4K 分辨率进行渲染,帧率可达80 FPS;以1080p分辨率进行渲染时,帧率可达400FPS。总体来看,它的速度是以前方法的30多倍,而且渲染质量达到了SOTA。


以下是论文简介。

论文概览


  • 论文链接:https://arxiv.org/pdf/2310.11448.pdf
  • 项目链接:https://zju3dv.github.io/4k4d/

动态视图合成旨在从捕获的视频中重建动态 3D 场景,并创建沉浸式虚拟回放,这是计算机视觉和计算机图形学中长期研究的问题。这种技术实用性的关键在于它能够以高保真度实时渲染,使其能够应用于 VR/AR、体育广播和艺术表演捕捉。传统方法将动态 3D 场景表示为纹理网格序列,并使用复杂的硬件进行重建。因此,它们通常仅限于受控环境。

最近,隐式神经表示在通过可微渲染从 RGB 视频重建动态 3D 场景方面取得了巨大成功。例如《Neural 3d video synthesis from multi-view video》将目标场景建模为动态辐射场,利用体渲染合成图像,并与输入图像进行对比优化。尽管动态视图合成结果令人印象深刻,但由于网络评估昂贵,现有方法通常需要几秒钟甚至几分钟才能以 1080p 分辨率渲染一张图像。

受静态视图合成方法的启发,一些动态视图合成方法通过降低网络评估的成本或次数来提高渲染速度。通过这些策略,MLP Maps 能够以 41.7 fps 的速度渲染前景动态人物。然而,渲染速度的挑战仍然存在,因为 MLP  Maps 的实时性能只有在合成中等分辨率(384×512)的图像时才能实现。当渲染 4K 分辨率的图像时,它的速度降低到只有 1.3 FPS。

在这篇论文中,研究者提出了一种新的神经表示 ——4K4D,用于建模和渲染动态 3D 场景。如图 1 所示,4K4D 在渲染速度上明显优于以前的动态视图合成方法,同时在渲染质量上具有竞争力。


作者表示,他们的核心创新在于 4D 点云表示和混合外观模型。具体而言,对于动态场景,他们使用空间雕刻算法获得粗点云序列,并将每个点的位置建模为可学习向量。他们还引入 4D 特征网格,为每个点分配特征向量,并将其输入 MLP 网络,以预测点的半径、密度和球谐函数(SH)系数。4D 特征网格自然地在点云上应用了空间正则化,使得优化更加稳健。基于 4K4D,研究者开发了一种可微深度剥离算法,利用硬件光栅化实现前所未有的渲染速度。

研究者发现,基于 MLP 的 SH 模型难以表示动态场景的外观。为了缓解这个问题,他们还引入了一个图像混合模型来与 SH 模型结合,以表示场景的外观。一个重要的设计是,他们使图像混合网络独立于观看方向,因此可以在训练后预先计算,以提高渲染速度。作为一把双刃剑,该策略使图像混合模型沿观看方向离散。使用连续 SH 模型可以弥补这个问题。与仅使用 SH 模型的 3D Gaussian Splatting 相比,研究者提出的混合外观模型充分利用了输入图像捕获的信息,从而有效地提高了渲染质量。

为了验证新方法的有效性,研究者在多个广泛使用的多视图动态新视图合成数据集上评估了 4K4D,包括 NHR、ENeRF-Outdoo、DNA-Rendering 和 Neural3DV。广泛的实验表明,4K4D 不仅渲染速度快了几个数量级,而且在渲染质量方面也明显优于 SOTA 技术。使用 RTX 4090 GPU,新方法在 DNA-Rendering 数据集上达到 400 FPS,分辨率为 1080p;在 ENeRF-Outdoor 数据集上达到 80 FPS,分辨率为 4k。

方法介绍

给定捕获动态 3D 场景的多视图视频,本文旨在重建目标场景并实时地进行视图合成。模型架构图如图 2 所示:


接着文中介绍了用点云建模动态场景的相关知识,他们从 4D 嵌入、几何模型以及外观模型等角度展开。

4D 嵌入:给定目标场景的粗点云,本文使用神经网络和特征网格表示其动态几何和外观。具体来说,本文首先定义了六个特征平面 θ_xy、θ_xz、θ_yz、θ_tx、θ_ty 和 θ_tz,并采用 K-Planes 策略,利用这六个平面来建模一个 4D 特征场 Θ(x, t):


几何模型:基于粗点云,动态场景几何结构通过学习每个点上的三个属性(entries)来表示,即位置 p ∈ R^3 、半径 r ∈ R 和密度 σ ∈ R。然后借助这些点,计算空间点 x 的体积密度。点位置 p 被建模为一个可优化的向量。通过将 Eq.(1) 中的特征向量 f 馈送到 MLP 网络中来预测半径 r 和密度 σ。

外观模型:如图 2c 所示,本文使用图像混合技术和球谐函数(SH)模型来构建混合外观模型,其中图像混合技术表示离散视图外观 c_ibr,SH 模型表示连续的依赖于视图的外观 c_sh。对于第 t 帧处的点 x,其在视图方向 d 上的颜色为:


可微深度剥离

本文提出的动态场景表示借助深度剥离算法可以渲染成图像。

研究者开发了一个自定义着色器来实现由 K 个渲染通道组成的深度剥离算法。即对于一个特定的像素 u,研究者进行了多步处理,最后,经过 K 次渲染后,像素 u 得到一组排序点 {x_k|k = 1, ..., K}。

基于这些点 {x_k|k = 1, ..., K},得到体渲染中像素 u 的颜色表示为:


在训练过程中,给定渲染的像素颜色 C (u),本文将其与真实像素颜色 C_gt (u) 进行比较,并使用以下损失函数以端到端的方式优化模型:


除此以外,本文还应用了感知损失:


以及掩码损失:


最终的损失函数定义为:


实验及结果

本文在 DNA-Rendering、ENeRF-Outdoor、 NHR 以及 Neural3DV 数据集上评估了 4K4D 方法。

在 DNA-Rendering 数据集上的结果如表 1 所示,结果显示,4K4D 渲染速度比具有 SOTA 性能的 ENeRF 快 30 多倍,并且渲染质量还更好。


在 DNA-Rendering 数据集上的定性结果如图 5 所示,KPlanes 无法对 4D 动态场景下的详细外观和几何形状进行恢复,而其他基于图像的方法产生了高质量的外观。然而,这些方法往往会在遮挡和边缘周围产生模糊的结果,导致视觉质量下降,相反,4K4D 可以在超过 200 FPS 的情况下产生更高保真度的渲染。


接下来,实验展示了不同方法在 ENeRFOutdoor 数据集上的定性和定量结果。如表 2 所示,4K4D 在以超过 140 FPS 的速度进行渲染时仍然取得了明显更好的结果。


而其他方法,如 ENeRF 产生了模糊的结果;IBRNet 的渲染结果包含图像边缘周围的黑色伪影,如图 3 所示;K-Planse 无法重建动态人体以及不同的背景区域。


表 6 展示了可微深度剥离算法的有效性,4K4D 比基于 CUDA 的方法快 7 倍以上。


本文还在表 7 中报告了 4K4D 在不同分辨率的不同硬件(RTX 3060、3090 和 4090)上的渲染速度。


更多细节请参见原论文。




© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
“九章三号”来了!速度提升一百万倍,再创世界纪录红色日记 5.21-314K画质3D合成视频,渲染速度提升30多倍,论文作者带你解读新研究iPhone专家透露了两个简单的设置调整,可以让你的手机充电速度提高四倍放开那孩子!美24岁女社工性侵13岁少年,还拍片做成视频合集。PyTorch官方认可!斯坦福博士新作:长上下文LLM推理速度提8倍​NeurIPS 2023 | RayDF:实时渲染!基于射线的三维重建新方法如果人生是幻灯片,最精彩的永远是下一页澳洲学签执行4大新规!学生签证申请难度提高?银行存款金额提高17%?Stable Video Diffusion问世!3D合成功能引关注,网友:进步太快【租房】1.1入住|翻新|优质3b2b 4200下一代 Docker 来了!构建速度提高了 39 倍CVPR 2023 | MovieChat: 集成视觉模型和LLM的长视频理解新型框架一张邮票200万!24美分的“颠倒飞机”天价售出 身价翻涨8300多倍GPT-4+物理引擎加持扩散模型,生成视频逼真、连贯、合理茅台酒心巧克力两颗 35 元;B 站:UP 主上传 AI 生成视频需标注;华为新品发布会定档 9 月 25 日 | 极客早知道中科大&微软提出DragNUWA:拖拽下图像就能生成视频!AI造成幻觉?剑桥辞典2023年度字选出:意指「幻觉」相聚多伦多(十三)无可奈何花落去高清视频竟不是真的,几张照片渲染的3D场景让你难辨真伪笑谈邂逅(35)顶撞书记被免职Beast EVA明日香&绫波丽胸像:ASK画风超耐看!夫妻联手一年内性侵狗狗5次,还拍成视频,最终被捕了!拖拽下图像就能生成视频,中科大、微软等DragNUWA属实惊艳单个A100生成3D图像只需30秒,这是Adobe让文本、图像都动起来的新方法Gen-2颠覆AI生成视频!一句话秒出4K高清大片,网友:彻底改变游戏规则合成生命的里程碑!科学家首次改造了真核生物超过50%的基因组;数学家发现提高体外受精成功率的方法 | 环球科学要闻一句话秒出4K高清大片,视频生成Gen-2重磅更新又炸了一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制4k窗口长度就能读长文,陈丹琦高徒联手Meta推出大模型记忆力增强新方法文学城我喜欢的有才德的妇人咀外文嚼汉字(272)宰鸡烹羊刀狼英特尔将OpenJDK的数据排序速度提高7-15倍速度提升30%,Astro 3.0正式发布英特尔 Arrow Lake-S CPU 幻灯片曝光:单核提升 5%,多核提升 15%
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。