Redian新闻
>
顶刊TPAMI 2024!PERF:一张2D全景图可合成高质量的360度3D场景

顶刊TPAMI 2024!PERF:一张2D全景图可合成高质量的360度3D场景

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/扩散/多模态】交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

作者:MMLab@NTU、大湾区大学、香港大学

【研究背景】

随着深度学习与3D技术的发展,神经辐射场(NeRF)在3D场景重建或逼真新视图合成方面取得了巨大的进展。给定一组2D视图作为输入,神经辐射场通过优化隐式函数来表示3D场景。

然而,在很多情况下,我们只有单张2D视图。一些工作尝试从具有 3D 先验的单张图像训练神经辐射场。他们主要关注有限的视野,因此仅需考虑少量的遮挡,这极大地限制了它们在具有大尺寸遮挡的真实 360 度全景场景中的可扩展性。

在很多真实的应用场景下,我们通常需要360度全视角的3D场景。因此,有必要研究利用360度视角相机(例如Insta360或者Ricoh THETA SC2)拍摄的一张2D全景图来恢复360度全视角的3D场景任务,如图1所示。

图1: 单张全景图恢复360度3D场景

【研究挑战和存在的方法】

利用单张2D全景图进行360度3D全景恢复是一个挑战的问题。具体地,

  • 全景图是全景相机在某个位置捕获得到的 360 度2D视图,不包含 3D 信息。在没有任何 3D 先验的条件下,无法从单张2D全景图中训练出有效的神经辐射场 NeRF 。

  • 由于单张全景图像只能捕捉到相机位置目光所及的可见区域,存在部分无法观测的区域。因此,训练单视图全景神经辐射场非常具有挑战性,它耦合了3D场景重建和3D场景生成两个学习任务。一方面,给定的一张全景图,我们需要重构其可见区域;而另一方面,我们必须在不可见区域生成合理的内容,在语义上匹配 3D 空间的可见区域,这是很困难的。

  • 与有限视角的单张图恢复3D场景 [1-3] 或以物体为中心的360 度物体重建 [4]不同,全景场景通常包含大尺寸遮挡且侧重于开放场景。

  • “可见区域的重建”和“不可见区域的生成”通常会出现几何冲突。在不可见区域的场景生成过程中,新合成的 3D 几何体不应遮挡原始视角能观测到的可见区域。否则,将导致训练期间出现几何冲突。   

为此,我们提出了一种新的方法解决单张2D全景图恢复360度3D全景问题,利用扩散模型的先验知识和单目深度估计器进行合作修补大尺度遮挡区域,并提出了一种新的冲突避免策略,实现了当前最佳的单张全景图恢复360度3D场景的效果。注意到,在同期的工作[5]中,为了解决3D空间中物体的检测与去除,F. Wei等提出了通过投票和裁剪的方法来保证各视角几何/纹理填补时的不一致性,但存在一些技术上的不同。也推荐读者去阅读此篇论文。本文工作发表在TPAMI 2024上。

项目主页:https://perf-project.github.io/

代码:https://github.com/perf-project/PeRF

论文:https://arxiv.org/pdf/2310.16831.pdf

附:Guangcong Wang和Peng Wang为共同一作,Ziwei Liu为通讯作者。此工作在MMLab@NTU完成。收录顶刊 TPAMI 2024!

【研究动机】

神经辐射场(NeRF)在基于多视图的新视图合成方面取得了实质性进展。近期一些工作尝试从具有3D先验的单个图像训练神经辐射场。它们主要关注具有少量遮挡的有限视野,这极大地限制了它们对具有大尺寸遮挡的真实360度场景的可扩展性。为了解决这个问题,本文提出了一种新的方法解决单张2D全景图恢复360度3D全景问题。

图2: 本文所提出的PERF框架图

【方法框架】

上图展示了我们方法PERF的框架图。PERF主要由三个部分组成,包括1)包含深度图的单视图NeRF训练;2)协作RGBD修复不可见区域;3) 渐进式修复和擦除。具体来说,给定一张2D全景图,我们使用单目深度估计器来预测其深度图,并将输入视图(RGB+depth)作为初始化来训练 NeRF。然后利用一个协作 RGBD 修复模块进行不可见区域填补,该模块包含一个深度估计器和一个稳定扩散模型(StableDiffusion), 从而将 NeRF 扩展到随机视角渲染。为了避免几何冲突,本文使用了渐进式修复和擦除模块来判别冲突区域并在训练中忽略这些区域。我们使用给定的单视图全景图和随机视点生成的新全景图进行NeRF模型的微调直到收敛。

【本文的主要贡献】

本文的主要贡献有三点:
1)PERF,一种从单张全景图训练360度3D全景神经辐射场的新方法。为此,我们提出了一种新的协作RGBD修补方法,利用预训练的稳定扩散(StableDiffusion)模型进行RGB修补,以及使用一个经过训练的单目深度估计器进行几何修补。值得注意的是,协作RGBD修补不需要额外的训练。
2)我们提出了一种渐进式修补和擦除方法,以避免不同视角之间的几何冲突。我们通过逐渐增加一个随机视角来修补不可见区域,并通过比较新添加的视角和参考视角的几何,擦除之间的冲突区域。
3)在 Replica 和 PERF-in-the-wild 数据集上的大量实验表明,PERF 在单视图全景神经辐射场中达到了新的最先进水平。所提出的 PERF 可应用于全景图-3D、文本-3D 和 3D 场景风格化应用场景,这几个应用展示了非常好的结果。   

【应用1:单张全景图恢复360度3D场景】

利用单张全景图训练,得到的新视角渲染视频。

图3: 单张全景图恢复360度3D场景

【应用2:文本生成360度3D场景应用】

首先利用Text2Light[6] 或者skybox[7],由文本生成全景图,然后利用本文方法将全景图生成360度3D场景。如下示例中利用了skybox。

图4: 文本生成360度3D场景1

图5: 文本生成360度3D场景2          

图6: 文本生成360度3D场景3

【应用3: 3D场景风格化】

先利用InstructPix2Pix[8]将全景图风格化,然后利用本文方法将全景图生成360度3D场景。

图7: 3D场景风格化

【大湾区大学王广聪课题组招聘】

欢迎对计算机视觉、深度学习和图形学等领域感兴趣的同学(2024,2025级)加入王广聪课题组!我们诚挚邀请博士后、博士研究生、硕士研究生、研究助理、访问学生和实习生加入我们的课题组,共同探索前沿科技(详情请点击:https://wanggcong.github.io/recruit2024.html)。

【参考文献】

[1] D. Xu, Y. Jiang, P. Wang, Z. Fan, H. Shi, and Z. Wang, “Sinnerf: Training neural radiance fields on complex scenes from a single image,” in Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part XXII. Springer, 2022, pp. 736–753
[2] Z. Yu, S. Peng, M. Niemeyer, T. Sattler, and A. Geiger, “Monosdf: Exploring monocular geometric cues for neural implicit surface reconstruction,” Advances in Neural Information Processing Systems (NeurIPS), 2022
[3] A. Yu, V. Ye, M. Tancik, and A. Kanazawa, “pixelnerf: Neural radiance fields from one or few images,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 4578–4587
[4] D. Xu, Y. Jiang, P. Wang, Z. Fan, Y. Wang, and Z. Wang, “Neurallift360: Lifting an in-the-wild 2d photo to a 3d object with 360deg views,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023, pp. 4479–4489.
[5] F. Wei, T. Funkhouser, and S. Rusinkiewicz, “Clutter detection and removal in 3d scenes with view-consistent inpainting,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2023, pp. 18 131–18 14
[6] Z. Chen, G. Wang, and Z. Liu. "Text2light: Zero-shot text-driven HDR panorama generation." ACM Transactions on Graphics (TOG) 41, no. 6 (2022): 1-16.
[7] https://skybox.blockadelabs.com/
[8] Brooks, T., Holynski, A. and Efros, A.A., 2023. Instructpix2pix: Learning to follow image editing instructions. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 18392-18402).

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba、多模态和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
※※※2024【花样女神节】活动合辑※※※顶刊TPAMI 2024 | PERF:一张2D全景图可合成高质量的360度3D场景2024神经介入行业全景图(附下载)顶刊TPAMI 2024!计算机学会像人脑一样“听话”了!清华苑克鑫/胡晓林团队实现混合语音分离技术突破!CVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRF5秒完成3D生成,真香合成数据集已开源,上交港中文新框架超越Instant3D中国AIGC最值得关注企业&产品榜单揭晓!首份应用全景图谱发布可控核聚变新里程碑,AI首次实现双托卡马克3D场全自动优化,登Nature子刊Kimi连续宕机打醒巨头!阿里百度360连夜出手长文本,大模型商业化厮杀开始了顶刊IJCV 2024!通过提问学习基于知识的新物体识别愚人节(4/1/2024)高质量3D生成最有希望的一集?GaussianCube在三维生成中全面超越NeRF和自己较劲的兔崽子顶刊IJCV 2024!基于概率表征的半监督对比学习框架CVPR 2024|让图像扩散模型生成高质量360度场景,只需要一个语言模型【倒计时2周】4大院士领衔,60+嘉宾阵容!合成领域的学术盛宴,就在 2024(第二届)合成生物学与生物医学健康大会!ICLR 2024 Spotlight | 无惧中间步骤,MUSTARD可生成高质量数学推理数据3D重建范式变革!最新模型MVDiffusion++:刷新视图合成和3D重建SOTA!超越扩散模型!自回归新范式仅需2.9秒就生成高质量图像,中科大哈工大度小满出品23、长篇家庭伦理小说《嫁接 下》第七章 咫尺天涯(3)顶刊TPAMI 2024!多模态图像修复与融合新突破!DeepM2CDL:多种任务实现SOTA性能华为产业链全景图(附名单)星期六,芝加哥,绿色的河 !再回首 (十八)2024,哪个包会是LV的断货王?顶刊TPAMI 2024!北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法医学顶刊TMI 2024!首个研究医疗AI算法公平性的眼科图像分类数据集顶刊TPAMI 2024!黄高团队提出EfficientTrain++:高效视觉骨干训练方法顶刊TPAMI 2024!白翔团队:将CLIP模型转换为端到端文本识别器从电影看文学城现状,及一剑飘尘的众筹1分钟生成高质量3D素材!Meta甩出文生3D模型,效果演示惊艳春季观鹤:2024 科州低空经济产业链标的全景图2024低空经济产业链标的全景图(附下载)2024预制食品行业全景图(附下载)NUS、清华提出STAR:一句话生成高质量4D Avatar,代码已开源有不烦车子的自动停启功能的吗?2024 BMW X5复旦陈果:低质量的独处,不如高质量的社交Meta发布3D Gen AI模型,可在1分钟内生成高质量3D内容;马斯克称特斯拉将消灭所有空头:比尔盖茨也不例外....MarFishEcoWEF:2024全球水产海品损失和浪费调查白皮书英文版32页
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。