Redian新闻
>
英伟达馋哭建模师!投喂随意视频,直出3D模型,华人一作登CVPR 2023

英伟达馋哭建模师!投喂随意视频,直出3D模型,华人一作登CVPR 2023

公众号新闻
鱼羊 萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

英伟达一出手,3D建模师都馋哭了。

现在,制作一个纹理超细致的大卫3D模型,需要几步?

刚刚靠着AI,市值一度飚破万亿美元的英伟达给出最新答案:

给AI投喂一段普通视频,它就能自动搞定。

不仅雕塑的每一个褶皱都能拿捏住,更为复杂的建筑场景3D重建,同样靠一个视频就能解决:

连深度都能直接估算出来。

这个新AI名叫Neuralangelo,来自英伟达研究院和约翰霍普金斯大学。

论文刚一发表就吸引了全场网友的目光,让人直呼:这是直接创造新世界的节奏。

甚至再一次拉动了显卡销量【狗头】:

目前,相关论文已经入选CVPR 2023。更多技术细节,我们一起接着往下看~

无需深度数据,直出3D结构

这篇论文采用的架构名叫Neuralangelo,一个听起来有点像著名雕塑家米开朗基罗(Michelangelo)的名字。

具体来说,Neuralangelo核心采用了两个技术。

一个是基于SDF的神经渲染重建。

其中,SDF即符号距离函数(Signed Distance Function),它的本质就是将3D模型划出一个表面,然后用数值表示每个点距离模型的实际距离,负数指点在表面内侧,正数指点在表面外侧:

图源chriscummingshrg

基于SDF的神经渲染技术,则是采用神经网络(如MLP)对SDF进行编码,来对物体表面进行一个近似还原。

另一个则是多分辨率哈希编码,用于降低计算量。

多分辨率哈希编码是一种特殊的编码方式,能用很小的网络降低计算量,同时确保生成的质量不降低。

其中,多分辨率哈希表的value,对应由随机梯度下降优化得到特征向量。

操作流程上,则分为两步。

首先,基于神经渲染重建方法,计算出视频中3D结构的“粗糙表面”。

值得注意的是,这里采用了数值梯度而不是解析梯度,这样基于SDF生成算法做出来的3D模型表面更加平滑,不会出现凹凸不平的状态:

论文还额外对比了一下解析梯度和数值梯度的状态,从图中来看,数值梯度整体上能取得更平滑的建筑效果:

随后,就是逐渐减小数值梯度的步长(step size)、采用分辨率更高的哈希表,一步一步提升模型的精细度,还原建筑的细节:

最后再对生成的效果进行优化,就得到了还原出来的图像。

包含MLP和哈希编码在内,整个网络采用端到端的方式进行训练。

测试效果如何?

研究人员采用了DTU和Tanks and Temples两个数据集对Neuralangelo进行测试。

DTU数据集包含128个场景,这篇论文具体采用了其中的15个场景,每个场景包含49~64张由机器人拍摄的RGB图像。

随后,还采用了Tanks and Temples中6个场景的263~1107张RGB相机拍摄图像,真实数据则由LiDAR传感器获得。

Tanks and Temples包含中级和高级两类数据集。

其中,中级数据集包含雕塑、大型车辆和住宅规模的建筑;高级数据集则包含从内部成像的大型室内场景、以及具有复杂几何布局和相机轨迹的大型室外场景:

具体到生成细节上,Neuralangelo相比NeuS和NeuralWarp等“前SOTA”模型,在DTU数据集上展现出了非常准确的3D细节生成:

而在Tanks and Temples数据集上,Neuralangelo也同样展现出了不错的还原效果:

在F1-Score评估和图像质量PSNR评估中,Neuralangelo基本上全部取得了最好的效果:

华人一作

这篇研究的作者来自英伟达和约翰霍普金斯大学(Johns Hopkins University)

论文一作李赵硕(Zhaoshuo Li),本科毕业于不列颠哥伦比亚大学,目前是约翰霍普金斯大学的博士生,师从Mathias Unberath和Russell Taylor。

Russell Taylor是医疗机器人领域泰斗,曾主持研发全球首台骨科手术机器人ROBDOC。

而李赵硕本人,本科专业也是机器人工程,如今算是小小跨界,研究重点在图像重建3D结构上。

Neuralangelo是李赵硕在英伟达实习期间的工作。此前,他还曾在Meta的Reality Labs实习(就是小扎All in 元宇宙的核心部门)

论文地址:
https://research.nvidia.com/publication/2023-06_neuralangelo-high-fidelity-neural-surface-reconstruction

参考链接:
[1]https://twitter.com/bilawalsidhu/status/1664268049589911552

[2]https://shaderfun.com/2018/03/25/signed-distance-fields-part-2-solid-geometry/

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「电商零售」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
纯随机数学无限生成逼真3D世界火了!普林斯顿华人一作|CVPR 2023​一文速览CVPR 2023掩码图像建模领域最新研究进展国际要闻简报,轻松了解天下事(04CVPR 2023 | 可扩展的视频基础模型预训练范式:训练出首个十亿参数量视频自监督大模型OpenAI文本生成3D模型再升级,数秒完成建模,比Point·E更好用CVPR 2023|无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA上海AI实验室联合团队获CVPR最佳论文奖 | CVPR 2023CVPR 2023 | 掩码图像建模MIM的理解、局限与扩展CVPR 2023 | 多车协作让纯视觉3D目标探测媲美激光雷达CVPR 2023最佳论文候选!真实高精3D物体数据集OmniObject3DAIGC实测:图生3D模型,付费的Kaedim与免费的PIFuHD如何用?OpenAI再发3D生成模型Shap-E,传Midjourney入局3D模型生成中国团队自动驾驶大模型斩获CVPR最佳论文;Stability AI推出新文生图模型;京东大模型即将发布丨AIGC大事日报3D AI生成出新玩法了:无需数小时,只要45秒,单张图片即可生成 3D模型CVPR 2023论文总结!CV最热领域颁给多模态、扩散模型CVPR 2023|Crowd3D:支持数百人3D/姿态/形状/位置重建的新基准《是你》炸裂!最新CVPR2023、ICML2023、AAAI2023、ACL2023论文+Code大合集!中国不是发达国家 只是装B失败的贫困户几张照片即可定制自己的3D化身,还能换装!南京大学发布AvatarBooth:3D模型的制作门槛被打下来了!国际要闻简报,轻松了解天下事(042022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一CVPR 2023 | LeCun世界模型首个研究!自监督视觉像人一样学习和推理!华人的思维,某些科学家发明家的思维房产投资的KISS原则 2023零AI含量!纯随机数学无限生成逼真3D世界火了,普林斯顿华人一作|CVPR‘23英伟达推出新AI模型Neuralangelo 可将视频转换为高精3D模型CVPR2023|天大联合卡迪夫大学发布SemanticHuman:部件级、精细语义、灵活可控的3D人体编辑表征CVPR 2023 | LED阵列+LCD面板=3072个投影仪:浙大-相芯联合团队实现复杂物体高质量数字化建模国际要闻简报,轻松了解天下事(04CVPR 2023|Crowd3D:数百人大场景3D位置、姿态、形状重建,开源benchmark数据集5040 血壮山河之武汉会战 鏖战幕府山 9CVPR 2023 | 南大王利民团队提出LinK:用线性核实现3D激光雷达感知任务中的large kernelCVPR 2023 | IDEA与清华提出首个一阶段3D全身人体网格重建算法CVPR 2023 | 香港理工提出GrowSP:3D场景的无监督语义分割对未知物体进行6D追踪和3D重建,英伟达方法取得新SOTA,入选CVPR 2023UCSD、MIT等华人团队教机器狗感知3D世界!搭M1芯片,爬楼跨障无所不能|CVPR 2023馋了,亲手在家里包羊肉胡萝卜馅儿饺子今年 CV 热点这么多,不可错过 CVPR 2023 线下论文分享会NVIDIA拿下CVPR 2023 3D Occupancy预测第一名!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。