Redian新闻
>
一张图转3D质量起飞!GitHub刚建空仓就有300+人赶来标星

一张图转3D质量起飞!GitHub刚建空仓就有300+人赶来标星

公众号新闻
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

最新“只用一张图转3D”方法火了,高保真那种。

对比之前一众方法,算得上跨越式提升。(新方法在最后一行)

挑出一个结果放大来看,几何结构细节丰富,渲染分辨率也高达1024x1024

新方法Magic123,来自KAUST、Snap和牛津联合团队,一作为KAUST博士生钱国成。

只需输入单个图像,不光生成高质量3D网格,连有视觉吸引力的纹理也一起打包生成。

甚至论文刚挂在arXiv上,代码还没来得及上传时,就已经有300+人赶来标星码住(顺便催更)。

从粗到精,两阶段方案

以往2D转3D最常见方法就是NeRF。但NeRF不光占显存高,分辨率还低。

论文中指出,即使资源效率更高的Instant-NGP方案在16G显存GPU上也只能达到128x128的分辨率。

为进一步提高3D内容的质量,团队在NeRF之后引入了第二阶段,采用DMTet算法将分辨率提高到1024x1024,并且细化NeRF得出的几何结构和纹理。

对于仅有一张的2D参考图像,首先使用现成的Dense Prediction Transformer模型进行分割,再使用预训练的MiDaS提取深度图,用于后续优化。

然后进入第一步粗阶段,采用Instant-NGP并对其进行优化,快速推理并重建复杂几何,但不需要太高分辨率,点到为止即可。

在第二步精细阶段,在用内存效率高的DMTet方法细化和解耦3D模型。DMTet是一种混合了SDF体素和Mesh网格的表示方法,生成可微分的四面体网格。

并且在两个阶段中都使用Textural inversion来保证生成与输入一致的几何形状和纹理。

团队将输入图像分为常见对象(如玩具熊)、不太常见对象(如两个叠在一起的甜甜圈)、不常见对象(如龙雕像)3种。

发现仅使用2D先验信息可以生成更复杂的3D结构,但与输入图像的一致性不高。

仅使用3D先验信息能产生精确但缺少细节的几何体。

团队建议综合使用2D和3D先验,并经过反复试验,最终找到了二者的平衡点。

2D先验信息使用了Stable Diffusion 1.5,3D先验信息使用了哥伦比亚大学/丰田研究所提出的Zero-1-to-3。

在定性比较中,结合两种先验信息的Magic123方法取得了最好的效果。

在定量比较中,评估了Magic123在NeRF4和RealFusion15数据集上的表现,与之前SOTA方法相比在所有指标上取得Top-1成绩

那么Magic123方法有没有局限性呢?

也有。

在论文最后,团队指出整个方法都建立在“假设参考图像是正视图”的基础上,输入其他角度的图像会导致生成的几何性质较差。

比如从上方拍摄桌子上的食物,就不适合用这个方法了。

另外由于使用了SDS损失,Magic123倾向于生成过度饱和的纹理。尤其是在精细阶段,更高分辨率会放大这种问题。

项目主页:
https://guochengqian.github.io/project/magic123/

论文:
https://arxiv.org/abs/2303.11328

GitHub:
https://github.com/guochengqian/Magic123

参考链接:
[1]
https://twitter.com/_akhaliq/status/1675684794653351936

「AIGC算力全景与趋势报告 · 量子位智库」下载

AIGC时代,算力成为「硬通货」。当前大模型的发展对算力产生新的需求,算力行业迎来变革机会。机遇当前,量子位智库发布《AIGC算力全景与趋势报告》,扫描下方二维码即可查看完整报告。

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
月潜,愿意聊聊吗?这个世界上就有一些心眼儿特别不好的人!仅用三张图,合成高质量的3D场景,NTU提出SparseNeRF高达5万美金的亚裔专属餐馆补助等你来拿-全美亚裔总商会与Grubhub合作「单张图像重建3D网格」告别卡顿,从30分钟提速到45秒!浙大、加州大学等联合发布One-2-3-45:在线Demo可试玩无需任何3D数据,直接文本生成高质量3D内容,清华朱军团队带来重大进展3D AI生成出新玩法了:无需数小时,只要45秒,单张图片即可生成 3D模型Let’s Make-It-3D!上交&微软最新开源2D转3D生成研究,Star超过1k星警惕维州新型路边摄像头!仅一个月就有3000名司机被拍到违章喜欢在乡下生活刚建成立刻成纽约打卡地标!莫伊尼汉火车站大厅前过街天桥开放大动作!GTA这里要新建空中缆车!连接奇幻乐园和TTC地铁!给大模型持久记忆!GitHub 2万星向量数据库云服务升级,国内云产品7月上线带着GPT去面试简直开挂:实时获取答案!GitHub数小时900+星400000000000000000倍!这是真正的天文数字→15岁华裔少女意外离世,上千人赶来送她最后一程明星批量起诉自媒体侵权,2张图索赔3.5万元,创作者应该怎么办?《那就是我》太罕见!刚建仓完,立马就限购!5077 血壮山河之武汉会战 黄广战役 9Grubhub土豪!法拉盛中餐馆老板获得5000美元补助又挖到落地签宝藏小城!玩转3国人少景美!还上榜“人生必去目的地”!几张照片即可定制自己的3D化身,还能换装!南京大学发布AvatarBooth:3D模型的制作门槛被打下来了!我掏空仓库,免费给你们娃送儿童节礼物~突发!Uber、DoorDash 、Grubhub怒发冲冠大暴走!白嫖 | Grubhub 免费2年会员【价值$240】C转3.5mm转接线19.9;稻香村月饼9枚14.9!纯椰汁1L*2盒16.915岁华裔少女意外离世,上千人赶来送她最后一程...为何?什么信号?空仓基金试探性买进股票,风向变了吗?GitHub热榜登顶:开源版GPT-4代码解释器,可安装任意Python库,本地终端运行CVPR'23|一张图重建3D人物新思路:完美复刻复杂动作和宽松衣物,遮挡也不在话下别再用「代码量」衡量产出了!GitHub发布调研报告:92%开发者都在用AI工具写代码650亿参数,训练飙升38%!LLaMA基础大模型复刻最佳实践开源,GitHub已获30k星“郭德纲一张全家福引争议?”网友辣评:一张图,一部甄嬛传餐馆老板们对UberEats、Grubhub和Doordash已经忍无可忍!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。