Redian新闻
>
文生3D模型大突破!MVDream重磅来袭,一句话生成超逼真三维模型

文生3D模型大突破!MVDream重磅来袭,一句话生成超逼真三维模型

公众号新闻



  新智元报道  

编辑:拉燕
【新智元导读】文生3D模型进步!分数蒸馏采样下的MVDream,真的有这么神奇吗?真的有。

不得了了!
现在只用打几个字就能创造精美、高质量的3D模型出来了?
这不,国外一篇博客引爆网络,把一个叫MVDream的东西摆到了我们面前。
用户只需要寥寥数语,就可以创造出一个栩栩如生的3D模型。
而且和之前不同的是,MVDream看起来是真的「懂」物理。
下面就来看看这个MVDream有多神奇吧~

MVDream

小哥表示,大模型时代,我们已经看到了太多太多文本生成模型、图片生成模型。而且这些模型的性能也越来越强大。
后来,我们甚至还目睹了文生视频模型的诞生,当然也包括今天要提到的3D模型。
试想一下,你只需要输入一句话,就可以生成一个宛如存在于真实世界的物体模型,甚至还包含着所有必要细节,这个场景该有多酷。
而且这绝对不是一件简单的事,尤其是用户需要生成的模型所呈现的细节要足够逼真。
先来看看效果~

同一个prompt,最右侧就是MVDream的成品。
肉眼可见5个模型的差距。前几个模型完全违背了客观事实,只有从某几个角度看才是对的。
比如前四张图片,生成的模型居然有不止两只耳朵。而第四张图片虽然看起来细节更丰满一点,但是转到某个角度我们能发现,人物的脸是凹进去的,上面还插着一只耳朵。
谁懂啊,小编一下就想起了之前很火的小猪佩奇正视图。
就是那种,某些角度是展示给你看的,别的角度千万别看,会死人。
可最右边MVDream的生成模型显然不一样。无论3D模型怎样转动,你都不会觉得有任何反常规的地方。
这也就是开头所提到的,MVDream真懂物理常识,而不会为了保证在每个视图下都有两只耳朵而搞出一些奇奇怪怪的东西。
小哥指出,一个3D模型是否成功,最主要的就是观察这个模型的不同视角是不是都足够逼真,质量都足够高。
而且还要保证模型在空间上的连贯性,而不是像上面多个耳朵的模型那样。
生成3D模型的主要方法之一,就是对摄像机的视角进行模拟,然后生成某一视角下所能看到的东西。
换个词,这就是所谓的2D提升(2D lifting)。就是将不同的视角拼接在一起,形成最终的3D模型。
出现上面多耳的情况,就是因为生成模型对整个物体在三维空间的样态信息掌握的不充分。而MVDream恰恰就是在这方面往前迈了一大步。
新模型解决了之前一直出现的3D视角下的一致性问题。

分数蒸馏采样


而用到的方法叫做分数蒸馏采样(score distillation sampling),由DreamFusion开发。
在了解分数蒸馏采样技术之前,我们需要先了解一下该方法所使用的架构。
简而言之,这其实只是另一种二维图像的扩散模型,同类的还有DALLE、MidJourney和Stable Diffusion模型。
更具体地说,一切的一切都是从预训练好的DreamBooth模型开始的,DreamBooth是一个基于Stable Diffusion生图的开源模型。
然后,改变来了。
研究团队后续所做的是,直接渲染一组多视角图像,而不是只渲染一张图像,这一步需要有各种物体的三维数据集才可以完成。
在这里,研究人员从数据集中获取了三维物体的多个视图,利用它们来训练模型,再使其向后生成这些视图。
具体做法是将下图中的蓝色自注意块改为三维自注意块,也就是说,研究人员只需要增加一个维度来重建多个图像,而不是一个图像。
在下图中,我们可以看到摄像机和时间步(timestep)也都被输入到了每个视图的模型中,以帮助模型了解哪个图像将用在哪里,以及需要生成的是哪种视图。
现在,所有图像都连接在一起,生成也同样在一起完成。因此它们就可以共享信息,更好地理解全局的情况。
然后,再将文本输入模型,训练模型从数据集中准确地重建物体。
而这里也就是研究团队应用多视图分数蒸馏采样过程的地方。
现在,有了一个多视图的扩散模型,团队可以生成一个物体的多个视图了。
下一步,就是用这些视图来重建一个和真实世界一致的三维模型,而不仅仅是视图。
这里需要使用NeRF(neural radiance fields,神经辐射场)来实现,就像前面提到的DreamFusion一样。
基本上这一步就是把前面训练好的多视角扩散模型给冻住,也就是说,在这一步中,上面各个视角的图片只是被「使用」,而不会被再「训练」。
在初始渲染的引导下,研究人员开始使用多视角扩散模型生成一些添加了噪声(noise)的初始图像版本。
研究人员添加噪声是为了让模型知道,它需要生成不同版本的图像,但同时仍能接收到背景信息。
然后,再使用该模型进一步生成更高质量的图像。
添加用于生成该图像的图像,并移除我们手动添加的噪声,以便在下一步中使用该结果来指导和改进NeRF模型。
这些步骤都是为了更好地理解NeRF模型应该集中在图像的哪个部分,以便在下一步中生成更好的结果。
如此反复,直到生成出令人满意的3D模型。
而对于多视角扩散模型的图像生成质量的评估,以及不同的设计会如何影响其性能的判断,该团队是这么操作的。
首先,他们比较了用于建立跨视角一致性模型的注意力模块的选择。
这些选项包括:
(1)视频扩散模型中广泛使用的一维时间自注意;
(2)在现有模型中添加新的三维自注意模块;
(3)重新使用现有的二维自注意模块进行三维注意。
在本实验中,为了清楚地显示这些模块之间的差异,研究人员使用了8帧的90度视角变化来训练模型,这更加接近视频的设置。
同时在实验中,研究团队还保持了较高的图像分辨率,即512×512作为原始的标清模型。结果如下图所示,研究人员发现,即使在静态场景中进行了如此有限的视角变化,时间自注意力仍然会受到内容偏移的影响,无法保持视角的一致性。
团队假设,这是因为时间注意力只能在不同帧的相同像素之间交换信息,而在视点变化时,相应像素之间可能相距甚远。
另一方面,在不学习一致性的情况下,添加新的三维注意会导致严重的质量下降。
研究人员认为,这是因为从头开始学习新参数会耗费更多的训练数据和时间,不适合这种三维模型有限的情况。研究人员提出的重新使用二维自注意的策略在不降低生成质量的情况下实现了最佳的一致性。
团队还注意到,如果将图像大小减小到256,视图数减小到4,这些模块之间的差异会小得多。然而,为了达到最佳一致性,研究人员在以下实验中根据初步观察做出了选择。
此外,对于多视角的分数蒸馏采样,研究人员在threestudio(thr)库中实现了多视角扩散的引导,该库在统一框架下实现了最先进的文本到三维模型的生成方法。
研究人员使用threestudio中的隐式容积(implicit-volume)实现作为三维表示,其中包括多分辨率的哈希网格( hash-grid)。
对于摄像机视图,研究人员采用了与渲染三维数据集时完全相同的方式对摄像机进行俩人采样。
此外,研究人员还使用AdamW优化器对3D模型进行了10000步优化,学习率为0.01。
对于分数蒸馏采样,在最初的8000 步中,最大和最小时间步长分别从0.98步降到了0.5步和0.02步。
渲染分辨率从64×64开始,经过5000步后逐步增加到了256×256。
更多案例如下:
以上就是研究团队如何利用二维文本到图像模型,将其用于多视角合成,最后利用它迭代,并创建出文本到3D模型的过程。
当然,目前这种新方法还存在一定的局限性,最主要的缺陷在于,现在生成的图像只有256x256像素,分辨率可以说很低了。
此外,研究人员还指出,执行这项任务的数据集的大小在某种程度上一定会限制这种方法的通用性,因为数据集的太小的话,就没办法更逼真的反应我们这个复杂的世界。
参考资料:
https://www.louisbouchard.ai/mvdream/
https://arxiv.org/pdf/2308.16512.pdf





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
2024山西文物日历重磅来袭,震撼林徽因和梁思成,一眼千年好莱坞大导预测成真,Meta 让 AI “一句话生成一部电影” 不再是梦首只千亿ETF诞生,2万亿市场火了!"长牛杯"ETF实盘大赛重磅来袭,百万奖池等你来抖音封禁“快速过款”玩法;交个朋友入淘周年庆单日GMV破2亿;腾讯混元大模型开放“文生图”功能 | 一周简讯3D视频人物肖像生成新突破!港科大、清华等发布AniPortraitGAN,面部表情、肩部运动全可控DreamLLM:多功能多模态大型语言模型,你的DreamLLM~金鸡国产新片展|重磅来袭,热门佳片值得期待!原创丨特大喜讯:华为芯片突破后,中国光刻机迎来重大突破!欧盟此时竟下场了!他刚在我们去的冰川失踪去世了LLM一句话瞬间生成3D世界,未公布代码已获141星!或将引发3D建模行业革命媲美Gen-2,Meta多模态创AI生图新里程碑!破文生视频历史难题,静图秒变视频逼真到炸裂吹尽黄沙不见金(七十四):暗示胡渊鸣全新创业项目Meshy曝光:一句话生成3D游戏资产,仅需一分钟【重磅】华为官宣,5.5G重大突破!比5G强10倍!双重国籍的退休生活中国科技的重大突破!青铜动物雕塑,超逼真~Nature:重大突破!抑制脂肪酸氧化可实现成年哺乳动物心脏再生全球首颗!中国芯片突传重大突破!30000亿赛道彻底沸腾,什么情况?一颗"巨雷"突袭,将暴跌80%?「智云双十一」首波福利重磅来袭,热门产品低至4折起!CityDreamer:一键生成无边界的3D城市SolidUI:一句话生成任何图形,版本0.2.0功能介绍黑皮书封面人物|塞缪尔·罗斯:突破,突破,突破!英伟达DLSS 3.5发布!全新AI「光线重建」实现超逼真光影,新老显卡都支持《天凉好个秋》&《江南烟雨路》一句话让马斯克“上天”变成3D动画!生成式AI技术进入爆发期!单张A100,50亿步训练!英伟达开源最强虚拟角色定制模型,超逼真动作零样本生成,游戏动画行业要变天5133 血壮山河之武汉会战 信罗战役 6Meta重磅更新,小扎在元宇宙里养了会做家务的狗!人形化身超逼真,AI智能体在真实物理世界和人互动Nature重大突破!IF=109,生命科学领域这一进展终成学术圈"焦点"!吴翰清《计算》重磅来袭,为了可计算的价值,写给所有人!超逼真人像视频,百分百AI生成!创业团队出身Snapchat,7个月已收入百万美元一句话搞定3D模型纹理贴图,全程只需30秒,港大港中大TCL出品 | ICCV'23 Oral手机端生成3D模型,iOS 17上3D捕捉与建模app未发先火NeurIPS 2023 Spotlight|高质量多视角图像生成,完美复刻场景材质!SFU等提出MVDiffusion
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。