Redian新闻
>
重塑3D生成核心理论:VAST、港大、清华用「零」训练数据生成了3D模型

重塑3D生成核心理论:VAST、港大、清华用「零」训练数据生成了3D模型

公众号新闻

机器之心专栏

机器之心编辑部

AI 生成 3D 模型最难的一关,终于被搞定了。

无需任何训练数据,只需对着模型描述一句话,如「一个做作业的香蕉人」:


或是「一只戴着 VR 眼镜的猫」:


就能生成符合描述的带有高质量纹理贴图的 3D 场景。不仅如此,还能对已有的 3D 模型进行精细化贴图。


这是港大与清华大学联合 3D 生成明星公司 VAST AI 研发的一种新方法,它能够从复杂的文本描述中,直接生成富有想象力的高质量 3D 模型。


目前,这项研究成果已被人工智能顶级会议 ICLR 2024 收录,代码也已经开源。对这项研究感兴趣的小伙伴,可以戳下方项目主页和论文地址查看

  • 论文地址:https://arxiv.org/abs/2310.19415
  • 项目地址:https://xinyu-andy.github.io/Classifier-Score-Distillation
  • 代码地址:https://github.com/CVMI-Lab/Classifier-Score-Distillation
  • 论文标题:Text-to-3D with Classifier Score Distillation

所以它究竟是如何做到的?了解新方法是什么之前,我们先来了解目前已有的方法存在什么问题。

传统生成模型面临的困境

在交互式游戏、电影艺术、增强 / 虚拟现实以及仿真技术等多个应用场景中,高质量的三维资产创建一直是一个重要且具有挑战性的问题。

目前大多数生成模型都依赖于本领域的大量高质量数据做训练,但在 3D 领域,这样的数据集非常匮乏。这导致目前基于 3D 数据训练的 3D 生成模型的效果还无法复刻图像领域的成功。

基于 2D 先验的 3D 生成方法

为了解决这一问题,Google 的 Dream Fusion 首次提出 Score Distillation Sampling(SDS)的方法,证明了可以通过预训练的二维扩散模型生成高质量和复杂的三维结果。这一范式的优势在于无需任何 3D 数据预训练即可生成 3D 模型,这一架构也一直被研究者们和后续工作所沿用,例如 Nvidia 的 Magic3D 等。其核心理论在于通过激励其渲染图像移向文本条件下的高概率密度区域,来反向生成 3d 场景。

尽管基于 SDS 的方法取得了令人瞩目的成果,然而,本文的研究者们发现,基于 SDS 的方法在实际实现中总是与理论出现一些差距,主要是因为普遍依赖于 Classifier-Free Guidance (CFG)。

在使用 CFG 时,推动优化的梯度实际上包含两个部分:一是数据密度的梯度,二是后验函数的梯度。其中前者对应于 SDS 理论中的关键部分,而后者仅仅是在实验过程中才加入的辅助手段。

分类器分数蒸馏:重塑 3D 生成的关键所在

这篇论文的核心贡献,在于重新评估了 SDS 中 CFG 的角色,发现 CFG 不仅仅是辅助手段,恰恰相反,它才是文本到三维生成中的关键驱动。由于这一部分可以被解释为一个隐式的分类模型,研究者们将这一新范式命名为分类器分数蒸馏(Classifier Score Distillation, CSD)

这一发现从根本上改变了我们对基于分数蒸馏成功的文本到三维生成机制的理解。具体而言,其有效性来自于从隐式分类器中提炼知识,而不是依赖于生成先验。

CSD 的引入使得我们能够重新审视现有技术设计选择。例如,研究者们展示了负面提示可以被视为负分类器分数,从而制定了一个渐进式的负分类器分数优化策略,这增强了生成质量,同时保持了与提示的结果忠实度。

此外,研究还揭示了利用分类器分数进行高效的基于文本驱动的三维编辑的可能性,以及将变分分数蒸馏技术 (Variational Score Distillation) 视为一种自适应性的负分类器分数优化形式。

实验效果

CSD 不仅在理论上对文本到三维生成领域提供了新的视角,而且在实际应用中也表现出优越的性能。

在主要的 3D 生成任务上的实验结果显示,在文本对齐和视觉质量方面,该方法相较于 Dream Fusion、Magic3D、Fantasia3D 等现有技术有显著提升,生成的纹理也真实丰富。

在速度上,CSD 在单个 A800 GPU 上只需 1 小时即可完成任务,而能达到同样视觉效果的 Prolific Dreamer 方法则需要长达 8 小时。这一显著的速度优势,加上其出色的生成质量,证明了 CSD 技术的高效性和实用性。

此外,定量评估中采用的 CLIP R-Precision 指标进一步证实了 CSD 的优越性。用户研究也显示 59.4% 的参与者更倾向于选择 CSD 生成的结果。


实验部分还对比了 CSD 在纹理生成这一任务上的能力,与多个方法进行比较,实验结果显示无论从效果还是用户研究中都优于其他方法。


此外,研究者们还展示了如何利用 CSD 对现有的 3D 场景进行编辑,如下图所示,你可以使用 CSD 将一个香蕉人编辑为一个黄瓜人,将模特身上的苔藓编辑为鲜花,而不损失其他部分。


总而言之,CSD 从理论出发,重新思考了目前 3D 生成的关键所在,重塑优化目标,最终在多个任务上显示出其优越性与强大的潜力。通过对这一新范式的深入探索和应用,我们能够更有效地从文本描述中生成高质量、高精度的三维内容,这对于三维内容创造领域的未来发展具有深远的影响。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 DebugChatGPT新漏洞:失控背出个人隐私泄露训练数据,OpenAI修复后依然有效6058 血壮山河之随枣会战 第三章 12Stable Video 3D重磅开源!3D生成迎来新突破!喜报!悉尼大学、港大、纽大、港中文、诺丁汉offer来了!|背景提升学员弥合2D和3D生成之间的次元壁!X-Dreamer:高质量的文本到3D生成模型LeCun转发!大连理工卢湖川、贾旭团队提出可插入图像/视频/3D生成的StableIdentity个人感慨之三十五 经济状况背景提升学员|喜报!港中文、港科大、悉尼大学、曼彻斯特大学、伦敦大学国王学院、布里斯托大学、南加州大学offer来了!OpenAI拟将ChatGPT军用?与五角大楼合作军事禁令解除,谷歌前CEO:AI会变成核弹牛津录取水挺深:BMAT、PAT、GCSE 一起看!3D重建范式变革!最新模型MVDiffusion++:无需相机姿态,即可实现高清3D模型重建ChatGPT狂吐训练数据,还带个人信息:DeepMind发现大bug引争议一条命令生成属于自己的工具站(json格式化、编码转换、UUID生成等)个人感慨之三十七 反人类历史泰國水燈節ChatGPT狂吐训练数据!还带个人信息!DeepMind发现大bug引争议。。。最新综述!3D生成进展的全面调研CVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型ICLR 2024 | Adobe提出DMV3D:3D生成只需30秒!让文本、图像都动起来的新方法!Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放Suno v3音乐生成模型发布,几秒钟生成完整歌曲;富士通用生成式AI加速药物研发丨AIGC日报Stability AI开源上新:3D生成引入视频扩散模型,质量一致性up,4090可玩星河湾-芝大、上外附、包校计算机牛娃分享!美国信息奥赛唯一官方推荐计算机理论夏校来上海了……AI研究也能借鉴印象派?这些栩栩如生的人竟然是3D模型背景提升学员|喜报!港大、港中文、城大、布里斯托大学offer来了!向完全自主性更进一步,清华、港大全新跨任务自我进化策略让智能体学会「以经验为鉴」背景提升学员|喜报!港中大、港理工、港科大、格拉斯哥、圣路易斯华盛顿offer来了!醒醒吧!没读过这些书,SAT满分也进不了藤校!鼎石、平和、清华附寒假书单出炉……哪里要动点哪里!腾讯联合清华、港科大推出全新图生视频大模型个人感慨之三十六 乌纱帽免训练!单图秒级别生成AI写真,人像生成进入无需训练的单阶段时代Llama2-7B升级为Pro版本!腾讯提出「块扩展」训练法,效果全面提升背景提升学员|喜报!新国立、康奈尔、港大、哥大、约翰霍普金斯、港科大、华威、圣路易斯华盛顿offer来了!学理论与实修的区别 | 学佛的两种境界:学理论与实修 之五
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。