Redian新闻
>
OpenAI文本生成3D模型再升级,数秒完成建模,比Point·E更好用

OpenAI文本生成3D模型再升级,数秒完成建模,比Point·E更好用

公众号新闻
机器之心报道

机器之心编辑部

此次,与点云显式生成模型 Point・E 相比,OpenAI 新推出的条件生成式 3D 模型 Shap-E 建模了高维、多表示的输出空间,收敛更快,并且达到了相当或更好的样本质量。

生成式 AI 大模型是 OpenAI 发力的重点,目前已经推出过文本生成图像模型 DALL-E 和 DALL-E 2,以及今年初基于文本生成 3D 模型的 POINT-E。

近日,OpenAI 研究团队升级了 3D 生成模型,全新推出了 Shap・E,它是一个用于合成 3D 资产的条件生成式模型。目前相关模型权重、推理代码和样本已开源。


  • 论文地址:https://arxiv.org/abs/2305.02463
  • 项目地址:https://github.com/openai/shap-e

我们先来看一下生成效果。与根据文字生成图像类似,Shap・E 生成的 3D 物体模型主打一个「天马行空」。例如,一个看起来像香蕉的飞机:


看起来像一棵树的椅子:


还有经典例子,像牛油果的椅子:


当然也可以生成一些常见物体的三维模型,例如一碗蔬菜:


甜甜圈:


本文提出的 Shap・E 是一种在 3D 隐式函数空间上的潜扩散模型,可以渲染成 NeRF 和纹理网格。在给定相同的数据集、模型架构和训练计算的情况下,Shap・E 更优于同类显式生成模型。研究者发现纯文本条件模型可以生成多样化、有趣的物体,更彰显了生成隐式表征的潜力。


不同于 3D 生成模型上产生单一输出表示的工作,Shap-E 能够直接生成隐式函数的参数。训练 Shap-E 分为两个阶段:首先训练编码器,该编码器将 3D 资产确定性地映射到隐式函数的参数中;其次在编码器的输出上训练条件扩散模型。当在配对 3D 和文本数据的大型数据集上进行训练时, 该模型能够在几秒钟内生成复杂而多样的 3D 资产。与点云显式生成模型 Point・E 相比,Shap-E 建模了高维、多表示的输出空间,收敛更快,并且达到了相当或更好的样本质量

研究背景

本文聚焦两种用于 3D 表示的隐式神经表示(INR):

  • NeRF 一个 INR,它将 3D 场景表示为将坐标和视向映射到密度和 RGB 颜色的函数;
  • DMTet 及其扩展 GET3D 表示一个纹理 3D 网格,它作为函数将坐标映射到颜色、符号距离和顶点偏移的。这种 INR 能够以可微的方式构建 3D 三角网格,然后渲染为可微的栅格化库。

虽然 INR 灵活而富有表现力,但为数据集中每个样本获取 INR 的成本高昂。此外每个 INR 可能有许多数值参数,在训练下游生成模型时可能会带来难题。通过使用带有隐式解码器的自动编码器来解决这些问题,可以获得较小的潜在表示,它们直接用现有生成技术进行建模。另外还有一种替代方法,就是使用元学习创建一个共享大部分参数的 INR 数据集,然后在这些 INR 的自由参数上训练扩散模型或归一化流。也有人提出,基于梯度的元学习可能并不必要,相反应该直接训练 Transformer 编码器,产生以 3D 对象多个视图为条件的 NeRF 参数。

研究者将上述几种方法结合并拓展,最终得到了 Shap・E,并成为用于各种复杂 3D 隐式表示的条件生成模型。首先通过训练基于 Transformer 的编码器来为 3D 资产生成 INR 参数,然后在编码器的输出上训练扩散模型。与先前的方式不同,生成同时表示 NeRF 和网格的 INR,允许它们以多种方式渲染或导入下游 3D 应用。

当在数百万个 3D 资产的数据集上训练时,本文模型能够在文本 prompt 的条件下产生多种可识别的样本。与最近提出的显式 3D 生成模型 Point・E 相比,Shap-E 收敛得更快。在相同的模型架构、数据集和条件作用机制的情况下,它能获得相当或更好的结果。

方法概览

研究者首先训练编码器产生隐式表示,然后在编码器产生的潜在表示上训练扩散模型,主要分为以下两步完成:

1. 训练一个编码器,在给定已知 3D 资产的密集显式表示的情况下,产生隐式函数的参数。编码器产生 3D 资产的潜在表示后线性投影,以获得多层感知器(MLP)的权重;
2. 将编码器应用于数据集,然后在潜在数据集上训练扩散先验。该模型以图像或文本描述为条件。

研究者在一个大型的 3D 资产数据集上使用相应的渲染、点云和文本标题训练所有模型。

3D 编码器

编码器架构如下图 2 所示。


潜在扩散

生成模型采用基于 transformer 的 Point・E 扩散架构,但是使用潜在向量序列取代点云。潜在函数形状序列为 1024×1024,并作为 1024 个 token 序列输入 transformer,其中每个 token 对应于 MLP 权重矩阵的不同行。因此,该模型在计算上大致相当于基础 Point・E 模型(即具有相同的上下文长度和宽度)。在此基础上增加了输入和输出通道,能在更高维度的空间中生成样本。

实验结果

编码器评估

研究者在整个编码器训练过程中跟踪两个基于渲染的指标。首先评估重建图像和真实渲染图像之间的峰值信噪比(PSNR)。此外,为了衡量编码器捕获 3D 资产语义相关细节的能力,对最大 Point・E 模型产生的网格进行编码,重新评估重建 NeRF 和 STF 渲染的 CLIP R-Precision。

下表 1 跟踪了这两个指标在不同训练阶段的结果。可以发现,蒸馏损害了 NeRF 重建质量,而微调不仅恢复还略微提高了 NeRF 质量,同时大幅提高了 STF 渲染质量。


对比 Point・E

研究者提出的潜在扩散模型与 Point・E. 具有相同架构、训练数据集和条件模式。与 Point・E 进行比较更有利于区分生成隐式神经表示而不是显式表示的影响。下图 4 在基于样本的评估指标上对这些方法进行了比较。


下图 5 中显示了定性样本,可以看到这些模型通常为相同的文本 prompt 生成质量不同的样本。在训练结束之前,文本条件 Shap・E 在评估中开始变差。


研究者发现 Shap・E 和 Point・E 倾向于共享相似的失败案例,如下图 6 (a) 所示。这表明训练数据、模型架构和条件图像对生成样本的影响大于选择的表示空间。

我们可以观察到两个图像条件模型之间仍然存在一些定性差异,例如在下图 6 (b) 的第一行中,Point・E 忽略了长凳上的小缝隙,而 Shap・E 试图对它们进行建模。本文假设会出现这种特殊的差异,因为点云不能很好地表示薄特征或间隙。此外在表 1 中观察发现,当应用于 Point・E 样本时,3D 编码器略微降低了 CLIP R-Precision。


与其他方法比较

下表 2 中,研究者在 CLIP R-Precision 度量标准上将 shape・E 与更广泛的 3D 生成技术进行了比较。


局限与展望

虽然 Shap-E 可以理解许多具有简单属性的单个对象 prompt,但它在组合概念方面的能力有限。下图 7 中可发现,这个模型很难将多个属性绑定到不同的对象,并且当请求两个以上的对象时,无法有效生成正确的对象数量。这可能是配对训练数据不足导致的结果,通过收集或生成更大的标注 3D 数据集或许可以解决。


此外,Shap・E 产生可识别的 3D 资产,但这些通常看起来粗糙或缺乏细节。下图 3 显示编码器有时会丢失详细的纹理(例如仙人掌上的条纹),这表明改进的编码器可能会恢复一些损失的生成质量。


更多技术和实验细节请参阅原论文。



© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
7 Papers & Radios | LeCun世界模型首次尝试;Meta开源文本音乐生成模型一句话生成3D游戏世界!9人开发、AIGC支撑的Roleverse是啥?原达摩院大模型 M6 带头人杨红霞加入字节,语言生成大模型再迎新玩家乌克兰的黑洞演员出名的年龄AIoT情报|中国牵头首个6G卫星研究立项;峰值速率2.1Gbps!乘地铁再也不怕没信号;谷歌量子计算几秒完成传统超算47年任务不用再开PS和AI啦!三分钟就可以在网页上完成建筑分析图!Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下SIGGRAPH 2023|DreamFace:一句话生成3D数字人?AIGC实测:图生3D模型,付费的Kaedim与免费的PIFuHD如何用?AI越来越神:7人团队开发,一句话生成3D游戏的MoonlanderAI是啥3D AI生成出新玩法了:无需数小时,只要45秒,单张图片即可生成 3D模型0门槛克隆ChatGPT方案再升级,开源模型完整复现,在线体验无需注册影像再升级,OPPO Reno10 系列全系标配“超光影长焦镜头”有一种“毁容”叫陈好,当初的女神“万人迷”,如今形象宛如大妈一张照片生成3D头像!苹果新模型击败StyleGAN2,表情光线都能调,网友:要用于MR?Midjourney 5.2震撼发布!原画生成3D场景,无限缩放无垠宇宙无需任何3D数据,直接文本生成高质量3D内容,清华朱军团队带来重大进展MIT华人博士共同一作:用概率程序建模,破解世界模型!ChatGPT能写长篇小说了,ETH提出RecurrentGPT实现交互式超长文本生成自然语言融入NeRF,给点文字就生成3D图的LERF来了港大和微软提出Uni-ControlNet:可控制扩散模型再添一员!OpenAI完成3亿美元融资:估值270到290亿美元 红杉参与全球首发,国产开源「文本-视频生成」模型!免费在线体验,一键实现视频生成自由英伟达推出新AI模型Neuralangelo 可将视频转换为高精3D模型一行文本,生成3D动态场景:Meta这个「一步到位」模型有点厉害ArcGIS也甘拜下风!这个傻瓜式地图神器能绘制等高线,还能生成3D地形!(附神器下载)几张照片即可定制自己的3D化身,还能换装!南京大学发布AvatarBooth:3D模型的制作门槛被打下来了!使用 ChatGPT AI 从英文文本生成 Linux 命令 | Linux 中国人的脑子里,有多少种思绪英伟达馋哭建模师!投喂随意视频,直出3D模型,华人一作登CVPR 2023港中大和商汤提出HPS v2:为文本生成图像模型提供更可靠的评价指标李时珍没上大学读博也能成名医OpenAI再发3D生成模型Shap-E,传Midjourney入局3D模型生成Agustín Hernández:中美洲建筑背景下的未来主义巨构
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。