Meta 3D Gen 震撼发布:1 分钟打造顶级 3D 模型
作者 | 赵明华
7 月 3 日凌晨,Meta 正式公布了一款文生 3D 模型——Meta 3D Gen,在文生 3D 赛道上掀起一阵热潮。
据悉,3D Gen 可以在一分钟内根据用户输入的文本提示词,快速构建出包括 3D 模型、纹理贴图、材质等在内的全方位 3D 资产。GenAI 团队称,这一速度相较于当前市场上的同类产品,实现了 3 至 10 倍的提升,极大地缩短了创作周期。
不仅如此,Meta 3D Gen 在追求速度的同时,也可以保证生成内容的质量。相比于以往具有同等速度的模型,3D Gen 在模型的视觉保真度、生成的 3D 网格质量、材料的质量和控制方面,都能够有更好的表现。
Meta 3D Gen 结合了 Meta 的两个现有模型:用于生成 3D 网格素材的 AssetGen 和用于精细纹理化的 TextureGen。通过结合这两个模型的优势,3DGen 可同时以三种方式表示三维物体:视图空间、体积空间和 UV(或纹理)空间。在 Meta 的一则报告中提到,与单阶段模型相比,这两项技术的集成实现了 68% 的胜率。
在生成过程中 3D Gen 采用的是两阶段的方法:第一阶段使用 AssetGen,第二阶段使用 TextureGen。
第一阶段:文本到图像
这一阶段的目标是,从文本生成有着色和阴影的图像,从四个标准视角,生成这些角度的 4 张视图。
3D Gen 会跟据用户提供的文本提示,创建初始三维资产,生成带有纹理和 PBR 材质贴图的 3D 网格。这一阶段的推理时间约为 30 秒。
第二阶段:图像到 3D
在这一阶段,3D Gen 会根据第一阶段生成的 3D 素材和最初的文本提示词,对第一阶段的素材进行纹理细化或者重新着色,生成更加高质量的纹理和 PBR 图(PBR,基于物理的渲染,是计算机图学中的着色方法)。
第二阶段的推理时间约为 20 秒。
为了评估 3D Gen 的效果,Meta 邀请了专业创作者和普通人参与到研究中,对提示词忠诚度视觉质量进行评估。
在两个阶段中,3DGen 在该参数上均超越了所有行业基准,而第三方文本转 3D (T23D) 生成器则成为最强大的竞争对手。研究发现,3D 经验较少的注释者(annotatiors)对哪怕是微小的纹理和几何伪影也不太敏感,他们更喜欢纹理更清晰、更生动、更逼真、更细致的资源。在所有类别中,professional 3D 艺术家都表示更喜欢 3D Gen。
在数字艺术、游戏设计、影视制作等领域,3D 动画一直扮演着重要角色。传统 3D 动画制作过程繁琐复杂,需要专业技能和大量时间,GenAI+3D 技术的出现,有望改变这一现状。
参考链接:https://arxiv.org/abs/2407.02599
论文地址:
https://scontent-eze1-1.xx.fbcdn.net/v/t39.2365-6/449707112_509645168082163_2193712134508658234_n.pdf?_nc_cat=111&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=5bSbn3KaluAQ7kNvgGRfSwR&_nc_ht=scontent-eze1-1.xx&oh=00_AYC1nbp-YTq0P7189qTiXg4WAhfjVogkCEwMnJR5XJrw4Q&oe=668A5091
AICon 全球人工智能开发与应用大会,为资深工程师、产品经理、数据分析师等专业人群搭建深度交流平台。聚焦大模型训练与推理、AI Agent、RAG 技术、多模态等前沿议题,汇聚 AI 和大模型超全落地场景与最佳实践,期望帮助与会者在大模型时代把握先机,实现技术与业务的双重飞跃。
在主题演讲环节,我们已经邀请到了「蔚来创始人 李斌」,分享基于蔚来汽车 10 年来创新创业过程中的思考和实践,聚焦 SmartEV 和 AI 结合的关键问题和解决之道。大会火热报名中,7 月 31 日前可以享受 9 折优惠,单张门票节省 480 元(原价 4800 元),详情可联系票务经理 13269078023 咨询。
今日荐文
微信扫码关注该文公众号作者