Redian新闻
>
AIGC发展太快!Meta发布首个基于文本的4D视频合成器:3D游戏建模师也要下岗了?

AIGC发展太快!Meta发布首个基于文本的4D视频合成器:3D游戏建模师也要下岗了?

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】文本到2维图像、2维视频、3维模型,现在终于发展到3维模型视频了!


AI生成模型在过去这段时间里取了巨大的进展,就图像领域来说,用户可以通过输入自然语言提示来生成图(如DALL-E 2,Stable Diffusion),也可以在时间维度上扩展生成连续的视频(如Phenaki),或者在空间维度上扩展直接生成3D模型(如Dreamfusion)。

但到目前为止,这些任务仍然处于孤立的研究状态,彼此之间不存在技术交集。

最近Meta AI的研究人员结合了视频和三维生成模型的优势,提出了一个全新的文本到四维(三维+时间)生成系统MAV3D(MakeA-Video3D),将自然语言描述作为输入,并输出一个动态的三维场景表示,可以从任意的视角进行渲染。

论文链接:https://arxiv.org/abs/2301.11280

项目链接:https://make-a-video3d.github.io/


MAV3D也是第一个可以根据给定文本描述来生成三维动态场景的模型。

文中提出的方法使用了一个4D 动态神经辐射场(NeRF) ,通过查询基于文本到视频(T2V)扩散的模型来优化场景表现、密度和运动一致性,由提供的文本生成的动态视频输出可以从任何摄像机的位置和角度观看,并且可以合成到任意的3D环境中。


该方法可用于为视频游戏、视觉效果或增强型和虚拟现实生成3D资产。


与图像生成和视频生成任务不同的是,互联网上有大量的caption数据可供训练,但却连一个现成的4D模型集合都没有


柯基玩球


MAV3D的训练不需要任何3D或4D数据,T2V 模型只需要在文本-图像对和未标记的视频上进行训练。


在实验部分,研究人员进行了全面的定量和定性实验以证明该方法的有效性,对之前建立的内部基线有明显提升。


文本到4D动态场景


由于缺乏训练数据,研究人员为了解决这个任务构想了几种思路。


一种方法可能是找到一个预先训练好的二维视频生成器,并从生成的视频中提炼出一个四维重建。不过从视频中重建可变形物体的形状仍然是一个非常具有挑战性的问题,即非刚性运动结构(Non-Rigid Structure from Motion, NRSfM)


如果给定物体的多个同步视点(multiple simultaneous viewpoints),任务就变得简单了。虽然多机位设置在真实数据中很少见,但研究人员认为,现有的视频生成器隐含了生成场景的任意视点模型。



也就是说,可以将视频生成器作为一个「统计学」的多摄像机设置来重建可变形物体的几何和光度。


MAV3D算法通过优化动态神经辐射场(NeRF)与将输入文本解码成视频,对物体周围的随机视点进行采样来实现该目的。


直接使用视频生成器来优化动态NeRF并没有取得令人满意的结果,实现过程中还有几个难题需要攻克:


1. 需要一个有效的、端到端可学习的动态三维场景表征;

2. 需要一个有监督学习的数据源,因为目前并不存在大规模的(文本,4D)对的数据集可供学习;

3. 需要在空间和时间维度上扩展输出的分辨率,因为4D输出需要大量的内存和计算能力;


MAV3D模型


MAV3D模型基于神经辐射场(NeRFs)的最新工作,结合了高效(静态)NeRFs和动态NeRFs中的成果,并将4D场景表示为六个多分辨率特征平面的集合。


为了在没有相应(文本、4D)数据的情况下监督这种表示,研究人员提出了一个用于动态场景渲染的多阶段训练pipeline,并证明了每个组件在实现高质量结果中的重要性。



一个比较关键的观察结果是,使用Text-to-Video(T2V)模型,利用Score Distillation Sampling(SDS)直接优化动态场景会导致视觉伪影和次优收敛。

所以研究人员选择首先利用文本到图像(T2I)模型,将静态的三维场景与文本提示相匹配,随后再用动态的方式增强三维场景模型。


此外,模型中还引入了一个新的temporal-aware SDS损失和运动正则项,通过实验证明了其对现实中和具有挑战性的运动至关重要。



并且通过一个额外的temporal-aware超分辨率微调阶段扩展到更高分辨率的输出。

最后使用T2V模型的超级分辨率模块的SDS来获得高分辨率的梯度信息来进行有监督学习三维场景模型,增加其视觉保真度,能够在推理过程中对更高分辨率的输出进行采样。


实验部分


评价指标


使用CLIP R-Precision来评估生成的视频,可以用于衡量文本和生成场景之间的一致性,可以反应输入提示从渲染的框架中的检索准确性。研究人员使用CLIP的ViT-B/32变体,并在不同的视图和时间步中提取帧。


除此之外还使用了四个定性指标,通过询问人类标注员在两个生成的视频中的偏好,可以得出(i)视频质量;(ii)对文本提示的忠实度;(iii)运动量;以及(iv)运动的真实性


Text-to-4D对比


由于之前没有文字转4D的方法,所以研究人员建立了三个基于T2V生成方法的基线用于对比,二维帧的序列就会用三种不同的方法转化为三维场景表示的序列。

第一个序列是通过one-shot神经场景渲染器(Point-E)得到;第二个是通过对每一帧独立应用pixelNeRF生成的;第三个是应用D-NeRF结合使用COLMAP提取的相机位置。



可以看出,该方法在客观的R-精度指标上超过了基线模型,并且在所有指标上都得到了人类标注员更高的评价。



此外,研究人员还探索了该方法在不同相机视角下的表现。


消融实验



1、 在没有场景超分辨率(SR)微调的情况下训练的模型,其步骤数与MAV3D相同(阶段3)的情况下,人类标注员在质量、文本对齐和运动方面都更倾向于选择用SR训练的模型。



此外,超分辨率微调增强了渲染视频的质量,使高分辨率视频具有更精细的细节和更少的噪音。



2、无预训练:在直接优化动态场景(没有静态场景预训练)的步骤与MAV3D相同的情况下,结果是场景质量低得多或收敛性差:在73%和65%的情况下,用静态预训练的模型在视频质量和现实运动方面更受欢迎。


参考资料:
https://arxiv.org/abs/2301.11280




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
建模师也危险了?OpenAI公布Point-E,AI迈出“生成3D模型”第一步小白鞋下岗了!春天跪求你穿这双,太太太好穿了!“爱” 是很容易被亵渎的一个字清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下分析师要下岗了?首份用ChatGPT撰写的券商研报出炉打底裤小黑裤全下岗了!今年明星都在穿瘦瘦裤!显瘦、保暖、百搭一条过冬。解放军班公湖基建进展太快,印军再难越境突袭化妆师即将下岗?迪士尼发布首个可实用的re-age模型FRAN,覆盖18-85岁人脸变化开拓AI生成3D视频新赛道,「深氧科技」获汉能创投千万级天使轮融资|36氪首发洗衣机下岗了?用它泡30分钟≈手搓1000次!小白鞋下岗了!春天跪求你穿这双,太太太好穿了!!FastTrack Universität 2023莱比锡大学公立语言项目招生简章合成技术新突破!《ACS合成生物学》:创新合成生物传感器或可创建芯片上的“感觉器官”!俄罗斯官方披露自研3D游戏引擎路线图!2025年面世,支持主机平台初识布达佩斯清华朱军团队开源UniDiffuser:首个基于Transformer的多模态扩散大模型《左手指月》感谢才班的辛苦付出!! 庆祝银班上任!!!清华朱军团队开源UniDiffuser:首个基于Transformer的多模态扩散大模型!文图互生、改写全拿下!李显龙曾说:科技发展太快,谁都想不到媒体未来会如何紧急频道二十分钟的一个片断。【360°透明外罩 立体展示观赏】2022世界杯吉祥物手办3D摆件 3d建模高度还原 惟妙惟肖AIGC玩出新花样!Stable Diffusion公司提出基于扩散模型的视频合成新模型微软抛出王炸,GPT-4接入Office全家桶!PPT一键生成,又一批打工人要下岗了?Conagen和Natáur达成合作,生产可持续天然牛磺酸AIGC教程:Midjourney高效制作伪3D游戏场景、还有动态和光照?ChatGPT再出“王炸”,客服都要下岗了?阔腿裤下岗了!这条甜酷女神裤,美炸了,显高、显瘦、显腿长,气质翻倍!学会这方子,烤箱也要下岗了!比馒头松软,比面包简单,快把主食换成它Meta发布首个「非参数化」掩码语言模型NPM:吊打500倍参数量的GPT-3网易下场投资!UGC工具CliCli曝光,无需编程人人都能做3D游戏洗衣机下岗了?用它泡一泡衣服鞋子油渍、污渍瞬间溶解!比手洗还干净,省心省力更省钱,用一次就爱上!ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成AIGC教程:如何使用Midjourney节省70%时间,制作3D游戏角色请放过月亮吧!我对毛豆说:“妈妈可能要下岗了”
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。