Redian新闻
>
首个3D人像视频生成模型来了:仅需1张2D人像,眨眼、口型都能改变 | ICLR 2023

首个3D人像视频生成模型来了:仅需1张2D人像,眨眼、口型都能改变 | ICLR 2023

公众号新闻
zcxu 投稿
量子位 | 公众号 QbitAI

只需1张普通照片,就能合成全角度动态3D视频。

眨个眼、动动嘴,都是小case~

最近AIGC爆火,3D人像模型生成这边也没闲着。

如StyleNerf、StyleSDF、EG3D等方法相继出世。

但到目前为止,这种生成模型都还停留在单帧人像上。

最近,来自新加坡国立大学(NUS)和字节跳动的研究人员,在静态3D模型的基础上,提出了首个3D人像视频生成模型:PV3D(3D model for Portrait Video generation)。

PV3D的训练继承了3D GAN模型的优点,即无需动态的三维数据监督,只需要在足够数量的单视角2D视频数据上进行训练。

该生成框架将人像和动作进行解耦,基于视频的时间戳生成各自的三维表征,让视频可以从任意角度进行渲染。

长视频也能挑战:

3D动态人像生成

PV3D分别从独立的高斯分布中采样随机噪声来表征外表和运动,外表噪声生成视频的主体内容,控制人像的ID以及人脸的各个部分,运动噪声配合视频帧的时间戳控制当前帧的动作。

为了确保生成内容的真实性以及外表和运动的解耦,PV3D训练两个独立的判别器分别判定外表和运动的合理性

该方法可以生成随机的人像视频以及相应的高质量的动态几何表面,让视频可以从任意角度进行渲染。

同时,该方法可以支持下游的应用任务,比如静态人像驱动,人像视频的重建以及对人像动作的修改,所有的结果均可以保持高的多视角一致性。

主流的3D GAN模型都脱胎于StyleGAN结构

因此这些模型均会将采样得到的噪声先映射到一个高维度的中间隐式编码(intermidate latent code),大量现有的研究表明这种结构的隐式空间包含了丰富的语义信息,可以用来控制生成的图像内容。

因此,最直接的拓展方式就是使用预训练的单帧3D GAN模型,通过学习一个额外的在隐式空间进行推理的时序模型对生成的内容进行合理的改变,从而生成3D人像视频。

然而,该方法的缺点是图片生成器和时序推理模型在不同的阶段分别被优化,导致最终的视频很难保持时间上的一致性

另一种主流的视频生成模型使用稀疏训练的方式,在训练阶段直接随机生成视频中的少量帧,使用少数帧的时间戳编码运动信息,进一步的改变中间隐式编码从而一次性优化完整的生成器。

然而这种做法将全部的时序信息都包含在隐式空间中,导致最终的模型多样性较差、生成质量较低

与上述方法不同,PV3D在原有GAN模型的基础上在特定尺度的生成模块中插入运动信息的编码层,这些编码层独立地将控制运动的噪声映射为隐式编码,使用modulated convolution操纵外表特征,再将操纵后的特征与原始特征融合,从而提高生成视频的时序一致性和运动多样性。

此外,本工作还研究了以下问题:

如何有效地在视频生成任务中利用渲染的视角先验信息

针对3D视频生成,如何设计合理的外表和运动判别器

PV3D模型基于最新的静态3D GAN模型EG3D进行开发,EG3D采用高效的3D表征Tri-plane实现图像生成。

在训练阶段,PV3D采用稀疏训练的策略,对于一个视频采样两个噪声、两个时间戳以及各自时刻对应的相机视角。

相对应的,模型生成两帧对应的3D表征进行渲染得到粗糙的结果。随后使用超分辨率模块将图片上采样。

PV3D设计了两个独立的判别器监督网络的学习,其中视频判别器会编码两帧的相机视角以及时间间隔去判断生成结果的合理性。

实验部分

评价指标

研究人员使用FVD来评估生成视频的质量。此外,为了评估多视角的一致性以及3D几何结构的质量,研究人员将3D GAN工作中常用的评价指标(生成人像的ID一致性、Chamfer距离、多视角的重投影误差)拓展到视频任务中。

与基线的对比

研究人员首先采用同期的3D视频生成工作3DVidGen作为基线。此外,研究人员还基于SOTA的单帧3D GAN (EG3D和StyleNerf) 和2D视频生成模型构建了三个基线模型。在3个公开数据集(VoxCeleb, CelebV-HQ, TalkingHead-1KH)上的实验结果表明,PV3D在生成视频的多样性,3D几何的质量,以及多视角一致性上均超越基线模型。

消融实验

研究人员对PV3D的各部分设计进行了消融实验,例如:运动信息的编码和注入的位置,运动信息的插入方式,相机视角的采样策略,以及视频判别器的设计。

团队介绍

目前,该论文已被ICLR 2023接收。

作者团队由新加坡国立大学Show Lab和字节跳动组成。

论文地址:
https://openreview.net/pdf?id=o3yygm3lnzS
项目主页:
https://showlab.github.io/pv3d/

《中国AIGC产业全景报告暨AIGC 50》调研启动

谁会是中国的“ChatGPT”?最有竞争力和潜力的AIGC力量位于何方?

量子位《中国AIGC产业全景报暨AIGC 50》正式启动对外征集,期待有更多优秀的机构、产品、案例与技术能够被大众看到。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
日本啊,日本(十二)利休之死ICLR 2023 Spotlight | 2D图像脑补3D人体,衣服随便搭,还能改动作ICLR 2023 | 解决VAE表示学习问题,北海道大学提出新型生成模型GWAE阿里「杀手锏」级语音识别模型来了!推理效率较传统模型提升10倍,已开源EMNLP 2022 | ELMER: 高效强大的非自回归预训练文本生成模型NeurIPS 2022 | 这个图像生成模型启发于电动力学!PFGM:泊松流生成模型CVPR 2023 | Uni3D: 首个多数据集3D目标检测框架证件照转数字人只需几秒钟,微软实现首个3D扩散模型高质量生成效果,换装改形象一句话搞定 | CVPR 2023CVPR2023|天大联合卡迪夫大学发布SemanticHuman:部件级、精细语义、灵活可控的3D人体编辑表征ICLR 2023 | DM-NeRF:从2D图像中实现3D场景的几何分解与编辑(已开源)NUWA系列再添新成员——超长视频生成模型NUWA-XLICLR 2023 Spotlight | 2D图像脑补3D人体:衣服随便搭,还能改动作CVPR 2023 Workshop | 马普所、麻省理工等举办生成模型研讨会Eruope 2023无惧大规模GNN,用子图也一样!中科大提出首个可证明收敛的子图采样方法 | ICLR 2023 Spotlight阿里大模型来了:10个回合“单挑”文心一言,谁占上风?超越CLIP!谷歌大脑多模态学习新作CLIPPO:仅从像素理解图像和语言Meta视觉大模型来了!完全自监督无需微调,多任务效果超OpenCLIP​ICLR 2023 | LightGCL: 简单且高效的图对比学习推荐系统2022生成模型进展有多快?新论文盘点9类生成模型代表作Transformer再胜Diffusion!谷歌发布新一代文本-图像生成模型Muse:生成效率提升十倍全球首发,国产开源「文本-视频生成」模型!免费在线体验,一键实现视频生成自由ICLR 2023 | 无惧大规模GNN:中科大提出首个可证明收敛的子图采样方法ICLR 2023 | 3D UX-Net:超强的医学图像分割新网络国际要闻简报,轻松了解天下事(03玩不起RLHF?港科大开源高效对齐算法RAFT「木筏」,GPT扩散模型都能用ICLR 2023 | DIM-SLAM:首个实现神经隐式稠密重建的RGB-SLAM佛罗伦萨,乌菲齐、老廊桥、及其建筑师“视频领域的Midjourney”!AI视频生成新秀Gen-2内测作品流出,网友直呼太逼真微软3D生成扩散模型RODIN,秒级定制3D数字化身【南北碰碰胡】北方#43《穿过你的黑发的我的手》国际要闻简报,轻松了解天下事(03网易下场投资!UGC工具CliCli曝光,无需编程人人都能做3D游戏CVPR 2023 | 可扩展的视频基础模型预训练范式:训练出首个十亿参数量视频自监督大模型ICLR 2023 | 扩散生成模型新方法:极度简化,一步生成【双龙喜相逢】贺春龙12+《最远的你是我最近的爱》斜阳FT.碧蓝天转:2023 回国探亲(5)摄影欣赏:加拿大风景随拍一张211毕业生工资表流出,网友炸了:天啊!真没想到……2023 春 祝姐妹们周末快乐!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。