ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成
©PaperWeekly 原创 · 作者 | 叶振辉
单位 | 浙江大学博士生
研究方向 | 语音合成、说话人视频合成
论文标题:
GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face Synthesis
https://arxiv.org/abs/2301.13430
https://github.com/yerfor/GeneFace
目前基于 NeRF 的说话人视频合成方法 [3] 的主要思路是训练一个基于音频输入的条件神经辐射场(Conditional NeRF):
在得到渲染的人脸图像后,对渲染图像与真实图像计算误差,即可对进行模型训练:
整体方案思路
为了避免简单的确定性模型导致的“平均脸”问题,我们提出了变分动作生成器(Varaitional Motion Generator)结构。该模型结合了变分自编码器(VAE;Variaitonal Auto-Encoder)和流模型(Flow-based Models)的优点,能根据输入语音生成准确且富有表现力的人脸动作。其训练流程图如下所示:
由于目标人视频的数据量(约 3-5 分钟)与大规模唇读数据集(约数百小时)相比差距过大,实验结果表明,目标人的人脸表情与大规模数据集中的人脸表情存在巨大的域差异,可能导致最终渲染的图像出现模糊或不真实的情况。要解决这一问题,一种常见的方法是直接在目标人数据集上微调(fine-tune)整个语音转动作模型。但这个做法可能会导致灾难性遗忘,使模型失去在大数据集上学习到的泛化能力。
2.3 基于动作渲染视频
为了给予前两个模块预测的 3D 人脸特征点渲染对应的视频,我们提出了一个以 3D 人脸特征点作为输入条件的 NeRF 模型。具体来说,除了观察方向和 3D 位置之外,3D 人脸特征点也将作为 NeRF 的输入空间,以预测对应位置的颜色和体密度。这一模型可以描述为如下的一个映射:
参考文献
[1] Ben M, Pratul S, Matthew T, Jonathan B, Ravi R, Ren N. NeRF: Representing scenes as neural radiance fields for view synthesis. In Proc. ECCV 2020.
[2] Ren Y, Liu J, Zhao Z. Portaspeech: Portable and high-quality generative text-to-speech. In Proc. NeurIPS 2021.
[3] Yudong G, Keyu C, Sen L, Yong-Jin L, Hujun B, Juyong Z. AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis. In Proc. ICCV 2021.
[4] Xudong M, Qing L, Haoran X, Raymond Y.K. L, Zhen W, Stephen Paul S. Least Squares Generative Adversarial Networks. ICCV 2017.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者