Redian新闻
>
ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成

ICLR 2023 | GeneFace:高可泛化高保真度的说话人视频合成

科技

©PaperWeekly 原创 · 作者 | 叶振辉

单位 | 浙江大学博士生

研究方向 | 语音合成、说话人视频合成


语音驱动的说话人视频合成(Audio-driven Talking Face Generation)是虚拟人领域的一个热门话题,它旨在根据一段输入的语音,合成对应的目标人脸说话视频。高质量的说话人视频需要满足两个目标:(1)合成的视频画面应具有较高的保真度;(2)合成的人脸面部表情应与输入的驱动语音保证高度对齐。 
近年出现的神经辐射场(NeRF;Neural Radiance Field)[1] 为实现第一个目标,即合成高保真度的说话人视频提供了绝佳的工具。仅需要 3 分钟左右的目标人说话视频作为训练数据,即可合成该目标人说任意语音的视频。然而,目前基于 NeRF 的说话人视频合成算法在实现第二个目标还面临许多挑战,具体来说主要可以分为两个方面: 
1. 对域外驱动音频的弱泛化能力:由于训练数据集仅包括数分钟的说话人语音-面部表情的成对数据,模型对不同说话人、不同语种、不同表现形式(如歌声)等域外音频难以生成准确的面部表情。 
2. “平均脸”问题:由于相同的语音可能有多种合理的面部动作,使用确定性的回归模型来学习这样一个语音到动作的映射可能导致过于平滑的面部动作和较低的表情表现力 [2]。 
在今年的人工智能顶级会议 ICLR 2023 上,浙江大学与字节跳动提出了全新的说话人视频合成模型 GeneFace,该算法旨在解决上述的对域外音频的弱泛化能力和“平均脸”问题,实现了高可泛化、高保真度的语音驱动的说话人视频合成。

论文标题:

GeneFace: Generalized and High-Fidelity Audio-Driven 3D Talking Face Synthesis

论文链接:

https://arxiv.org/abs/2301.13430

代码链接:

https://github.com/yerfor/GeneFace




研究背景

目前基于 NeRF 的说话人视频合成方法 [3] 的主要思路是训练一个基于音频输入的条件神经辐射场(Conditional NeRF):

其中输入空间的 分别是语音表征、观察方向、3D位置。输出空间的 则分别代表对应位置的颜色和体密度。根据体积渲染(Volume Rendering)公式,可以在辐射场中任意位置、任意视角观察,渲染得到对应的图像:

其中 是从观察位置到被观察位置射出的射线的累积不透明度,可以表示为:


在得到渲染的人脸图像后,对渲染图像与真实图像计算误差,即可对进行模型训练:



整体方案思路

尽管现有的基于 NeRF 的说话人视频合成方法 [3] 实现了视频的高保真度,但如上所述,由于其使用均方误差损失端到端地训练语音到说话人图像的映射,导致模型对域外驱动音频的弱泛化能力和“平均脸”问题。 
为了解决上述问题,GeneFace 采用 3D 人脸关键点作为中间变量,提出了一个三阶段的框架。
第一阶段是“语音转动作”,我们在大规模唇语识别数据集上学习语音到动作的映射,这使得我们的模型能够享受大数据集带来的高泛化能力。注意为了解决平均脸问题,我们设计了一个变分动作生成器(Variational Motion Generator)来学习这个语音到动作的映射,该模型可以根据输入的语音生成精确的、具有丰富细节和表现力的面部动作。
第二个阶段是“动作域迁移”,我们提出了一种基于对抗训练的域适应方法,以训练一个人脸动作的后处理网络(Domain Adaptative Post-net),从而弥合大规模唇语识别数据集与目标人视频之间的域差距(Domain Gap)。
第三个阶段是“基于动作渲染视频”,我们设计了一个基于 NeRF 的渲染器(3DMM NeRF Renderer),它以预测的 3D 人脸关键点为条件来渲染高保真的说话人视频。GeneFace 的三阶段推理流程如下图所示:
2.1 语音转动作
GeneFace 的第一阶段任务是根据输入的音频,得到对应的人脸表情。我们利用 HuBERT 模型从原始音频中提取语音表征,使用 3D 人脸关键点表示人脸表情。我们利用一个大型的唇语识别数据集中的语音-动作数据对,训练了一个准确、鲁棒的语音到动作映射。 

为了避免简单的确定性模型导致的“平均脸”问题,我们提出了变分动作生成器(Varaitional Motion Generator)结构。该模型结合了变分自编码器(VAE;Variaitonal Auto-Encoder)和流模型(Flow-based Models)的优点,能根据输入语音生成准确且富有表现力的人脸动作。其训练流程图如下所示:

2.2 动作域适应

由于目标人视频的数据量(约 3-5 分钟)与大规模唇读数据集(约数百小时)相比差距过大,实验结果表明,目标人的人脸表情与大规模数据集中的人脸表情存在巨大的域差异,可能导致最终渲染的图像出现模糊或不真实的情况。要解决这一问题,一种常见的方法是直接在目标人数据集上微调(fine-tune)整个语音转动作模型。但这个做法可能会导致灾难性遗忘,使模型失去在大数据集上学习到的泛化能力。

在这种情况下,我们设计了一个半监督的对抗训练流程来进行动作域适应。具体来说,我们训练了一个动作后处理网络(post-net)将语音转动作模块所预测的 3D 人脸表情迁移到目标人脸的个性化领域。该后处理网络的训练流程图如下所示:

具体来说,动作后处理网络的训练损失函数由三项构成:

其中前两项是在大规模数据集样本上的 LSGAN [4] 对抗损失,第三项是在目标人数据集样本上经过后处理的预测动作与真实动作的误差损失。

2.3 基于动作渲染视频

为了给予前两个模块预测的 3D 人脸特征点渲染对应的视频,我们提出了一个以 3D 人脸特征点作为输入条件的 NeRF 模型。具体来说,除了观察方向和 3D 位置之外,3D 人脸特征点也将作为 NeRF 的输入空间,以预测对应位置的颜色和体密度。这一模型可以描述为如下的一个映射:

其中 表示 3D 人脸特征点。该模型的训练方式与上文介绍的 NeRF 模型训练方法一致。



实验结果
实验表明,GeneFace 相比基准方法实现了更好的图像质量(更低的 FID)、更好的嘴唇对齐程度(更低的 LMD 和更高的 Sync 指标)。尤其是在受域外(OOD;Out-of-Domain)语音驱动时,GeneFace 的优势更加明显。

为了更好地展示 GeneFace 相比现有的基于 NeRF 的说话人合成方法的优势,我们还提供了一个实例视频:
视频中我们可以发现:1)基准算法对于一些特殊音节无法生成准确唇形,而 GeneFace 可以做到;2)基准算法对于语速较快的音频倾向于半张着嘴、唇形运动过于平缓,而 GeneFace 即使在语速较快时也能生成准确且富有表现力的表情。

参考文献

[1] Ben M, Pratul S, Matthew T, Jonathan B, Ravi R, Ren N. NeRF: Representing scenes as neural radiance fields for view synthesis. In Proc. ECCV 2020.

[2] Ren Y, Liu J, Zhao Z. Portaspeech: Portable and high-quality generative text-to-speech. In Proc. NeurIPS 2021.

[3] Yudong G, Keyu C, Sen L, Yong-Jin L, Hujun B, Juyong Z. AD-NeRF: Audio Driven Neural Radiance Fields for Talking Head Synthesis. In Proc. ICCV 2021.

[4] Xudong M, Qing L, Haoran X, Raymond Y.K. L, Zhen W, Stephen Paul S. Least Squares Generative Adversarial Networks. ICCV 2017.


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Meta、CMU联手推出VR史诗级升级!最新HyperReel模型实现高保真6自由度视频渲染春晚往事(附视频合集)再回夏威夷(五)​iPhone 16 Ultra或无端口/集成ChatGPT的Bing曝光/人人视频遭Netflix等起诉AIGC玩出新花样!Stable Diffusion公司提出基于扩散模型的视频合成新模型AI自给自足!用合成数据做训练,效果比真实数据还好丨ICLR 2023WPP收购北美数字机构Fēnom Digital;凯捷旗下The Works公司公布新任命(广告狂人日报)合成技术新突破!《ACS合成生物学》:创新合成生物传感器或可创建芯片上的“感觉器官”!ICLR 2023 | DM-NeRF:从2D图像中实现3D场景的几何分解与编辑(已开源)REForce:2023薪酬指南ICLR 2023 | 3D UX-Net:超强的医学图像分割新网络ICLR 2023 | GoBigger:孕育海量智能体间的竞争与协作基于无标注网络驾驶视频,自动驾驶策略预训练新方法 | ICLR 2023​ICLR 2023 | LightGCL: 简单且高效的图对比学习推荐系统别让你的说话方式,毁掉你的人生ICLR 2023 | 清华大学龙明盛组提出通用时间序列神经网络骨干—TimesNet国际要闻简报,轻松了解天下事(03NeXT SCENE:2023中国虚拟制作行业市场调研成果报告Eruope 2023AIGC发展太快!Meta发布首个基于文本的4D视频合成器:3D游戏建模师也要下岗了?国际要闻简报,轻松了解天下事(03公司里高手的说话方式(增长阅历必读)ICLR 2023 | 漂移感知动态神经网络:基于贝叶斯理论的时间域泛化框架NeurIPS 2022 | 浙大与SEA AI Lab提出高表现力可泛化语音合成首个3D人像视频生成模型来了:仅需1张2D人像,眨眼、口型都能改变 | ICLR 2023iGame GeForce RTX 2080 Advanced OC滴滴恢复新用户注册;微博官宣央视春晚短视频合作伙伴;珍酒李渡拟赴港上市;吃播IP“浪胃仙”账号被判属原公司|首席假期热点精华2023 春 祝姐妹们周末快乐!Twist Bioscience:企业低谷,正是关注合成生物产业的好时机8点1氪:iPhone 14 Pro全系降价700元;上海招聘企业平均月薪10605元;人人视频遭集体起诉AORUS GeForce RTX™ 2080 Ti XTREME WATERFORCE 11GICLR 2023论文列表公布,有机构一口气中20多篇转:2023 回国探亲(5)移风易俗与尊重传统别为我叹息, 匈牙利不需要“男儿”, 只要自由毛泽东和蒋介石各代表一种文化上海平均月薪10605元 全国最高;人人视频遭海外出版方集体起诉​;苹果或2024年推出iPhone高端机型Ultra...北京内推 | 微软亚洲研究院机器学习组招聘说话人脸生成方向研究实习生回国之旅,万一有人阳性了怎么办?时序分析五边形战士!清华提出TimesNet:预测、填补、分类、检测全面领先|ICLR 2023
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。