Redian新闻
>
CVPR 2024 | 闻声识人黑科技!从音频中想象出说话人脸,FaceChain团队出品

CVPR 2024 | 闻声识人黑科技!从音频中想象出说话人脸,FaceChain团队出品

公众号新闻

本文提出了一个新的说话人脸生成任务,即直接从音频中想象出符合音频特征的多样化动态说话人脸,而常规的该任务需要给定一张参考人脸。具体来说,该任务涉及到两个核心的挑战,首先如何从音频中解耦出说话人的身份(性别、年龄等语义信息以及脸型等结构信息)、说话内容以及说话人传递的情绪,其次是如何根据这些信息生成多样化的符合条件的视频,同时保持视频内的一致性。


为了解决上述问题,我们首先挖掘了三个人脸相关要素之间的联系,设计了一个渐进式音频解耦模块,以此降低解耦难度,并且提高了各个解耦因子的准确性。


对于第二个挑战,我们基于 Latent DIffusion Models(LDMs)提出了一个可控一致帧生成模块,因此继承了 LDMs 的多样化生成能力,并设计了相应模块将音频中的信息准确的表达在生成的动态人脸上,缓解了 LDMs 可控性差的局限。充分的定量和定性实验证明了 FaceChain-ImagineID 可以有效且灵活地实现提出的新任务。

论文题目:

FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio

论文链接:

https://arxiv.org/abs/2403.01901



动机

当人们没有面对面交流时,当听到对方的声音时,往往会脑补出相应的画面,对方是一个怎么样的人,在说什么话,说话的情绪怎么样,我们将这个现实场景抽象为 Listening and Imagining。


为了实现这个新的任务,直接使用现有技术有以下两个问题:一个是如何从复杂的音频中解耦出人脸相关的各个因子。


我们首先分析了音频和人脸之间的天然联系。明显的下巴和突出的眉脊通常伴随着低沉的声音,而女性和儿童的音调通常更高;说话内容和局部的嘴唇运动有关系;说话情绪和人脸的全局运动有关系。目前的研究要么只关注了说话内容和情绪,要么只关注了身份信息,并没有方法能够准确地从音频中解耦以上三个特征。


另一个仅仅用一个网络既能实现视频间的多样化,又能保证视频内的一致性。人的想象力是无穷的,同一段音频我们可以想象出很多符合条件的说话人视频,而视频内又是连贯。


其中一个方式是将 LDMs 和 SadTalker 等主流说话人生成进行结合,另一个是借助 text-to-video 框架,但是前者涉及到两个独立的模型,往往不能达到最优的效果,而后者很难实现完全的可控,并且这些方法都没有考虑音频信息。所以,一个新的框架来适配这个任务显得尤为重要。



方法

两个模块的主图如下:

渐进式音频解耦模块:该模块使用 3DMM 作为先验,并采用渐进式的方式逐步解耦每一个因子。我们设置身份,内容,以及情绪作为解耦顺序,其内部的逻辑在于身份相对独立,内容仅仅和嘴巴运动相关,情绪和全局面部运动相关,遵循了简单到复杂,局部到整体的逻辑。


具体的,我们先从身份编码器中编码身份语义,并预测人脸结构相关的形状系数。接下来,我们将身份编码冻结,引入可训练的内容编解码器,其中融合了第一阶段输出的形状系数,预测得到表情无关的仅仅和嘴巴运动相关的系数。


最后,将身份和内容编码器冻结,引入新的可训练的情绪编解码器,其中融合了前面两个阶段输出的身份和内容特征,预测完整的表情系数,同时提供解耦的情绪表征。


可控一致帧生成模块:为了满足多样化的生成,LDMs 是一个很好的结构。但是作为交换,它在可控生成方面相对较弱。


想要不引入两个离线模块来实现多样且一致的说话人脸生成,我们需要解决两个问题,一个是在不牺牲多样化生成的基础上,即冻结 LDMs,怎么保证生成的视频内容和给定的条件对齐,第二个是怎么实现帧间的平滑过度,实现高度的时序平滑。针对第一个问题,我们设计了以下三个模块:


Textual Inversion Adapter:该模块负责将语音中推理得到的身份和情绪语义特征,它的核心是 inversion 技术,其将输入的语义特征映射到 CLIP 域的 word tokens,两者合并后输入到 CLIP 文本编码器得到最终的表征,该表证通过 cross attention 的方式注入到 UNet 主网络。


Spatial Conditional Adapter:该模块负责将显式的空间条件注入到主网络,它的核心借鉴了 T2I-Adapter。首先 3D Mesh 包含了音频对齐的人脸结构信息,即脸型,嘴唇运动以及表情风格,另外随机采样一张同源的参考图片提供人脸的外观以及背景。


上述两个条件对常规方法已经足够了,但是对于冻结的 LDMs,很难学习很复杂的运动。因此我们进一步引入了嘴巴区域掩盖的相邻帧来提供运动信息,从而降低了形变的学习难度,掩盖嘴巴的目的是防止网络走捷径。


Masked-guided Blending Adapter:该模块负责保证生成视频的背景一致性,它主要作用在 VAE 中。具体的,我们将 VAE decoder 的人脸区域特征和 VAE encoder 的背景区域特征进行融合,由膨胀的 mask 作为引导。我们只在 512 分辨率上进行该操作,此时上线了最优的背景一致以及融合边缘的和谐。


以上阐述了设计的可控一致帧生成模块包含了变化的以及不变的生成能力,我们进一步的将其和自回归长视频生成机制 Autoregressive Inference 进行结合。如下算法图所示,对于第一帧生成,我们将可控一致帧生成模块为变化的模式,即只接收从音频中推理得到的身份语义和身份结构。


对于接下来的帧,我们切换为不变的模式,进一步的将参考人脸、相邻帧以及背景图融入进来,从而实现一致的长视频生成。其中参考人脸固定为第一帧,背景图也是从第一帧中提取的。



实验

3.1 与SOTA相比

我们和 SOTA 方法进行定性和定量比较。具体的,首先和最近的 audio-to-face 方法 CMP,如下图所示,我们的结果有更准确的几何结构,包括脸型,嘴唇运动,情绪风格,以及更真实的纹理。

其次和主流的说话人生成方法 Wav2Lip,PC-AVS,EAMM,以及 SadTalker,我们的方法也表达出了更准确的表情、更好的音画一致性以及更高的视频质量。

对应的定量实验见下表:

3.2 分析性实验

如下图所示,为了验证人脸各个元素的解耦性,我们采样了两张人脸,并且将两者对应的说话内容,身份语义以及情绪风格进行交换,可以看到我们的方法可以改变期望改变的因子而保持其他的因子不变

进一步的,我们做了定性实验来证明身份解耦的合理性。我们随机采样了四个音频,其中涵盖不同的性别和年龄,并且根据身份语义检索数据集中最相近的几个视频,如下图所示,检索得到的视频和查询的视频有接近的性别和年龄。为了验证情绪解耦的效果,我们可视化了情绪语义的 t-sne 图,可以看到不同的情绪之间远离,而同一个情绪聚集在特定区域。




更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型智利海景,波浪印象CVPR 2024 | 港理工联合OPPO提出统一且通用的视频分割大模型又到一年报税时还得是抖音,字节推出竖屏视频理解数据集,入选CVPR2024CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题CVPR 2024 | DrivingGaussian:环视动态自动驾驶场景重建仿真CVPR、AAAI、ICLR 2024优秀论文!Niu Niu's A Journey to Overcoming Fear & Forming ConnectionsCVPR 2024 | 北大&电子科大提出RCBEVDet:毫米波雷达-相机多模态的感知架构强!从音乐制作人到千亿买方Quant工,被哥大学长帅到了...CVPR 2024 | 更高效、更准确的拖拽编辑 Drag Your Noise健康投资项目总结我的健康厨房- 无面粉无添加糖核桃饼干CVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型CVPR 2024 | OmniParser:统一图文解析模型:文字检测识别、视觉信息抽取和表格识别CVPR 2024 | 中大哈佛等提出全新训练方法CLoT,探究大模型幽默创新力CVPR 2024满分论文,英伟达开源BOP排行榜6D物体姿态第一名方法CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度美坛活动【Poem Reading Tuesday】My Doggy Ate My Essay by Darren Sardel7B开源数学模型干翻千亿GPT-4,中国团队出品量价时空TOP10*动能美股精选*2024_01_25_晚报 * URI,ADT,TEX,DAL,GRPN,NFLX,VLO,CCVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务CVPR 2024 中科院自动化所36篇入选!新主干/多模态/3D视觉/自动驾驶等全都有!又帅又强!从音乐制作人到千亿买方Quant工,被这个哥大学长惊到了...CVPR 2024 | 中科大&微软提出:迈向更统一的上下文视觉理解Sabalenka vs. Zheng: Australian Open 2024 women's finalCVPR 2024 | SAM-6D:分割一切遇见零样本6D位姿估计强!从音乐制作人到千亿买方Quant工,被哥大学长惊到了...CVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRF精度最高降幅60%!SOTA只是假象?CVPR 2024为你揭示CLIP和LLaVA-Next等模型“骗局”!强!从音乐制作人到千亿买方Quant工,被这个哥大学长帅到了…CVPR 2024 Workshop "非接触健康监测",邀你来投稿!CVPR 2024 | 面部+肢体动画,一个框架搞定从音频生成数字人表情与动作低谷时不要灰心大三本科生在CVPR 2024上发表论文!CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoTCVPR 2024 | 北大提出HoT:高效3D人体姿态估计新框架2024 新一批裁员浪潮,你的公司上榜了吗?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。