字节让达芬奇和蒙娜丽莎“隔空吵架”，只需一张图、一段音频、一个情感片段

2024-01-12 09:01

允中发自凹非寺
量子位 | 公众号 QbitAI

AIGC在视频生成领域展现出非凡的潜力。近期，字节跳动智能创作团队和得克萨斯大学达拉斯分校又提出了一项名为DREAM-Talk的基于扩散模型框架：接收一段驱动的音频序列、一张给定的人像图片和一个情感风格的例子（一段有情感的讲话面部视频）作为输入，就能生成一段逼真的、嘴唇同步的讲话面部视频，其中包含高质量的情感表达，连画像也能绘声绘色地进行表演，还支持多个语种。

（以下结果包括真实人类图像和由 AIGC 生成的图像。）

DREAM-Talk 框架的流程如下：‍

首先，将音频映射到表情是一个一对多的问题，使得获得动态和真实的表情变得困难。

其次，生成一系列3D脸部表情参数涉及许多问题，如连续性和多样性。为了应对这些挑战，团队提出了基于扩散的模型，用于生成3D面部表情序列。以输入的音频、初始状态和情感风格作为条件，团队利用EmoDiff学习随时间去噪3D表情，使用基于Transformer的架构进行序列建模。初始状态对应于第一帧中的表情，情感风格由随机选择的表情片段定义，独立于输入音频。

从扩散模型获得动态情感表达后，团队观察到扩散网络无意中减少了音频的影响，导致音频和嘴形之间明显的不匹配。这种现象归因于扩散网络生成真实序列的倾向，从而减弱了音频的影响。为了纠正这个问题，团队引入了一个嘴唇同步细化网络，利用相同的音频和情感数据来重新校准并生成细化的嘴部参数。利用条件约束的音频和情感表达，嘴唇细化模型进一步优化口部动作，而不改变情感，之后使用blendshape生成相应的 3D 渲染面部。

最后，团队采用经过微调的Face-Vid2Vid模型生成情感讲话视频。具体来说，团队使用Face-Vid2Vid方法作为基本的神经渲染方法。此外，团队对模型进行了微调处理，使用精心挑选的高分辨率表达性讲话视频，来自TalkHead-1HK数据集，旨在提升表达性和渲染质量。

与最新方法的比较：在前两个比较中，团队分别对MEAD和HDTF数据集进行评估。在第三个比较中，团队使用一个由AIGC生成的面部。团队还将团队的Rig模型结果作为中间表示进行可视化。团队的方法在情感表达、嘴唇同步、身份保持和图像质量方面始终产生显著优越的结果。

多人物情感演示: 支持各种情感表达，如愤怒、快乐、悲伤、惊讶等。

跨越时空的对话演示: 达芬奇主要表现愤怒，而蒙娜丽莎则表现快乐。

多语言演示: 支持情感表情生成，包括中文、日语、法语、德语等。

了解更详细的信息：

Arxiv: https://arxiv.org/abs/2312.13578
Project page: https://magic-research.github.io/dream-talk/

关于字节跳动智能创作团队

智能创作团队是字节跳动AI&多媒体技术中台，覆盖了计算机视觉、音视频编辑、特效处理等技术领域，借助字节跳动丰富的业务场景、基础设施资源和良好的技术协作氛围，实现了前沿算法-工程系统-产品全链路的闭环，旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。

目前，智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。

*本文系量子位获授权刊载，观点仅为作者所有。

— 完 —