Redian新闻
>
字节让达芬奇和蒙娜丽莎“隔空吵架”,只需一张图、一段音频、一个情感片段

字节让达芬奇和蒙娜丽莎“隔空吵架”,只需一张图、一段音频、一个情感片段

公众号新闻
允中 发自 凹非寺
量子位 | 公众号 QbitAI

AIGC在视频生成领域展现出非凡的潜力。近期, 字节跳动智能创作团队和得克萨斯大学达拉斯分校又提出了一项名为DREAM-Talk的基于扩散模型框架:接收一段驱动的音频序列、一张给定的人像图片和一个情感风格的例子(一段有情感的讲话面部视频)作为输入,就能生成一段逼真的、嘴唇同步的讲话面部视频,其中包含高质量的情感表达,连画像也能绘声绘色地进行表演,还支持多个语种。

(以下结果包括真实人类图像和由 AIGC 生成的图像。

DREAM-Talk 框架的流程如下:

首先,将音频映射到表情是一个一对多的问题,使得获得动态和真实的表情变得困难。

其次,生成一系列3D脸部表情参数涉及许多问题,如连续性和多样性。为了应对这些挑战,团队提出了基于扩散的模型,用于生成3D面部表情序列。以输入的音频、初始状态和情感风格作为条件,团队利用EmoDiff学习随时间去噪3D表情,使用基于Transformer的架构进行序列建模。初始状态对应于第一帧中的表情,情感风格由随机选择的表情片段定义,独立于输入音频。

从扩散模型获得动态情感表达后,团队观察到扩散网络无意中减少了音频的影响,导致音频和嘴形之间明显的不匹配。这种现象归因于扩散网络生成真实序列的倾向,从而减弱了音频的影响。为了纠正这个问题,团队引入了一个嘴唇同步细化网络,利用相同的音频和情感数据来重新校准并生成细化的嘴部参数。利用条件约束的音频和情感表达,嘴唇细化模型进一步优化口部动作,而不改变情感,之后使用blendshape生成相应的 3D 渲染面部。

最后,团队采用经过微调的Face-Vid2Vid模型生成情感讲话视频。具体来说,团队使用Face-Vid2Vid方法作为基本的神经渲染方法。此外,团队对模型进行了微调处理,使用精心挑选的高分辨率表达性讲话视频,来自TalkHead-1HK数据集,旨在提升表达性和渲染质量。

与最新方法的比较:在前两个比较中,团队分别对MEAD和HDTF数据集进行评估。在第三个比较中,团队使用一个由AIGC生成的面部。团队还将团队的Rig模型结果作为中间表示进行可视化。团队的方法在情感表达、嘴唇同步、身份保持和图像质量方面始终产生显著优越的结果。

多人物情感演示: 支持各种情感表达,如愤怒、快乐、悲伤、惊讶等。

跨越时空的对话演示: 达芬奇主要表现愤怒,而蒙娜丽莎则表现快乐。

多语言演示: 支持情感表情生成,包括中文、日语、法语、德语等。

了解更详细的信息:

Arxiv: https://arxiv.org/abs/2312.13578
Project page: https://magic-research.github.io/dream-talk/

关于字节跳动智能创作团队

智能创作团队是字节跳动AI&多媒体技术中台,覆盖了计算机视觉、音视频编辑、特效处理等技术领域,借助字节跳动丰富的业务场景、基础设施资源和良好的技术协作氛围,实现了前沿算法-工程系统-产品全链路的闭环,旨在以多种形式为公司内部各业务提供业界前沿的内容理解、内容创作、互动体验与消费的能力和行业解决方案。

目前,智能创作团队已通过字节跳动旗下的云服务平台火山引擎向企业开放技术能力和服务。更多大模型算法相关岗位开放中。

*本文系量子位获授权刊载,观点仅为作者所有。


—  —

量子位 QbitAI

վ'ᴗ' ի 追踪AI技术和产品新动态

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
无数澳洲人严重后悔! 早知道工党是这样, 还不如让达顿上世界名画《蒙娜丽莎》又遭抗议者“泼墨”热搜第一!《蒙娜丽莎》遭袭萧华:NBA将在加拿大扩军?温哥华和蒙特利尔成侯选 家门口看球赛不用抢直接入!拿下世纪龙钞、甲辰年特种邮票只需一步!春节聚会让娃露一手!30分钟就能独立演奏,价格只需一节线下课钱!李飞飞团队实现“隔空建模”,透过遮挡物还原完整3D人体模型最佳披萨何处寻?众望所归纽黑文。惊喜!蒙娜丽莎空降墨尔本!还能在太空看一场电影!墨尔本艺术盛宴来袭!澳洲机场一个细节让美国游客惊叹,我们重重关卡,你们就90秒就完了《蒙娜丽莎》,又遭“泼墨”10名孩子惨遭“隔空猥亵”!大多数不到8岁!这些话要尽早对娃说卢浮宫紧急疏散!蒙娜丽莎被袭击了...纽约一群黑命贵连抢7个报摊、一辆餐车、一个小卖部,抢走$13,000现金瑶池仙境为什么总有人破坏蒙娜丽莎“断崖式衰老”数列: 34岁 60岁 78岁 87岁 92岁 95岁 96岁 97岁 98岁SDE方向丨软件工程师求职上岸,只需一个计划!日本入境手续再简化!1月25日起只需一个二维码即可入境通关打造轻医美抗衰领域的达芬奇!立镁医疗发力轻医美智能化机器人平台达芬奇的求职信价值上亿《蒙娜丽莎》又被袭!环保人士抗议升级,世界名画成了“人质”…女子嫁给澳洲老公,一个家庭细节让她崩溃!网友热议:我家也一样阿里版「马良神笔」来了,轻轻一抹让蒙娜丽莎对你微笑不用抢直接入!拿下龙币龙钞只需一步,世纪龙钞、甲辰年特种邮票全收藏!第113章 红袖招美国生活——房子这些问题可以不用花钱,1只需一分钟即可解决!小米的PPT,只有一张丑图和一段文字,这样排版太高级了!前途尽毁!芝加哥大学本科生全职offer被撤,只因发了一张图片……巴黎卢浮宫遭袭:激进分子向达芬奇名画《蒙娜丽莎》泼洒番茄汁!眼镜总起雾,只需一块布!出门擦一遍,视野清晰一整天不用 20 张图!一张图就能生成 AI 头像,这个来自中国团队的项目太好用了不用抢直接入!拿下龙币龙钞甲辰年特种邮票只需一步女子嫁给澳洲老公,一个家庭细节让她崩溃!引发网友热议:我家也一样长篇小说《谷雨立夏间》31 至忠堂
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。