Redian新闻
>
音频秒生全身虚拟人像,AI完美驱动面部肢体动作!UC伯克利Meta提出Audio2Photoreal

音频秒生全身虚拟人像,AI完美驱动面部肢体动作!UC伯克利Meta提出Audio2Photoreal

公众号新闻



  新智元报道  

编辑:拉燕
【新智元导读】最近,来自Meta和UC伯克利的研究人员,发布了一种最新的音频到人像模型。操作简单,输出极致逼真。

就在最近,Meta和UC伯克利联合提出了一种全新的虚拟人物形象生成的方法——

直接根据音频生成全身人像,效果不仅逼真,还能模拟出原音频中包含的细节,比如手势、表情、情绪等等。

论文地址:https://arxiv.org/abs/2401.01885

话不多说,直接上图。

可以看到,人像刷地一下就出来了,十分逼真。
而且从上面的文字对话可以看到,就是在讲可以用音频生成虚拟人像这件事。讲者的手势动作真的像是在做讲解。

音频到Avatar,一步!


这个系统不光可以生成全身逼真的形象,人像还会根据二人互动的对话动态做出手势。
给定语音音频后,音频会为一个人输出多种可能的手势动作,包括面部、身体和双手等部位。
Meta表示,方法的关键就在于将矢量量化带来的样本多样性优势与通过扩散获得的高频细节相结合,从而生成更具动态和表现力的动作。
研究团队使用了高度逼真的人像,将生成的运动可视化。这些头像可以表达手势中的关键细微差别(如讥笑和傻笑)。
为了促进这一研究方向,Meta首次引入了一个叫作多视角对话数据集的玩意儿,可以让用户进行逼真的重建。
实验表明,Meta的新模型能生成恰当且多样化的手势,从性能上讲,要优于扩散和纯VQ的方法。
此外,在研究过程中,Meta在感知评估这一块强调了逼真度在准确评估对话手势中所包含的微妙运动细节方面的重要性。
Meta已将代码和数据集公开发布在了网站上。
具体来看,要实现这个最终结果,有以下6个步骤:
  1. 一个新颖、丰富的二元对话数据集,可以进行逼真的重构。

  1. 由三部分组成的运动模型:面部运动模型、引导姿势预测器和身体运动模型。


  1. 给定音频和预训练唇语回归器的输出,Meta训练一个条件扩散模型来输出面部运动。
  1. 对于身体部分,Meta将音频作为输入,并以1fps的速度自回归输出VQ-ed引导姿势。


  1. 然后,将音频和引导姿态传递到同一个扩散模型中,以30 fps的速度填充高频率的身体运动。


  1. 最后,生成的面部和肢体运动都会传入Meta训练过的人像渲染器,生成逼真的人像。


然后,成品就有了!
Meta在博客中列举了四个比较有特色的点,以此来凸显效果的逼真和模型的强大。
  1. 甩腕表示梳理要点;讲故事时耸肩。

  1. 表达「它们的发生肯定是有原因的」时,强调手臂的动作;用手指的动作来表示陈述。

  1. 通过手部动作来配合谈话,以及声音的起伏。


  1. 提问时手指的动作细节;想问题时头向后仰,做思考状;回答时手向外推。

论文


经过前面的介绍,整个流程大家估计已经很熟悉了。
无非就是,音频输入、中间过程,以及最终输出。
关于对话的原始音频,Meta引入了一个模型(上面提到过),该模型能为两人中的其中一人生成相应的逼真面部、身体和手部动作。
研究人员从记录的多视角数据中提取潜在表情代码来表示面部特征,并用运动骨架中的关节角度来表示身体姿势。
该系统由两个生成模型组成,在输入二人对话音频的情况下,生成表情代码和身体姿势序列。
然后,就可以使用Meta的神经人像渲染器,逐帧渲染表情代码和身体姿势序列。
首先,脸部与输入音频的相关性很强,尤其是嘴唇的运动,而身体与语音的相关性较弱。这就导致在给定的语音输入中,肢体手势的合理性更加多样化。
其次,由于在两个不同的空间(学习到的表情代码与关节角度)中表示面部和身体,因此它们各自遵循不同的时间动态。因此,研究人员选择用两个独立的运动模型来模拟面部和身体。这样,脸部模型就可以将其能力用于生成与语音一致的脸部细节,而身体模型则可以专注于生成多样但合理的身体运动。
此外,面部运动模型是一个扩散模型,以输入音频和由预先训练的唇部回归器生成的唇部顶点为条件,如下图所示。
对于肢体运动模型,Meta发现,仅以音频为条件的纯扩散模型产生的运动多样性较少,而且在时间上显得不可思议。
但是,当以不同的引导姿势为条件时,质量就会提高。
因此,Meta选择将身体运动模型分为两部分:首先,自回归音频条件变换器以 1fps 的速度预测粗略的引导姿势,然后扩散模型利用这些粗略的引导姿势来填充细粒度和高频运动。
为了从音频输入生成面部动作,Meta构建了一个以音频为条件的扩散模型,遵循DDPM对扩散的定义。
前向噪声过程定义为:
其中,F(0)近似于无噪声的面部表情代码序列,τ∈ [1, ... , T˙]表示前向扩散步骤,ατ∈ (0, 1) 遵循单调递减。当 τ接近T˙时,Meta对F(T˙)∼N(0, I)进行采样。
为了逆转噪声过程,Meta定义了一个模型,从噪声F(τ)中去噪F(0)。
然后,将前向过程应用于预测的F(0),就能得到反向过程的下一步F(τ-1) 。
而对于身体动作的模型,给定对话的输入音频后,自注意力模型P会生成多种多样的引导姿势序列样本,包括倾听反应、说话手势和插话。
P会从丰富的已学姿势代码库中采样,可生成各种姿势,甚至还有如指点、搔痒、鼓掌等小动作,在不同样本中具有很高的多样性。
然后,这些不同的姿势将被用于身体扩散模型J的条件。
实验阶段,Meta评估了模型有效生成逼真对话动作的能力。
研究人员根据跟踪的实况数据(F、J)对结果的真实性和多样性进行了定量评估。
同时还进行了感知评估,以证实定量结果,并衡量生成的手势在特定对话环境中的适当性。
评估结果表明,在逼真的头像上呈现的手势比在三维网格上呈现的手势更容易被评估者感知。
下图为基线和消融(ablation)与实况(GT)的对比。下箭头↓ 表示越低越好。
Meta对数据集中的所有受试者取平均值,并对Divsample的5个序列进行采样,并对每个指标的所有采样取平均值。下标为标准偏差(μσ)。
下图为唇部动作的误差。垂直和水平距离是上下和左右关键点之间沿Y(X)轴的距离。
下表中显示的是GT与生成距离之间的L2差值。Mesh L2指的是唇部区域生成网格顶点与GT网格顶点的误差。误差单位为平方毫米。
为了量化对话中的手势连贯性,Meta主要通过感知评估来评价。
研究团队在Amazon Mechanical Turk上进行了两种不同的A/B测试。在第一个测试中,评估者观看的是在普通非纹理网格上渲染的动作。在第二项测试中,评估者观看的是逼真人像上的运动视频。
在这两种情况下,评估者都观看了一系列视频对比。
在每对视频中,一个视频来自Meta的模型,另一个视频来自最强基线LDA或GT。然后,评估人员被要求根据对话音频找出看起来更合理的动作。
同时,可选答案还细化到了略微偏好与强烈偏好。
如下图所示,Meta引入的方法明显优于最强基准LDA,大约70%的评估者在Mesh和照片真实设置中都更喜欢Meta的成品。
有趣的是,当以逼真的方式可视化时,评估者对该方法的偏好从略微偏好转为了强烈偏好。
而当将Meta的方法与GT进行比较时,这一趋势仍在继续。
在基于Mesh的渲染中,Meta的方法与GT相比,同样具有竞争力,但在逼真领域却落后了。43%的评估者强烈倾向于GT而非Meta的方法。
由于Mesh通常会掩盖微妙的运动细节,因此很难准确评估手势中的细微差别,导致评估者会对不正确的运动更加宽容。
综上来看,结果表明,逼真度对于准确评估对话动作至关重要。
参考资料:
https://people.eecs.berkeley.edu/~evonne_ng/projects/audio2photoreal/




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
【2024】【Greenhous|6-9月排位】【步行伯克利/NEU|本科生】Fenway最火爆的高级公寓,隔断人均1800最美朝霞首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作【Allston | Studio | $2200】免中介费|近伯克利、NEU、BU|楼内洗烘|仅此一间!(3.24)2024 CSRankings美国「CS专业」排名!MIT跌出前5,UCSD比伯克利还牛......360度无死角!UC伯克利华人发布3DHM框架:一张图片即可模仿任意视频动作快忘掉UC伯克利小妖精!我是公立常春藤初始成员,性价比高!选我!【限时半中介费】【步行五分钟,多睡两小时】【24小时前台安保】【杂费全包】【伯克利/NEU/NEC】【Studio/1B/2B】【囧事】写一写囧故事UC伯克利「LLM排位赛」结果出炉!Claude 3追平GPT-4并列第一学生遭职场霸凌:UC伯克利AI实验室爆出惊天大瓜UC伯克利家长雇佣安保在校园巡逻,校方不满:真是有钱瞎操心!无中介费|2.1住|接本科生|近伯克利步行1分钟/NEU步行11分钟/BU步行15分钟studio 2600,包供暖和热水个人感慨之七十四 雄安新区半中介费|9.1入住|近NEU步行8分钟/伯克利步行13分钟优质studio 2350+,包水暖,可以养宠物【Fenway LEED金级认证豪华公寓】【东北/伯克利/BU/绿线】【室内洗烘】【Studio$3500起】接受本科生微软推出订阅服务Copilot Pro;腾讯人像生成器PhotoMaker开源;阿里云起诉山寨通义千问一审胜诉丨AIGC大事日报vivo S18抢新上线京东!影棚级人像,新年换机首选!接本科|包杂费|带家具|近NEU/BU/伯克利|新建豪华公寓Studio 2845+,1b 3705+,2B 5347+2月初入住| 近NEU/BU/伯克利|Fenway近年新建豪华公寓|STUDIO 3000顺着网线爬过来成真了,Audio2Photoreal通过对话就能生成逼真表情与动作接本科|包杂费|带家具|近NEU/BU/伯克利|新建豪华公寓Studio 2845+,1b 3705+,2B 4999+同样是30岁,为什么有人像18岁,有人像50岁再添2枚斯坦福,2024申请完美收官!3枚普林、2枚耶鲁、1枚哈佛、5枚哥大、17枚伯克利!Meta 新模型:如果我每14秒生成一个高清视频,好莱坞的各位要如何应对|「变压器」【2024全新翻新公寓6-9月排位开始啦!超高性价比NEU,伯克利同学实现步行上学|Studio$1950起享受高级公寓的物业】【租房】本科友好|包杂费家具|NEU/BU/伯克利|新建豪华公寓Studio2800+/1b3700+/2B4999+GPT-4绝对性能暴涨74.4%!UIUC苹果华人团队提出CodeAct,用Python代码统一LLM智能体行动【唱坛好声音】《我的楼兰》- 叉总艾茶战队PK现房|近期到9.1入住都有|近NEU/BU/伯克利|近年新建豪华公寓Studio 2885, 1B 3650 2B2B 5300CSRankings美国CS专业排名出炉!MIT跌出前5,UCSD比伯克利还牛......CVPR 2024 | 面部+肢体动画,一个框架搞定从音频生成数字人表情与动作免一个月|接本科|包杂费带家具|近NEU/BU/伯克利|新建豪华公寓Studio 2924+,1b 3625+,2B 4818+iPhone动嘴10秒P图!UCSB苹果全华人团队发布多模态MGIE,官宣开源人人可玩安安静静的日子,生日快乐
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。