Redian新闻
>
微软刚刚发布了VASA-1:单张照片生成超现实真人视频,还没开源但是性能SOTA

微软刚刚发布了VASA-1:单张照片生成超现实真人视频,还没开源但是性能SOTA

科技
 夕小瑶科技说 原创
 作者 | 任同学

还记得阿里巴巴那个让照片说话的EMO项目吗?如果还没有看过相关的报道,可以看一下我们之前发过的文章哦:

比阿里EMO抢先开源!蔡徐坤“复出”唱RAP,腾讯AniPortrait让照片变视频,鬼畜区UP狂喜!看看哪家效果好

现在 Microsoft Research 推出了VASA-1项目,同样是单张人像照片+语音音频=超现实的说话脸视频,但是性能SOTA!

VASA-1 可实现精确的唇声同步,逼真的面部行为,自然的头部运动,并支持实时生成!

据作者报道,该 VASA-1 不仅能够产生与音频同步的嘴唇动作,而且还能够捕捉到大量的面部细微差别和自然的头部动作,从而有助于感知真实性和人物状态。

可以看到表情非常到位,特别是那灵活的小眼神!

相比之前的高启强普法视频,眼神、眉毛的动作显然要自然很多。

更好的可控性

VASA-1 的一个显著的特性是它可以接受可选信号作为条件,如主眼睛注视方向和头部距离,以及情绪偏移。这不仅增强了可玩性,重要的是动画效果更加自然!

▲不同主注视方向(前、左、右、上)下的生成结果
▲不同头距尺度下的生成结果
▲不同情绪(分别为中性、快乐、愤怒、惊讶)下的生成结果

非常优秀的分布外泛化能力

对于分布外的照片,比如油画、动漫中的人物,也一样可以让他或自然或鬼畜的说话!

实时生成高质量内容

不仅生成的效果非常逼真,VASA-1更是支持在离线批处理模式下以45fps的速度生成512x512大小的视频帧,在在线流媒体模式下可以支持高达40fps的视频帧,前延迟仅为170ms!

官方的展示demo中丝滑的生成过程以及丰富的可编辑选项都能看出这项工作的成熟度,真是把吃瓜群众都给看急眼了,究竟啥时候才能玩啊。

什么是VASA-1

区别于以往的方法,VASA-1不直接生成视频帧,而是根据声音和其他信号在潜在空间中生成整体面部动态和头部运动。

VASA-1 的面部解码器将这些动作潜在编码生成视频帧,同时也将从输入图像中提取的外观和身份特征作为输入。

在论文中,作者还研究了音频和头部姿态之间的同步性测量问题,并提出了一种新的度量方法,称为“Contrastive Audio and Pose Pretraining”(CAPP)分数。

据作者介绍,这个方法受到了CLIP模型的启发,它通过联合训练一个姿态序列编码器和一个音频序列编码器来工作,其目标则是预测输入的姿态序列和音频是否配对。其中的音频编码器是基于一个预训练的Wav2Vec2网络初始化的,而姿态编码器是一个随机初始化的6层 transformer。

该 CAPP模型在大约2000小时的真实生活音频和姿态序列上进行了训练,并且展示了强大的能力来评估音频输入和生成的姿态之间的同步程度。

或者正是通过这种音频和头部姿态的对齐预训练才使得 VASA-1具有这么逼真的生成效果吧!

怎么还不开源?

微软表示,在还不能避免技术滥用的情况下,他们不打算发布在线演示、API、产品、其他实现细节或任何相关产品,直到确定该技术将被负责任地使用。或者这也是阿里的 EMO 迟迟没有更新 github 的原因吧?那为啥腾讯就发布了捏?

参考资料

[1]https://x.com/bindureddy/status/1780737428715950460 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
刚发布就被对标Sora,这个国产模型来头这么大?Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂Mamba再下一城!RSMamba:遥感图像分类性能SOTA!Champ首发开源:人体视频生成新SOTA,5天斩获1k星,demo可玩除了VSCode和JetBrains全家桶,小众开源IDE同样闪耀开源日报 | 微软AI程序员登场,马斯克开源Grok;Open-Sora全面开源46秒AI生成真人视频爆火,遭在线打假「换口型、声音」大选还没开始,外国元首轮番来美拜见川普… 这是为川普第二任期做准备的节奏嘛人工智能通过单张雷达图像生成3D城市地图一张照片+音频=超逼真数字人视频!VASA-1模型拉开「实时交互」大幕微软「诈骗届」王牌框架,真到可怕!一张照片+音频即可生成数字人Suno v3音乐生成模型发布,几秒钟生成完整歌曲;富士通用生成式AI加速药物研发丨AIGC日报硅谷恐慌:Open AI发布全新视频模型Sora!现实,不存在了国内首个开源千亿参数MoE大模型来了!性能超Grok-1,单张GPU可跑《南乡子 - 雨水》OpenAI颠覆导演!首批7个Sora超现实大片震惊好莱坞在度假牧场晨跑,参加纪念活动凯特真人视频流出!网友:忽肿忽瘦,两周大变,你跟我说这是凯特?!纪录片级上甘岭解说(3小时43分长动画复刻Sora的通用视频生成能力,开源多智能体框架Mora来了OpenAI CEO最新演讲:GPT-5性能远超GPT-4;媲美Sora,视频生成模型EMO上线通义APP丨AIGC日报Open-Sora 全面开源升级:支持单镜头16s视频生成和720p分辨率回家过年我是如何击败标普500指数的?震惊!AI生成真人视频毫无瑕疵,台词随意变!HeyGen硬核升级数字人大结局!"消失的凯特王妃" 终于露面!一张照片击碎所有阴谋论...谷歌发布“Vlogger”模型:单张图片生成10秒视频这是刚发布的人形机器人?不,分明是《午夜凶铃》现实版Open-Sora全面开源升级:支持16s视频生成和720p分辨率Open-Sora 全面开源升级:支持 16s 视频生成和 720p 分辨率英伟达最强通用大模型Nemotron-4登场!15B击败62B,目标单张A100/H100可跑刚刚,Alessandro Michele成为了Valentino新任创意总监!中国版 Sora 来了!一键生成 16 秒 1080P 视频,清华系团队能对标 OpenAI 吗?比阿里EMO抢先开源!蔡徐坤“复出”唱RAP,腾讯AniPortrait让照片变视频,鬼畜区UP狂喜!看看哪家效果好Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。