Redian新闻
>
微软刚刚发布了VASA-1:单张照片生成超现实真人视频,还没开源但是性能SOTA

微软刚刚发布了VASA-1:单张照片生成超现实真人视频,还没开源但是性能SOTA

科技
 夕小瑶科技说 原创
 作者 | 任同学

还记得阿里巴巴那个让照片说话的EMO项目吗?如果还没有看过相关的报道,可以看一下我们之前发过的文章哦:

比阿里EMO抢先开源!蔡徐坤“复出”唱RAP,腾讯AniPortrait让照片变视频,鬼畜区UP狂喜!看看哪家效果好

现在 Microsoft Research 推出了VASA-1项目,同样是单张人像照片+语音音频=超现实的说话脸视频,但是性能SOTA!

VASA-1 可实现精确的唇声同步,逼真的面部行为,自然的头部运动,并支持实时生成!

据作者报道,该 VASA-1 不仅能够产生与音频同步的嘴唇动作,而且还能够捕捉到大量的面部细微差别和自然的头部动作,从而有助于感知真实性和人物状态。

可以看到表情非常到位,特别是那灵活的小眼神!

相比之前的高启强普法视频,眼神、眉毛的动作显然要自然很多。

更好的可控性

VASA-1 的一个显著的特性是它可以接受可选信号作为条件,如主眼睛注视方向和头部距离,以及情绪偏移。这不仅增强了可玩性,重要的是动画效果更加自然!

▲不同主注视方向(前、左、右、上)下的生成结果
▲不同头距尺度下的生成结果
▲不同情绪(分别为中性、快乐、愤怒、惊讶)下的生成结果

非常优秀的分布外泛化能力

对于分布外的照片,比如油画、动漫中的人物,也一样可以让他或自然或鬼畜的说话!

实时生成高质量内容

不仅生成的效果非常逼真,VASA-1更是支持在离线批处理模式下以45fps的速度生成512x512大小的视频帧,在在线流媒体模式下可以支持高达40fps的视频帧,前延迟仅为170ms!

官方的展示demo中丝滑的生成过程以及丰富的可编辑选项都能看出这项工作的成熟度,真是把吃瓜群众都给看急眼了,究竟啥时候才能玩啊。

什么是VASA-1

区别于以往的方法,VASA-1不直接生成视频帧,而是根据声音和其他信号在潜在空间中生成整体面部动态和头部运动。

VASA-1 的面部解码器将这些动作潜在编码生成视频帧,同时也将从输入图像中提取的外观和身份特征作为输入。

在论文中,作者还研究了音频和头部姿态之间的同步性测量问题,并提出了一种新的度量方法,称为“Contrastive Audio and Pose Pretraining”(CAPP)分数。

据作者介绍,这个方法受到了CLIP模型的启发,它通过联合训练一个姿态序列编码器和一个音频序列编码器来工作,其目标则是预测输入的姿态序列和音频是否配对。其中的音频编码器是基于一个预训练的Wav2Vec2网络初始化的,而姿态编码器是一个随机初始化的6层 transformer。

该 CAPP模型在大约2000小时的真实生活音频和姿态序列上进行了训练,并且展示了强大的能力来评估音频输入和生成的姿态之间的同步程度。

或者正是通过这种音频和头部姿态的对齐预训练才使得 VASA-1具有这么逼真的生成效果吧!

怎么还不开源?

微软表示,在还不能避免技术滥用的情况下,他们不打算发布在线演示、API、产品、其他实现细节或任何相关产品,直到确定该技术将被负责任地使用。或者这也是阿里的 EMO 迟迟没有更新 github 的原因吧?那为啥腾讯就发布了捏?

参考资料

[1]https://x.com/bindureddy/status/1780737428715950460 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
快手版Sora「可灵」开放测试:生成超120s视频,更懂物理,复杂运动也能精准建模中国版 Sora 来了!一键生成 16 秒 1080P 视频,清华系团队能对标 OpenAI 吗?回家过年一张照片+音频=超逼真数字人视频!VASA-1模型拉开「实时交互」大幕看剧||这部剧里野心勃勃的千金贵妇,最像现实真豪门里的谁?刚刚,Alessandro Michele成为了Valentino新任创意总监!从印象派到超现实主义,52件艺术先驱珍贵原作,火热竞拍中中山大学与联想团队发布 ConsistentID,单张照片即可成为百变超人谷歌发布“Vlogger”模型:单张图片生成10秒视频我是如何击败标普500指数的?大批华人举家搬回中国! 直呼在澳生活艰难! 一张照片疯传网络, 数百墨尔本人排队领免费食物! 揭露当下的“悲惨现实”...Mamba再下一城!RSMamba:遥感图像分类性能SOTA!《南乡子 - 雨水》震惊!AI生成真人视频毫无瑕疵,台词随意变!HeyGen硬核升级数字人OpenAI颠覆导演!首批7个Sora超现实大片震惊好莱坞安省南部居民目睹破坏性风暴的超现实景象!人物照片+文字 = 定制化视频,腾讯光子开源ID-Animator人工智能通过单张雷达图像生成3D城市地图OpenAI CEO最新演讲:GPT-5性能远超GPT-4;媲美Sora,视频生成模型EMO上线通义APP丨AIGC日报Champ首发开源:人体视频生成新SOTA,5天斩获1k星,demo可玩凯特真人视频流出!网友:忽肿忽瘦,两周大变,你跟我说这是凯特?!纪录片级上甘岭解说(3小时43分长动画微软「诈骗届」王牌框架,真到可怕!一张照片+音频即可生成数字人46秒AI生成真人视频爆火,遭在线打假「换口型、声音」Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂男子海边救下4人后发救人视频,被救者让他删除未果报警阿里云突然发布全球最强开源模型 Qwen2,性能超越美国最强开源模型除了VSCode和JetBrains全家桶,小众开源IDE同样闪耀比阿里EMO抢先开源!蔡徐坤“复出”唱RAP,腾讯AniPortrait让照片变视频,鬼畜区UP狂喜!看看哪家效果好Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放还得是开源!潞晨Open-Sora技术路线公开,一键生成16秒720p视频,质量更高训练成本更低「Sora平替」来了!一键生成5秒视频,还免费,我们实测:很顶!开源日报 | 微软AI程序员登场,马斯克开源Grok;Open-Sora全面开源在度假牧场晨跑,参加纪念活动国内首个开源千亿参数MoE大模型来了!性能超Grok-1,单张GPU可跑
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。