Redian新闻
>
微软炸裂级单图生数字人,Sora同款思路,“比AI刘强东还真”

微软炸裂级单图生数字人,Sora同款思路,“比AI刘强东还真”

公众号新闻
梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

AI伪造真人视频,门槛再次降低。

微软发布一张图生成数字人技术VASA-1,网友看过直呼“炸裂级效果”,比“AI刘强东还真”。

话不多说,直接上一分钟演示视频:

做到以假乱真效果,不用针对特定人物训练,只要上传一张人脸图片、一段音频,哪怕不是真人也行

比如可以让蒙娜丽莎唱Rap,模仿安妮海瑟薇即兴吐槽狗仔队名场面。

或者让素描人像念华强台词。

在项目主页还有更多1分钟视频,以及更更多15秒视频可看。

不同性别、年龄、种族的数字人,用着不同的口音在说话。

根据团队在论文中的描述,VASA-1拥有如下特点:

  • 唇形与语音的精准同步

这是最基本的,VASA-1在定量评估中也做到了顶尖水平。

  • 丰富而自然的面部表情

不光做到让照片“开口说话”,眉毛、眼神、微表情等也跟着协调运动,避免显得呆板。

  • 人性化的头部动作

说话时适当的点头、摇头、歪头等动作,能让人物看起来更加鲜活、更有说服力。

总得来说,仔细看的话眼睛还有一些破绽,但已经被网友评为“迄今为止最佳演示”

然而更恐怖的是,整个系统推理速度还是实时级的。

生成512x512分辨率的视频,使用一块英伟达RTX4090显卡就能跑到40fps。

那么,Vasa-1是如何做到这些的呢?

3大关键技术,Sora同款思路

一句话概括:

不是直接生成视频帧,而是在潜空间中生成动作编码,再还原成视频。

是不是和Sora的思路很像了?

其实VASA-1的模型架构选择Diffusion Transformer,也与Sora核心组件一致。

据论文描述,背后还有3大关键技术:

人脸潜编码学习,这部分是高度解耦的。

团队从数百万个真实的说话视频中,学习到一个理想的人脸特征空间。

把身份、外观、表情、姿态等因素在隐空间里剥离开。这样一来,同一个动作就能驱动不同的脸,换成谁都很自然。

头部运动生成模型,这部分又是高度统一的。

不同于之前的方法分别建模嘴唇、眼神、眉毛、头部姿态等局部动作,VASA-1把所有面部动态统一编码,用Diffution Transfromer模型,也就是SORA同款核心组件,来建模其概率分布。

这样既能生成更协调自然的整体动作,又能借助transformer强大的时序建模能力,学习长时依赖。

比如给定一组原始序列(下图第一列),最终可以做到:

  • 用原始头部姿态,改变面部表情(第二列)

  • 用原始面部表情,改变头部姿态(第三列)

  • 用原始面部表情,生成全新的头部姿态(第四列)

最后是高效率推理

为了实现秒实时合成,团队对扩散模型的推理过程进行了大量优化。

此外,Vasa-1还允许用户输入一些可选的控制信号,比如人物的视线方向、情绪基调等,进一步提升了可控性。

AI造假成本越来越低了

被VASA-1效果震惊过后,很多人开始思考,把AI数字人做到如此逼真,发布这样一个技术真的合适吗?

毕竟用AI伪造音频视频诈骗的例子,我们已经见过太多。

就在2个多月前,还有一起假冒公司CFO开视频会议,直接骗走1.8个亿的案件发生。

微软团队也意识到了这一问题,并作出如下声明:

我们的研究重点是为数字人生成视觉情感,旨在实现积极的应用。无意创建用于误导或欺骗的内容。

然而,与其他相关内容生成技术一样,它仍然可能被滥用于模仿人类。

我们反对任何创造真实人物的误导性或有害内容的行为,并且有兴趣应用我们的技术来推进伪造检测……

目前VASA-1只发布了论文,看来短时间内也不会发布Demo或开源代码了。

微软表示,该方法生成的视频仍然包含可识别的痕迹,数值分析表明,距离真实视频的真实性仍有差距。

不上专业评估手段,肉眼看的话,仔细挑刺或直接对比真人视频,确实也能发现目前VASA-1演示视频中的一些瑕疵。

比如牙齿偶尔会变形。

以及眼神还不像真人那么丰富。(眼睛确实是心灵的窗户啊)

但是以“AIGC一天,人间一年”的进步速度来看,修复这些瑕疵恐怕也不用很久。

以及你能保证每时每刻都保持警惕分辨视频真假么?

眼见不再为实。默认不相信任何视频,成了很多人今天做出的选择。

不管怎么样,正如一位网友总结。

我们无法撤销已经完成的发明,只能拥抱未来。

论文地址:
https://arxiv.org/abs/2404.10667

参考链接:
[1]
https://www.microsoft.com/en-us/research/project/vasa-1/
[2]https://x.com/bindureddy/status/1780737428715950460

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
《牵手》仅仅只是开始刘强东数字人今天开启直播首秀;华为P70改名为Pura70;保时捷中国总裁首度回应“米时捷”……Meta发布Llama 3;山姆·阿尔特曼称GPT-6将成为通用工具;刘强东AI数字人开启直播|AIGC周观察第四十期宇宙人(1484期)同比增长5.3%;国家天文台人工智能工作组发布大模型“星语3.0”​;刘强东数字人今天将开启直播首秀刘强东AI数字人首场直播成交额超5000万元;奥特曼:通用人工智能不该被秘密构建,GPT-6将成通用工具丨AIGC日报傅平自传体回忆录(23)顺势而为,离开耶鲁OpenAI Sora负责人专访:20个问题深入研发细节,Sora仍是GPT-1时期“刘强东”直播常态化,数字人成本低至真人直播的10%女子躺座椅上不起致航班延误2小时,桂林航空回应;刘强东数字人首播破纪录丨大公司动态经销商:华为 Pura 70 现货已到/极越汽车回应员工购买小米汽车被开除/刘强东数字人直播成交额超 5000 万刘强东AI数字人首场直播:观看量超2000万,成交超5000万【如果完美】跟写蝶班以及诗坛众诗友们的唱和刘强东AI数字人首播,30分钟观看破千万;雷军回应爽文人生:不是高考状元、没有40亿;特斯拉大裁员:员工对赔偿满意|AI周报刘强东AI数字人首场直播:不到1小时观看量超2000万,整场成交额超5000万!刘强东数字人今天直播首秀;特斯拉被曝裁员1.4万人 | 金错刀日评一周资讯|雷军30天全网涨粉超450万;刘强东数字人京东直播首秀;遥望科技布局出海业务...雷军直播否认是“爽文男主”,单场直播涨粉超88万;刘强东数字人开启京东直播首秀,成交额超5000万 | 一周简讯Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂刘强东数字人将开启直播首秀;特斯拉全球裁员10%约1.4万人;保时捷中国总裁首度回应“米时捷”;理想辟谣车内摄像头拍摄不雅照片Stable Video 3D震撼登场:单图生成无死角3D视频、模型权重开放北京城墙上的格拉纳达【行香子】和白九、冠军侯、遍野微软「诈骗届」王牌框架,真到可怕!一张照片+音频即可生成数字人保时捷中国总裁首度回应“米时捷”;特斯拉被曝全球裁员超10%;刘强东数字人将开启直播首秀;华为P系列更名为“Pura”丨邦早报刘强东数字人今天开启直播首秀;保时捷总裁高情商回应「米时捷」;Vison Pro 版淘宝上线 | 极客早知道刘强东数字人首播破纪录!AI刘强东带货,能给数字人带来商业化吗?Vidu直逼Sora,生数科技:还说“中国sora”就太没想象力了【内附Vidu逐帧拆解】AI刘强东007带货,背后大模型也就10亿参数,京东:我家数字人平均水平刘强东数字人“分身”开启直播首秀丨大公司动态早鸟报|刘强东数字人将开启直播首秀;抖音有效粉丝数少于500的本地生活达人不能视频带货;华为官宣p系列品牌升级为pura...观潮周报 | 华为Pura 70系列正式首销;刘强东AI数字人首场直播整场成交额超5000万“数字分身”带货直播,刘强东凭什么敢第一个下场?外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生保时捷中国总裁回应「米时捷」/华为 Pura 70 系列官宣/刘强东 AI 数字人今日直播
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。