Redian新闻
>
《嬛嬛朕emo啦》但马斯克!阿里这项技术开放试玩

《嬛嬛朕emo啦》但马斯克!阿里这项技术开放试玩

科技
衡宇 梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

等了7分多钟,刚从北京闪现闪离的马斯克,他终于夸我是个人才:

好了,别骂诈骗,我全都招!

现在登录通义App(原通义千问),选择全民演唱功能,只需上传任意一张人物正面大头照,你也能玩儿了。

这个功能开放不到一周时间,但经量子位观察,还挺火。

热度一直没掉下去,关键是生成时间也跟热度一起高居不下,顺利的话几分钟生成的小视频,挤的时候排队能排出好几个小时开外,亏得是阿里云服务器没被挤爆(不是)

从国内外的网友分享反馈来看,大家还挺喜欢文艺复兴,最受欢迎的片段是让个路人马轮番演唱《野狼Disco》。


除了唱歌,还能把朋友放进(非)著名表情包念台词。

玩儿梗的人太多,以至于马斯克都给搞EMO了:

而这背后的“始作俑者”,就是来自阿里通义实验室的EMO,继Sora之后热度第二高的AI视频项目。

如今一个月过去,星标数已经直奔7k而去。

趁此热度,我们也得到了一个与EMO背后大佬,阿里通义实验室XR实验室负责人薄列峰当面催更的机会。

他表示在放心把技术开源之前,首先还是要解决安全问题。

负责人讲解背后技术

距项目公开仅2个月,通义实验室团队就直接将这一技术免费开放,但所有人都可以在通义APP(原通义千问)体验全新的AIGC玩法。

如果你想亲自上手试试,打开对话输入“EMO”直达或进入“频道”选择“全民舞台”即可。

选择喜欢的音频片段,并上传一张大头照。

如果在热门时段,需要等待40分钟到几个小时不等,但其实主要是在排队。薄列峰透露,单纯生成10秒视频,只需要10-15分钟

对于上传的照片,系统首先会进行人脸检测,不过有些长得太像人的动物也能顺利蒙混过关!

比如撞脸莫言的小狗,就成功地骗过了系统。

但是撞脸余华的小狗就没那么幸运了,系统一下子就把它给识破了(没有任何对余华老师不敬的意思)。

为什么只需要上传一张图就能立即做到逼真效果?

薄列峰介绍,EMO的核心思路是“弱控制设计”,无需对整个面部建模,这一点甚至体现在了论文标题上。

在生成过程中,面部定位器(Face Locator)用来编码面部的边界框区域。

速度编码器Speed Encoder)确保头部运动的速度与音频的节奏和强度相匹配。

这些控制机制被称为“弱控制”是因为它们提供的控制不是强制性的或硬性的,而是允许一定程度的自然变化和表现力。

例如,面部区域控制器并不严格限定面部的具体位置,而是给出了一个允许面部运动的较大区域。同样,速度控制器并不精确控制每一帧的速度,而是提供一个速度范围,让生成的头部运动接近但不一定完全符合指定的速度水平。

通过使用这些弱条件,EMO框架能够在保持角色身份一致性的同时,生成具有丰富表情和自然头部运动的视频,从而在表达性和逼真度方面取得更好的效果。

比起传统的分别针对眼睛鼻子嘴等部位的建模方案,EMO更着重考虑整个面部的联合运动,最终效果也就可以做到自然流畅了。

另外薄列峰还透露,选择这个技术路线也是出于实用性、普及性的考虑。

一张图、一段音频,每个人都非常容易获取,门槛低一些,让大家都能玩起来。

关于EMO的技术选择,薄列峰还透露了一个消息。

虽然EMO使用传统基于U-net的扩散模型架构,但Pipeline是解耦的,如果后续尝试Sora同款DiT架构做到更好效果的话,也可以轻松切换过去

对于未来发展方向,EMO目前只做了人头,将来还会扩展到半身、全身。到时候,能实现一张照片让人物同时唱跳RAP篮球也说不定。

高于平均水平的AIGC内容才会被消费

在此之前,EMO背后通义实验室所推项目中,最火的是与EMO一脉相承的Animate Anyone模型。

代表杰作:奶牛猫跳舞

算法原理上,EMO和Animate Anyone都采用了Backbone + ReferenceNet的结构,实现有参考图像引导的去噪生成过程。

其中,Animate Anyone在实现了保留特定对象ID的生成式模型的基础上,进一步证明可以通过一些输入控制信号控制生成内容,特别是人物的动作。

所以其实背后团队是专注数字人的团队,没想到在通义App上包装成“全民舞王”后,大家对动物玩法更感兴趣。

一个多月前,团队还在全民舞王针对小猫小狗等动物主体检测做了一半优化,使上传动物照片的通过率大幅度提升。

即使检测出来用户上传的是动物,只要通过了骨骼检测,啥小动物都可以起来嗨。

“现在技术确实可以生成很多的图片、视频,但如果他们都是平均甚至低于平均水平,大家不见得有兴趣去消费。”薄列峰笑道,奶牛猫跳舞确实很妖娆,“这给我们把链路打通带来更多的思考——把简单高质量的内容,通过新技术去实现可能。”

聊天最后,薄列峰还给大家推荐了一个EMO的私房玩法:

可以试试拿自己5岁、10岁、15岁……的照片,自己对话,自己合唱。

值得一试哟~

— 联系作者 —

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
燃油运送车作弊事件Kimi连续宕机打醒巨头!阿里百度360连夜出手长文本,大模型商业化厮杀开始了对不起星巴克!麦当劳新出的冷萃咖啡!真的赢麻了!坦克长得像个球、5个炮塔互相打架,过去居然有这么多奇怪坦克!跟马斯克生仨娃后,前女友官宣新恋情!边恋爱,边跟马斯克打官司…清晨的城市护肤;锻炼;英语说车;何赛飞谈原生家庭时落泪马斯克打脸OpenAI,全球最大巨无霸模型Grok-1开源!3140亿参数8个MoE,GitHub狂揽6k星又涨了!金饰价格逼近700元/克!多家银行紧急上调积存金“门槛”,有人手握9斤金条坚决不卖突发!阿里女总经理曝职场性丑闻山东老人名叫“支付宝”,起诉马云索赔百万,官司输了但马云暖心“认软”比阿里EMO抢先开源!蔡徐坤“复出”唱RAP,腾讯AniPortrait让照片变视频,鬼畜区UP狂喜!看看哪家效果好王文涛部长会见苹果公司CEO库克!库克此前外滩“偶遇”郑恺,还见了王传福拜登召集奥特曼和李飞飞等入AI安全委员会,没带马斯克!库克考虑将iPhone AI服务委托给OpenAI实现首次工程应用!这项技术,我国成功掌握简直诈骗!加拿大超市缺斤少两,一袋培根少了100克!网友支招:以后买菜都得带个秤...“黑鬼”!拉斯维加斯学生课堂上辱骂老师,被暴打至休克!结果黑人老师被开除!学生们愤而不平...小米汽车 2 个小时的发布会,我用阿里这个 AI 神器一键记录总结精选SDE岗位丨Western Digital、Motorola、Siemens等公司开放岗位!吃瓜请前排占座!阿里拍卖被裁女高管再爆被性骚扰和职场霸凌,其下属发言或迎反转“华尔街神嘴”狂赞马斯克 马斯克喊话巴菲特 “买特斯拉吧”核心业绩受挫,但马斯克一句话“拯救”了特斯拉Jo Malone罕见75折!Myprotein蛋白粉2折!阿迪/Lululemon半价!突发!阿里巴巴宣布:撤回菜鸟上市申请!270亿元收购股东及员工持股小姐姐按不同的emoji表情,丝滑变声演唱《Fly me to the moon》太好听了....“中国首父”但凡多读点书,就会知道四郎是被嬛嬛neng死的马斯克是如何成为Meme教父的AI早知道|Figure发布第一个OpenAI大模型加持的机器人demo;零一万物全面开放笛卡尔向量数据库搜索内核你认识“滇”字吗?“黑鬼”!学生课堂上辱骂老师,被暴打至休克!结果黑人老师被开除!学生们愤而不平...斥资67亿!阿里巴巴再现“万人大搬迁”...【解字】善,善哉做好三件事,接住618的泼天富贵!阿里妈妈增长秘籍大公开马斯克放弃自动驾驶?特斯拉CV负责人被曝离职,马斯克急澄清跟马斯克生仨娃后 前女友边恋爱边跟马斯克打官司…
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。