国际科技财经博客移民网络热点娱乐民生时事公众号

>

因为它，马斯克和兵马俑都跳起了《科目三》

因为它，马斯克和兵马俑都跳起了《科目三》

2024-01-05 10:01

一张照片就能让马斯克、梅西等各大名人魔性跳舞，甚至连火爆全网的科目三都能安排上。

这可不是什么高深 AI 技术，阿里通义千问移动端新增的「全民舞王」功能就能实现，还有科目三、DJ 慢摇、鬼步舞、极乐劲舞等 12 种热门舞蹈模版供你挑选。

在通义千问输入「全民舞王」「通义舞王」等口令，接着在跳转界面里选择你喜欢的舞蹈、上传一张全身照，只需十几分钟，一个形神兼备的舞王就这样华丽「速成」了。

十分钟教会马斯克跳科目三

想不到，浓眉大眼的爱因斯坦也能秒变潮男，动作节奏感简直不要太强。

图片来自：Simon_阿文

兵马俑和舞王只差了一张照片，这架势可不是盖的。

手办届的舞王称霸，怎么能忽视我「亚洲舞王」尼古拉斯赵四呢？

图片来自：共富财经

随手一画的小人物都跳得比我还欢，看来我得去报个舞蹈班才行。

图片来自：叨哥胡侃

蜡笔小新「搔首弄姿」，童年瞬间回来了。

图片来自：盼花dog

让照片「活」起来的 AI 魔法

那阿里的 AI 研究团队是怎么让照片动起来的呢？

通义舞王功能的发布，实际上是 AnimateAnyone 技术的一个具体应用和落地。

据阿里 AI 研究团队发布的论文介绍，目前，扩散模型是视觉生成研究领域的主流，但在图像到视频的生成领域中，依然存在局部失真、细节模糊、帧率抖动等问题。

对此，阿里的 AI 研究团队在扩散模型的基础上，提出了一种新的 AI 算法 Animate Anyone。这个算法的功能是将一个静态的人物图像转换成一个动画视频，同时可以通过输入姿势的顺序来精确控制视频中的人物动作。

手翻书原理展示. 图片来自：@翻页书安迪Andymation

需要说明的是，在视频制作特别是动漫制作中，人物的动作是通过逐帧过渡完成的，原理类似于小时候经常玩的手翻书，每一页都是静态的手绘稿，快速翻动就能通过人眼「视觉暂留」的 BUG 让画面动起来。

而想要让一张图片动起来，最大的难点来自「脑补」接下来的动作和场景，并且前后都没有参照物。所以官方的对比展示中，可以看到传统技术「DisCO」被作为反面教材反复鞭打，其严重的失真效果只能做到让主体动起来，但扭曲的身型和奇怪的动效完全称不上作品。

因此，为了解决视频人物形象一致性的问题，他们引入了参考图像网络 ReferenceNet，它可以捕获参考图像中的空间细节信息。

然后，他们将 ReferenceNet 与 UNet 结合，让 UNet 可以理解在生成目标图像时应该在哪些位置生成怎样的细节，这样就可以使生成的图像在整体上去除噪音的同时，保留参考图像中的关键细节，实现人物形象的一致性。

除了细节的捕捉以外，还要确保姿态的可控性。为此，阿里 AI 团队还设计了一种轻量级的姿态引导器 Pose Guider，在去噪过程中集成姿态控制信号，以确保生成的动画序列符合指定的姿态。

考虑到视频的稳定性问题，他们还引入了时序生成模块，目的是让模型可以学习帧与帧之间的联系，这样生成的视频才会流畅连贯，而不是割裂开来，同时还可以保持高分辨率细节，让画质变得更好更稳定。

比起以前的方法，该方法能够有效保持了视频人物外观的一致性，不会出现诸如衣服颜色变来变去等问题，同时视频流畅清晰，不会闪烁抖动，并且还支持对任意角色进行动态化。

例如，梅西玩转中老年最爱的顶流范儿，和你抬手打招呼。

二次元角色以静化动，跳起宅舞来丝毫不逊色真人。

连钢铁侠都加入热闹，一起强身健体，活动活动筋骨，也没啥毛病。

在 AI 视频生成领域，阿里背后的技术积累远不止这些，比如上个月，阿里还发布了另一项视频生成技术 DreaMoving。这是一种基于扩散的可控视频生成框架，用于生成高质量的定制化人像视频。

这项技术的优势在于，无需深入了解复杂的视频制作技术，使用者只需给定一些引导，比如一段文字或一张参考图像，DreaMoving 就能够创造出高度逼真的视频。

也就是说，只要给定目标身份和姿势序列，DreaMoving 可以根据姿势序列生成，任何人/物在任何地方跳舞的视频。

简单点理解，DreaMoving 可以通过简单地输入，比如人脸图片、动作序列和文本，就可以自动生成各种定制化的人物视频，实现对视频生成的精确控制。

具体的拆解步骤：先输入一个人的面部图片，来生成这个人的整个身体在视频中的形象，接着输入姿势的顺序，来精确控制人物在视频里的动作，最后输入文本来更全面地控制视频的生成效果。

例如，一个女孩，微笑着，站在海边的沙滩上，穿着浅黄色的长袖连衣裙。

一名男子在埃及金字塔前跳舞，身穿西装，打着蓝色领带。

一个女孩，穿着浅蓝色长裙，在法国小镇微笑着跳舞

AI 视频生成行业卷疯了

事实上，在生成式 AI 的赛道中，AI 视频生成领域的起点并不算太晚，在 ChatGPT 横空出世之前，就已经有不少厂商押注该赛道，诸如微软、Google 等都曾推出过类似的 AI 视频生成工具，但效果甚微。

立足于整个行业长期的技术积累之上，扩散模型的出现让厂商们看到了 AI 视频生成的潜在前景。相比 RNN 等早期模型有明显优势，它可以生成更连贯、清晰的图像或视频序列，加速了视频生成的迭代过程。

市面上的主流工具也在此基础上大作加法，让 AI 视频生成赛道再起波澜，真正呈现出惊人的爆发之势。

去年年底，Runway Gen-2 迎来一波大更新，分辨率提升至 4K，视频生成效果的保真度和一致性迎来重大突破，一周后，又再次推出运动画笔功能，轻轻一刷，便能让静态事物动起来。

紧接着，文生图的「扛把子」Stability AI 也发布 Stable Video Diffusion，给 AI 视频生成领域再添一把旺火。

而 Pika 1.0 则凭借更简单的视频生成，浅显易懂的视频局部编辑，更高质量的视频生成，刚出道便获得一众硅谷大佬的青睐。从生成到后期，仅靠自己就能完成一条龙操作。

李飞飞团队和 Google 合作推出的 W.A.L.T 模型，也同样可以根据自然语言/图片提示，生成逼真的 2D/3D 视频或动画，生成效果更是媲美 Runway、Pika 等一众好手。

这些 AI 视频生成工具主要在两个维度上有了长足进步——质量和数量。在质量上，这些 AI 产品不断引入更强大的模型架构，使用更大规模、更高质量的数据进行训练，使得 AI 生成的视频画质、流畅度、逼真度等都在持续提升。

在数量上，生成的视频长度也在不断内卷，朝着两位数的秒数长度突破，场景和事件组合也日益丰富。未来在算力进一步提升的情况下，生成长达数小时的高质量视频也将成为可能。

飘在云上的技术终究还是落地应用，AI 视频生成的崛起将会诞生一个巨大的蓝海市场。依托技术的深厚积累，通义千问的「全民舞王」的上新，也是基于这套商业逻辑的又一落地产物。

这不仅可以打开与阿里与其他企业的竞争，促使整个行业加速进步，也让我们有机会亲身体验更多 AI 视频生成技术所带来的种种可能。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

整活! 海底捞再创“神话”, “科目三”风靡全球…马斯克也逃不过「科目三」，阿里这个应用都要把外国人馋哭了科目三没有微信支付，回国怎么办？海底捞尬捧的“科目三”，我只看到打工人的辛酸...法国人不好好考科目一，难道是想考“科目三”？游客向兵马俑坑内吐痰扔烟头？景区发声导游讲解兵马俑爆红！网友：本来要划走，结果认真看了两遍海底捞“科目三”全网爆火：对不起，这次我真的笑不出来！特拉华州内穆尔庄园(Nemours Estate)，怀抱秋天 “科目三”爆火！又有人跳进医院，医生紧急提醒→“科目三”突然爆火，有人2天增粉20万！有服务员因此月入过万？海底捞回应…热身 8点1氪：斗鱼陈少杰被捕后多位大主播已停播；连撞11车特斯拉车主发声；海底捞回应跳科目三服务员月薪过万老外也跳《科目三》社会摇？果真中国土味引领世界......吐槽：皮肤科大夫奇缺；HRA/HSA/FSA “科目三”突然火了！医生紧急提醒→刷屏的海底捞舞蹈，为什么叫“科目三”刷屏的海底捞舞蹈，为什么叫“科目三”？“科目三”大火！有家长吐槽引热议，医生提醒……装修记（小说）红色日记汇报打架 7.16-25 海底捞的“科目三”舞蹈，怎么就火了？全网都在模仿的「科目三」，梅西、钢铁侠、二次元小姐姐马上拿下为了科目三，多少海底捞小哥崴了脚？海底捞又整活了！科目三是潮流还是聒噪？科目三还没消停，科目四咋又来了？跳科目三竟然触发了奶奶的驱魔技能？帅哥员工齐跳科目三，社会摇成了海底捞的新流量密码兵马俑跳《科目三》，是我万万没想到的中式文化入侵？外网疯狂刷屏的海底捞舞蹈为啥叫科目三海底捞员工跳“科目三”被顾客嫌吵，网友：都是为了生活游客朝兵马俑坑扔烟头？景区通报海底捞爆红的「科目三」，打工人看了只觉得心酸海底捞“科目三”被吐槽；滴滴司机8公里收费1540元 | 金错刀日评海底捞科目三、肯德基皮挞…|案例一周 BB鸭 | 魅族21正式发布；iPhone 16显示屏及尺寸曝光；海底捞回应禁跳“科目三”；抖音封禁多个百万粉丝矩阵号

热点事件追踪