Redian新闻
>
梵高大跳科目三,只需文字+火柴人动效!可控视频生成框架来了 | AAAI 2024

梵高大跳科目三,只需文字+火柴人动效!可控视频生成框架来了 | AAAI 2024

公众号新闻
马跃 投稿
量子位 | 公众号 QbitAI

视频生成还可以这么玩?

来一个“火柴人”做做动作示范,再加文本描述,即可让各种形象惟妙惟肖地跟着动起来。

比如男人在公园椅子上做远眺姿势:

钢铁侠街边起舞:

蝙蝠侠也不闲着,水上打拳:

形象数量可以随意添加:

风格也能任意切换(上:新海诚,下:梵高)

如此看下来,让任意一个八杆子打不着的形象跳个科目三,也是简简单单了。

如上成果便是不久前入选了AAAI 2024的姿态全可控视频生成框架:Follow-Your-Pose

出自清华大学、香港科技大学、腾讯AI Lab以及中科院。

相关代码已在GitHub揽获800颗标星。

有网友惊叹,有了它:

TikTok/抖音的舞蹈将永远花样百出。

那么以下,为作者投稿内容,一起来看看它具体是如何做到的吧。

姿势可控的角色视频生成来了

现如今,生成文本可编辑和姿势可控的角色视频在创建各种数字人方面具有迫切的需求。

然而,由于缺乏一个全面的、具有成对的视频-姿态-文本的生成数据集,从而使这项任务受到了限制。

在这项工作中,研究团队设计了一种新颖的两阶段训练方案,该方案可以利用易于获得的数据集(即图像姿势对和无姿势视频)和预训练的文本到图像(T2I)模型来获得姿势可控的角色视频。

具体来说,在第一阶段,只有姿态图像对仅用于可控的文本到图像生成。

团队学习了一个零初始化的卷积编码器来对姿态信息进行编码。

在第二阶段通过添加可学习的时间自注意力和改革后的跨帧自注意力块,用无姿势视频数据集对上述网络的运动进行微调。

在团队新设计的支持下,该方法成功地生成了连续的姿势可控的角色视频,同时保留了预训练的T2I模型的概念生成和合成能力。

具体来说,该两阶段训练策略,可有效地从研究团队提出的LAION-Pose数据集中学习图像姿势对齐,并从没有姿势注释的自然视频中学习时间相干性。

在第一阶段训练中,只有姿态编码器Ep可以训练来学习姿态控制。

在第二阶段训练中,只有时间模块是可训练的,包括时间自注意力(SA)和跨帧自注意力。

在推理过程中,通过提供描述目标角色和相应外观的文本以及表示运动的姿势序列来生成时间连贯的视频。

预训练稳定扩散的大多数参数都被冻结,包括伪 3D 卷积层以及交叉注意力(CA)和前馈网络(FFN)模块。具体框架结构如下。

为了进一步保持时间一致性,研究团队利用帧间自注意力(SA)来进行交叉帧处理。

不同的是,他们通过简单地在DDIM的上一次采样过程中重复使用每个时间步长的噪声,来生成更长的视频序列。

具体而言,假设每次采样T帧,将最后T帧的噪声添加到下一个2个循环中,作为先验知识。

需要注意的是,在整个去噪过程中,为了确保生成的长视频的时间一致性,会将每个时间步长的噪声添加到先验知识中。

如框架图所示,所提出的方法仅调整了用于视频生成的帧间自注意力和时间自注意力。

通过以上两阶段的训练,结合为每个阶段精心设计的可调节模块,研究团队所提出的方法可以从轻松获得的数据集(例如人体和姿势的图像对以及随机视频)中生成连续的姿势可控视频。

总结

这篇工作主要解决了生成文本可编辑且姿势可控制的角色视频的问题。

为实现这一目标,作者重新设计和调整了预训练的文本到图像模型,因为它具有强大的语义编辑和组合能力。

并设计了一个新的两阶段训练方案,可以利用大规模的图像姿势对和多样化的无姿势数据集。

具体而言,在第一训练阶段,使用姿势编码器将姿势信息注入网络结构,并从图像-姿势对中学习,以实现姿势可控的文本到图像生成。

在第二训练阶段,研将图像模型扩展为3D网络,从无姿势视频中学习时间上的连贯性。

通过研究团队的几项新设计,所得框架可以生成具有新颖创意和时间上连贯的视频,同时保留原始T2I模型的概念组合能力。

论文: 
https://arxiv.org/abs/2304.01186
代码:
https://github.com/mayuelala/FollowYourPose
更多效果: 
https://follow-your-pose.github.io/

—  —

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
NeurIPS 2023 | 模仿人类举一反三,数据集扩增新范式GIF框架来了集体当吗喽上台跳科目三,抽到总裁共进晚餐券…年会再不停,打工人心跳先停了?海底捞尬捧的“科目三”,我只看到打工人的辛酸...个人感慨之六十四 指明方向海底捞“科目三”全网爆火:对不起,这次我真的笑不出来!阿尔特曼称GPT-5提升超想象;库克在中国首谈生成式AI;字节推出视频生成新模型丨AIGC大事日报“科目三”后,又一爆款视频火遍全网,画风逐渐失控…无需文本标注,TF-T2V把AI量产视频的成本打下来了!华科阿里等联合打造因为它,马斯克和兵马俑都跳起了《科目三》复刻Sora的通用视频生成能力,开源多智能体框架Mora来了图领域首个通用框架来了!入选ICLR'24 Spotlight,任意数据集、分类问题都可搞定|来自华盛顿大学&北大&京东外国小哥花8年用70万根火柴还原埃菲尔铁塔!结果因为买错火柴全都作废?编码数据集生成框架 UnitGen 0.4.0:代码文档生成、测试代码生成Pika、Gen-2、ModelScope、SEINE……AI视频生成哪家强?这个框架一测便知兵马俑跳《科目三》,是我万万没想到的原创音乐江湖曾经的血雨腥风,已在“科目三”中握手言和个人感慨之六十一 艰难探索海底捞员工跳“科目三”被顾客嫌吵,网友:都是为了生活2024 rav4 油车 le四驱在海底捞吃了76w是什么体验?!网友:给你科目三跳到骨折海底捞爆红的「科目三」,打工人看了只觉得心酸海底捞科目三、肯德基皮挞…|案例一周Runner’s Tradition——2024 Opening为什么我们要跳科目三【美坛综艺秀假日篇】Best wishes for 2024!学分镜会画火柴人就行?AI视频年大爆发!Gen-2/Pika成时代爆款,2023年AI视频生成领域的现状全盘点“科目三”爆火!又有人跳进医院,医生紧急提醒→马斯克也逃不过「科目三」,阿里这个应用都要把外国人馋哭了个人感慨之六十二 反腐法国人不好好考科目一,难道是想考“科目三”?科目三还没消停,科目四咋又来了?中式文化入侵?外网疯狂刷屏的海底捞舞蹈为啥叫科目三《十七帖》读议(一)个人感慨之六十三 真相已经对这个到处是科目三的世界绝望了CVPR 2024 | 面部+肢体动画,一个框架搞定从音频生成数字人表情与动作Strong start 2024New Year's fireworks 2024 LIVE: NYC's Times Square ball drop伴娘不够 弟弟来凑?山西新娘让他俩穿裙「代打」大跳科目三
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。