Redian新闻
>
AI视频「闪烁」难题攻破!轻松改变视频风格,北大校友一作

AI视频「闪烁」难题攻破!轻松改变视频风格,北大校友一作

公众号新闻
萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

AI拍视频,竟然已经丝滑到这个程度了吗?

输入一段视频,念上一段“咒语”,AI瞬间就能秒懂,并当场给你把视频重画一遍:

不仅完美hold住各类风格,最关键的是,帧帧丝滑流畅。

就连建筑物这种细节较多的视频,也几乎看不出“AI出品”的bug:

目前,无论是拍视频还是制作动画,依靠的都是“关键帧”。如果帧与帧之间联系不紧密,就会出现这种诡异的“闪烁画风”——

而这也是AI生成视频最大的瓶颈之一。

现在,来自南洋理工大学的团队,终于解决了这个问题,研究在推特上掀起了不小热度:

那么,这究竟是如何做到的?

如何让AI拍的视频不“闪烁”?

AI生成视频会“闪烁”,本质上是前后帧不连贯导致的。

举个例子,这是同一个视频中截取的两帧画面:

用AI根据这两帧“重绘”图像,乍一看问题不大,细节上却有不少差异。

例如,一帧生成的人物头上有“金色发带”,另一帧中却消失了:

这样一来,看似AI生成的几十帧图像风格差不多,连起来细节差异却非常大,视频也就容易出现闪烁现象:

为此,研究人员提出了一种新框架,,核心是提升AI生成视频时帧与帧之间的连贯性。

这个框架包含关键帧翻译(key frame translation)和完整视频翻译(full video translation)两部分。

第一部分基于扩散模型生成关键帧,基于跨帧约束加强这些关键帧之间的一致性;第二部分则通过基于时间感知的匹配算法将其他帧与关键帧“连接”起来。

框架的核心,在于第一部分。

研究人员给这部分提出了一种新的分层跨帧一致性约束方法,在原视频基础上,利用光流来约束帧与帧之间的关系。

其中,第一帧相当于整个视频的“锚点”,用于控制视频的整体走向;后续的每一帧,则都会以前一帧作为参考,防止生成的图像偏离最初的风格、形状、纹理和颜色等。

至于视频生成模型,核心采用的则是Stable Diffusion+ControlNet的组合,但经过了改进。

如下图所示,红色虚线是原本Stable Diffusion等扩散模型采样过程,黑色线条则是经过调整后的过程:

当然,在不同的采样阶段,跨帧约束也不一样,包括形状感知、像素感知等。

相比之前的AI视频生成模型,这个框架最大的优势在于,当输入一个新视频的时候,它不需要再用这个视频材料重新进行训练,换而言之就是零样本学习。

只需要输入一段提示词+一段视频,框架就能自动将视频“翻译”出你想要的效果。

例如,这是团队利用改进后的框架,重新生成的一段相同风格视频,和改进前的扩散模型相比,几乎看不出闪烁了:

14秒生成一张关键帧

所以,生成一段视频是否需要很长时间?

至少从生成帧的效率来看,速度还是不慢的,其中关键帧和Stable Diffusion出图的速度差不多,平均在14.23秒左右;非关键帧就非常快了,每帧只需要1.49秒

如果视频不长、甚至只有十几帧的话,不到一分钟就能搞定一段视频的转换。

作者们将这个新框架和之前的几类文生视频框架进行了对比,包括FateZero、vid2vid-zero、Pxi2Video和Text2Video-Zero等,显然新框架目前是最流畅、鬼影也最少的:

不仅仅是单纯的“视频翻译”,作者们还展示了提示词对于视频生成的控制效果。

例如在相同输入下,只要更改一段提示词中的“关键字”,AI就能在几乎不改动其他元素的情况下,生成一段新的视频,例如换个发型、换种风格,或是将狗头换成狐狸头:

除此之外,作者们还请来了23名志愿者,对新框架生成的视频质量进行了综合评分,评估指标有三个,分别是提示词和输入帧的关联度、时间一致性和视频整体质量。

结果显示,这个框架在“人类评分”中均取得了不错的水平:

一作北大校友

四位作者均来自南洋理工大学。

一作杨帅,南洋理工大学助理教授,本科和博士毕业于北京大学,目前的研究方向是基于人像的编辑、文本风格化、图像翻译等。

周弈帆,南洋理工大学研究工程师,本科毕业于北京理工大学,拿过ACM-ICPC金牌,研究方向包括文本挖掘、基于机器学习重建入射光场等。

刘子纬,南洋理工大学助理教授,香港中文大学博士,研究方向是计算机视觉、机器学习和计算机图形学等。

Chen Change Loy,南洋理工大学和香港中文大学副教授,他的研究兴趣集中在计算机视觉和深度学习方向,包括图像、视频恢复和生成,以及表征学习等。

目前这个项目的代码还没开源,不过论文表示“会有的”。

实测效果如何,我们可以期待一波。

项目地址:
https://anonymous-31415926.github.io/

论文地址:
https://arxiv.org/abs/2306.07954

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「电商零售」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
《乘梦去飞》&《江南柳》“地板价”5折起!唯美国风珠宝杀疯了!轻松拿捏各式穿搭(520提前购)海外同行热议:写实画面VS卡通风格,到底有没有高下之分?像相机一样变焦、填充画面细节,还能自定义风格,AI作画神器Midjourney又更新了团丨春夏刚需,折扣低到爆!轻松从头美到脚!「好人」难当?私搭浮桥案背后的民间生意理想狂奔,「大哥」难当图片+音频秒变视频!西交大开源SadTalker:头、唇运动超自然,中英双语全能,还会唱歌首次突破!3位博士生一作!女孩们从小就喜欢的风格,她竟然一一实现了!ICML杰出论文开奖,北大数院、武汉理工校友获奖,苹果大模型相关研究入选华尔街Studio$32xx起,中世纪风格,楼下就是纽交所「高端烘焙」难割年轻人告春鸟、春告鸟海外众筹超 1600 万!轻松出行的“隐形”包包,通勤健身旅行必备校友活动丨擦亮花火 共创未来:清华经管EMBA黑龙江校友会走进校友企业活动圆满落幕盛夏大放价|| FILA斐乐短袖T任选3件99元包邮!轻松省下几百元!ICML2023杰出论文大幅减少至6篇,北大、武理工校友获奖,大模型水印受青睐改变现在的性格,你会活得更轻松吗?遇罗克,中华的马丁.路德. 金火星乐园第三部《灰界》第六章 末日精英已团13万单|只要9块8!轻松搞定小学英语语法的「思维导图」和「2米中国历史卷轴」今天,ChatGPT「代码解释器」正式解禁!30秒图片变视频,动嘴做表 | 十大惊人魔法全集从“北大人”到“新农人”,这位北大校友和妻子的创业故事获总书记勉励!北大元培校友论文获ICML时间检验奖,Hinton弟子一作,生成式AI成今年热门获奖理由健行北大校友、哈工大青椒去世,年仅31岁ICML 2023杰出论文奖放榜!北大校友一作斩获大奖,华人作者参与三篇,DeepMind苹果纷纷获选校友活动丨清华经管EMBA山东校友会校友企业参访系列活动休斯顿消防部门招新!轻松拿到$5000奖金回北大,看一场北大十佳决赛!校友专属领票通道已开启故事教学法!轻松培养低龄孩子的英文读写能力!奇耻大辱!滑大计算机专业号称顶尖,学校网站竟被黑客攻破!高考659分文科状元考进北大!临开学却被拒,北大放出狠话:绝不要这样的学生Meta重新定义多模态!北大校友共同一作,70亿参数文生图模型击败Diffusion
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。