Redian新闻
>
爆火「视频版ControlNet」开源了!靠提示词精准换画风,全华人团队出品

爆火「视频版ControlNet」开源了!靠提示词精准换画风,全华人团队出品

公众号新闻
明敏 丰色 发自 凹非寺
量子位 | 公众号 QbitAI

“视频版ControlNet”来了!

让蓝衣战神秒变迪士尼公举:

视频处理前后,除了画风以外,其他都不更改。

女孩说话的口型都保持一致。

正在插剑的姜文,也能“下一秒”变猩球崛起了。

这就是由全华人团队打造的最新视频处理算法CoDeF,发布才几天,迅速在网上爆火。

网友们看了直呼:

这一天天的,虚实分辨越来越难了!

只需要自己拍点东西,然后覆盖上去,就能变成各种各样的动画了。

有人说,只需给它一年时间,就能被用在电影制作上了。

这马上引来其他人的肯定:技术发展真的非常疯狂、非常快。

目前,团队已将这一方法在GitHub上开源。

姿势不变,画风“皮套”随便换

之所以会被称为是“视频版ControlNet”,主要原因在于CoDeF能够对原视频做到精准控制。

(ControlNet实现了根据提示词精准控制图像元素改变,如人物动作、图像结构等)

根据给到的提示词,它仅改变视频的画风,而且是针对完整视频。

比如输入“Chinese ink painting”,风景纪录片能秒变国风水墨大作。

包括水流也能很好跟踪,整个流体动向都没有被改变。

甚至一大片穗子,在原视频里怎么摆动,改变画风后频率和幅度也如出一辙。

在画风改变上,CoDeF也做了很多细节处理,让效果更加逼真合理。

“由春入冬”后,原本有涟漪的河流静止了,天空中的云彩被换成了太阳,更加符合冬日景象。

霉霉变成魔法少女后,耳环被换成了发光宝石,手里的苹果也换成了魔法球。

这样一来,让电影角色一键变老也简单了许多。

皱纹可以“悄无声息”上脸,其他一切都没有变化。

所以,CoDeF是怎么实现的呢?

可跟踪水和烟雾,跨帧一致性更强

CoDeF是英文“the content deformation field”的缩写,即作者在此提出了一种叫做内容形变场的新方法,来用于视频风格迁移任务

比起静态的图像风格迁移,这种任务的复杂点在于时间序列上的一致性和流畅度。

比如处理水、烟雾这种元素,两帧画面之间的一致性非常重要。

在此,作者“灵机一动”,提出用图片算法来直接解决视频任务。

他们只在一张图像上部署算法,再将图像-图像的转换,提升为视频-视频的转换,将关键点检测提升为关键点跟踪,而且不需要任何训练

这样一来,相较于传统方法,能够实现更好的跨帧一致性,甚至跟踪非刚性物体。

具体而言,CoDeF将输入视频分解为2D内容规范场(canonical content field)和3D时间形变场(temporal deformation field):

前者用于聚合整个视频中的静态内容;后者则负责记录图像沿时间轴的每个单独帧的转换过程。

利用MLP(多层感知器),每个场都用多分辨率2D或3D哈希表来表示。

在此,作者特意引入了正则化,来保证内容规范场能够继承原视频中的语义信息(比如物体的形状)。

如上图所示,这一系列设计使得CoDeF可以自动支持各种图像算法直接应用于视频处理——

也就是只需利用相应算法提取出来一张规范图像,然后通过时间形变场沿着时间轴传播结果即可。

比如,给CoDeF“套上”本用于图片处理的ControlNet,就可以完成视频风格的“翻译”(也就是我们开头和第一段看的那一堆效果)

“套上”分割一切算法SAM,我们就能轻松做到视频的对象跟踪,完成动态的分割任务:

“套上”Real-ESRGAN,则给视频做超分也是信手拈来……

整个过程非常轻松,不需要对待操作视频进行任何调整或处理

不仅能处理,还能保证效果,即良好的时间一致性和合成质量。

如下图所示,相比去年诞生的Layered neural atlas算法,CoDeF能够呈现非常忠于原视频的细节,既没有变形也无破坏。

而在根据文本提示修改视频风格的任务对比中,CoDeF全部表现突出,不仅最匹配所给要求,也有着更高的完成度。

跨帧一致性则如下图所示:

一位一作刚本科毕业

这项研究由香港科技大学、蚂蚁团队、浙江大学CAD&CG实验室共同带来。

共同一作有三位,分别是欧阳豪、Yujun Shen和Yuxi Xiao。

其中欧阳豪为港科大博士,师从陈启峰(本文通讯作者之一);本科导师为贾佳亚。曾在MSRA、商汤、腾讯优图实验室实习过,现在正在谷歌实习。

另一位是Yujun Shen,也是通讯作者之一。

他是蚂蚁研究所的高级研究科学家,主管交互智能实验室,研究方向为计算机视觉和深度学习,尤其对生成模型和3D视觉效果感兴趣。

第三位一作为Yuxi Xiao才刚刚从武大本科毕业,今年9月开始在浙大CAD&CG实验室读博。

他以一作身份发表的论文Level-S2fM: Structure from Motion on Neural Level Set of Implicit Surfaces,被CVPR2023接收。

论文地址:
https://arxiv.org/abs/2308.07926

项目地址:
https://qiuyu96.github.io/CoDeF/

参考链接:
https://twitter.com/LinusEkenstam/status/1692492872392626284

「中国仿生机器人产业全景报告 · 量子位智库」下载

AGI 的火热发展为仿生机器人的实现补全了最后一块拼图,仿⽣机器⼈将在技术创新和商业模式上迎来新周期。量子位智库发布《中国仿生机器人产业全景报告》,扫描下方二维码即可查看并下载完整报告。

9月6日,我们将在北京举办仿生机器人行业沙龙,欢迎感兴趣的企业联系活动负责人王琳玉,联系方式见下方。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
推理效率比ControlNet高20+倍!谷歌发布MediaPipe Diffusion插件,「移动端」可用的图像生成控制模型实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了第三章 旧文明的社会组织 (1)数学能力超ChatGPT,70B开源大模型火了:用AI微调AI,微软全华班出品5097 血壮山河之武汉会战 浴血田家镇 5AI在玩一种很新的艺术,700万网友在线围观,ControlNet又立功了Xbox Series X 1TB Console with controller 羊驼家族大模型集体进化!32k上下文追平GPT-4,田渊栋团队出品Like new PlayStation 4 Pro white 1 TB with one controller nǚ hóng?nǚ gōng「Meta版ChatGPT」背后的技术:想让基础LLM更好地处理长上下文,只需持续预训练北交大TransGPT,开源了!【老键曲库】Daniel Lozakovich – Tchaikovsky: Six Pieces, Op. 51, TH 14Xbox one S 512g white and one controller 陈天奇TVM团队出品:A卡跑大模型,性能达到4090的80%,价格仅一半探索 prompt 编码范式:如何优雅构建测试代码生成提示词?时尚圈爆火「松弛感美女」,不会系丝巾的夏天,不时髦4G显存低配畅玩AIGC!ControlNet作者新作登顶GitHub热榜,小白点3次就出图ICCV'23论文颁奖“神仙打架”!Meta分割一切和ControlNet共同入选,还有一篇让评委们很惊讶视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩,老罗:打钱ControlNet、「分割一切」等热门论文获奖,ICCV 2023论文奖项公布爆火Llama 2一周请求下载超15万,有人开源了Rust实现版本ICCV 2023 中国遥遥领先!华人拿下最佳论文和最佳学生论文!SAM和ControlNet开启CV新纪元!午夜惊魂 冷明ICCV2023奖项出炉!斯坦福ControlNet和多伦多大学分别获得最佳论文!Segment Anything最佳提名​下一代Transformer:RetNet结构可视化及Vision RetNet展望新项目爆火,GPT 开源了!综艺后期狂喜:编辑一帧,整个视频跟着变!比LNA渲染快5倍,Adobe联合出品只需1%参数,效果超越ControlNet,新AI绘画控制大师来袭从提示词开发到图像内容解析,全球用户都在用他们的产品 | 专访 Jina AI 何烜彬大模型搅拌机来了!把11个AI的结果融合输出,艾伦研究所华人团队出品Gastroenterology | 片仔癀新作用!香港中文大学于君团队发现​片仔癀抑制结直肠癌的发生拒绝花架子!盘点ChatGPT最强的七个插件:写提示词、学外语、总结视频,让ChatGPT做你的私人秘书在野猪笼落下那一刻想到的如何调教AI给你打工?提示词(Prompt)的秘密
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。