Redian新闻
>
视频生成新高度!Meta提出Make-A-Video,网友:我已跟不上AI发展速度...

视频生成新高度!Meta提出Make-A-Video,网友:我已跟不上AI发展速度...

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—> CV 微信技术交流群

鱼羊 Alex 发自 凹非寺
转载自:量子位(QbitAI)

画家执笔在画布上戳戳点点,形成手绘作品独有的笔触。

你以为这是哪部纪录片的画面?

No,No,No!

视频里的每一帧,都是AI生成的

还是你告诉它,来段“画笔在画布上的特写”,它就能直接整出画面的那种。

不仅能无中生画笔,按着马头喝水也不是不可以。

同样是一句“马儿喝水”,这只AI就抛出了这样的画面:

好家伙,这是以后拍视频真能全靠一张嘴的节奏啊……

不错,那厢一句话让AI画画的Text to Image正搞得风生水起,这厢Meta AI的研究人员又双叒给生成AI来了个超进化。

这回是真能“用嘴做视频”了:

AI名为Make-A-Video,直接从DALL·E、Stable Diffusion搞火的静态生成飞升动态。

给它几个单词或几行文字,就能生成这个世界上其实并不存在的视频画面,掌握的风格还很多元。

不仅纪录片风格能hold住,整点科幻效果也没啥问题。

两种风格混合一下,机器人在时代广场蹦迪的画面好像也没啥违和感。

文艺小清新的动画风格,看样子Make-A-Video也把握住了。

这么一波操作下来,那真是把不少网友都看懵了,连评论都简化到了三个字母:

而大佬LeCun则意味深长地表示:该来的总是会来的。

毕竟一句话生成视频这事儿,之前就有不少业内人士觉得“快了快了”。只不过Meta这一手,确实有点神速:

比我想象中快了9个月。

甚至还有人表示:我已经有点适应不了AI的进化速度了……

文本图像生成模型超进化版

你可能会觉得Make-A-Video是个视频版的DALL·E。

实际上,差不多就是这么回事儿

前面提到,Make-A-Video是文本图像生成(T2I)模型的超进化,那是因为这个AI工作的第一步,其实还是依靠文本生成图像。

从数据的角度来说,就是DALL·E等静态图像生成模型的训练数据,是成对的文本-图像数据。

而Make-A-Video虽然最终生成的是视频,但并没有专门用成对的文本-视频数据训练,而是依然靠文本-图像对数据,来让AI学会根据文字复现画面。

视频数据当然也有涉及,但主要是使用单独的视频片段来教给AI真实世界的运动方式。

具体到模型架构上,Make-A-Video主要由三部分组成:

  • 文本图像生成模型P

  • 时空卷积层和注意力层

  • 用于提高帧率的帧插值网络和两个用来提升画质的超分网络

整个模型的工作过程是酱婶的:

首先,根据输入文本生成图像嵌入。

然后,解码器Dt生成16帧64×64的RGB图像。

插值网络↑F会对初步结果进行插值,以达到理想帧率。

接着,第一重超分网络会将画面的分辨率提高到256×256。第二重超分网络则继续优化,将画质进一步提升至768×768。

基于这样的原理,Make-A-Video不仅能根据文字生成视频,还具备了以下几种能力。

将静态图像转成视频:

根据前后两张图片生成一段视频:

根据原视频生成新视频:

刷新文本视频生成模型SOTA

其实,Meta的Make-A-Video并不是文本生成视频(T2V)的首次尝试。

比如,清华大学和智源在今年早些时候就推出了他们自研的“一句话生成视频”AI:CogVideo,而且这是目前唯一一个开源的T2V模型。

更早之前,GODIVA和微软的“女娲”也都实现过根据文字描述生成视频。

不过这一次,Make-A-Video在生成质量上有明显的提升。

在MSR-VTT数据集上的实验结果显示,在FID(13.17)和CLIPSIM(0.3049)两项指标上,Make-A-Video都大幅刷新了SOTA。

此外,Meta AI的团队还使用了Imagen的DrawBench,进行人为主观评估。

他们邀请测试者亲身体验Make-A-Video,主观评估视频与文本之间的逻辑对应关系。

结果显示,Make-A-Video在质量和忠实度上都优于其他两种方法。

One More Thing

有意思的是,Meta发布新AI的同时,似乎也拉开了T2V模型竞速的序幕。

Stable Diffusion的母公司StabilityAI就坐不住了,创始人兼CEO Emad放话道:

我们将发布一个比Make-A-Video更好的模型,大家都能用的那种!

而就在前几天,ICLR网站上也出现了一篇相关论文Phenaki

生成效果是这样的:

对了,虽然Make-A-Video尚未公开,但Meta AI官方也表示,准备推出一个Demo让大家可以实际上手体验,感兴趣的小伙伴可以蹲一波了~

论文地址:
https://makeavideo.studio/Make-A-Video.pdf
参考链接:
[1]https://ai.facebook.com/blog/generative-ai-text-to-video/
[2]https://twitter.com/boztank/status/1575541759009964032
[3]https://twitter.com/ylecun/status/1575497338252304384
[4]https://www.theverge.com/2022/9/29/23378210/meta-text-to-video-ai-generation-make-a-video-model-dall-e
[5]https://phenaki.video

点击进入—> CV 微信技术交流群


CVPR 2022论文和代码下载


后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer222,进交流群


CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!


扫码进群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
谷歌最新发布两大视频生成工作:720p高清+长镜头,网友:对短视频行业冲击太大...“退款速度赶不上发货速度”,上海消保委有提醒高速发展的移动影像,正在迈向“新高度”当 LinkedList 不是列表时,速度快的兔子都追不上!自制花园爬藤架 -- 给生活架起一片诗意与花香卷!MIT泊松流生成模型击败扩散模型,兼顾质量与速度Meta Media超媒体控股集团创始人、董事长兼CEO邵忠:元宇宙发展不应该被技术因素所束缚谷歌AI生成视频两连发:720p高清+长镜头,网友:对短视频行业冲击太大川普:我杀人也不会失去选民!共和党:我们保驾护航花50万设计总统府LOGO,网友:看着不太吉利!菜鸟裹裹换logo,网友:天冷穿雪地靴了!迪拜王子坐伦敦地铁,逛Tesco,在人行道吃饭体验生活,网友:世界参差...TGANv2、VideoGPT、DVG…你都掌握了吗?一文总结视频生成必备经典模型(二)收入跟不上物价上涨...2022年底了,还有机会翻转低薪生活吗?雙11狂歡來襲 美麗11實現 超值心動抗衰煥顏卡 高达 60% 以上特惠!Medi Cosmetic祝您青春永驻!喜茶新logo,网友:脱发了!加速ViT模型新思路!Meta推出Token Merging,不靠剪枝靠合并缺钱,“舰队数量跟不上伦敦的雄心”Stack Overflow临时禁用ChatGPT生成内容,网友:人类和AI快打起来!中共吉林省委办公厅 吉林省人民政府办公厅印发《关于推进社会信用体系建设高质量发展促进形成新发展格局的若干举措》的通知真能折腾美印太战略,跟不上亚洲地缘政治变化节奏视频生成经典模型资源(一):TGAN、VGAN、MoCoGAN、SVG、vid2vid、VideoVAE、DVD-GANAI自动生成prompt媲美人类,网友:工程师刚被聘用,又要淘汰了Meta发布Make-A-Video,这个AI文本生成视频工具太神奇了!卷!MIT提出泊松流生成模型击败扩散模型,兼顾质量与速度写好剧本直接出片!Google发布首个「讲故事」的视频生成模型疯了!Meta一夜暴裁1.1万人!史上最大规模!小扎道歉:我搞砸了!谷歌Imagen首次开放测试,安卓苹果都能玩,还有AI写作助手、超长连贯性视频生成模型如何生成「好」的图?面向图生成的深度生成模型系统综述|TPAMI2022无需新型token mixer就能SOTA:MetaFormer视觉基线模型开源,刷新ImageNet记录又放倒一棵大树靠AI六小时开发出游戏Demo,剧本绘画配音一条龙,网友:新概念3“A”大作2022傅雷翻译出版奖获奖者揭晓 Le palmarès du Prix Fu Lei 2022 dévoilé很多时候时间会让真相浮现出来
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。