Redian新闻
>
Meta发布Make-A-Video,这个AI文本生成视频工具太神奇了!

Meta发布Make-A-Video,这个AI文本生成视频工具太神奇了!

游戏

「 点击上方"GameLook"↑↑↑,订阅微信 」

在过去几年里,从实验室走向消费者的AI生成内容技术可谓是互联网上最热门的话题之一。

而在其中,Ai驱动的“文字生成图片(Text-to-Image,T2I)”在此之前已经有不少企业和产品取得了相当精致的效果,从英伟达已经多次升级的GauGAN AI、OpenAI的DALL·E,到最近大放异彩的Midjourney、Stable Fusion、百度的“一格”等,都是其中的佼佼者

而众所周知,视频就是一张张图像的集合,在“文字生成图片”到“文字生成视频(Text-to-Video,T2V)”自然也是AI在相关领域的自然发展,近日,Meta就公布了旗下最新的T2V工具,并为其起了个相当朴实易懂的名字“Make-A-Video”,并开放了预约。

根据Meta官网和相关论文的介绍,“Make-A-Video的研究是建立在T2I生成技术的最新进展之上的”,不过Meta也表示,虽然目前T2I已经取得了巨大的突破,但是T2V其实很难复刻该技术的成功路线。毕竟最简单的,互联网上带有文字描述的图片可是一爬一大把,但带有详细描述的视频,却少得多。

Meta表示,“Make-A-Video”相较于目前行业内的一些其他技术,就比如CogVideo、Video Diffusion等,有三大优势,首先它加速了T2V模型的训练(它不需要从头开始学习视觉和多模态表示);其次它不需要成对的文本-视频数据;最后,“Make-A-Video”生成的视频的多样性,包括审美、艺术风格等都十分丰富。

“Make-A-Video”官网的论文显示,该工具的基础运行逻辑简单来说就是,当用户输入一串文字后,系统会生成16张在时间上有连续性的64X64像素的RGB图片,然后这作品图片将会通过插值模型增加视频的帧数,让前后帧之间的动作更加平滑,之后通过两个超分辨率模型,将图像的像素提升到256×256像素后,再提升到768×768像素,生成高分辨率和帧率的视频。

当然具体流程和细节上会更加专业和高深,这只是一个通俗的概述。

在Meta的官网,官方展示了大量T2V的案例就比如“身着超人服装在天空飞翔的狗”:

猫猫手拿遥控器看电视:

饮马:

除了“文字生成图片”,“Make-A-Video”还可以根据一个视频生成同类型,不同内容的视频

原视频

AI生成视频

让静止的图片动起来:

原图(图片来自Meta的Make-A-Video官网)

AI生成内容:

补全两张图片之间的内容:

原图(图片来自Meta的Make-A-Video官网)

AI生成视频

就在Meta宣布了“Make-A-Video”工具后,一系列研究相关工具的团队都公开了它们的成果,T2I工具Stable Fusion的开发者更是公开叫板Meta,表示我们的模型只会更好,“并且(相较于Meta工具尚未开放),人们或许真的有机会用到我们的工具”。

另一个名为“Phenaki”的团队更是整了个大活,直接丢出了可以利用一大段文字生成短片的工具,该工具不仅可以生成短片,甚至可以用文字运镜,开发者甚至已经用该工具生成了一个时长两分钟的视频。

在AI抢占分类工作之前,AI之间恐怕就要先进行数轮的比拼,卷出最后的获胜者。

以下是Phenaki生成的两分钟短片(原版清晰度就一般,压缩后(只有128×128)凑合着看,感兴趣的可以前往Phenaki官网查看内容,不过现阶段清晰度也不是重点):


该短片使用的关键词:

(机器翻译)未来城市的交通很拥挤。一艘外星飞船到达了未来的城市。摄像机进入了外星飞船内部。镜头向前移动,直到出现一个宇航员在蓝色的房间里。宇航员正在键盘上打字。摄像机从宇航员身上移开。宇航员离开键盘,走到左边。宇航员离开了键盘,走开了。摄像机会越过宇航员,转向屏幕。宇航员身后的屏幕上显示着在海里游泳的鱼。急速放大到蓝色的鱼。我们跟着蓝色的鱼,因为它在黑暗的海洋中游泳。相机透过水面对着天空。未来城市的海洋和海岸线。冲向一座未来的摩天大楼。摄像机将镜头对准众多窗户中的一扇。我们在一间空桌子的办公室里。一只狮子在办公桌上奔跑。镜头对准了办公室里狮子的脸。镜头缩小到办公室里穿着深色西装的狮子。穿衣服的狮子看着镜头笑了。镜头慢慢移到摩天大楼的外部。现代城市中日落的时间流逝

(官网原文)Lots of traffic in futuristic city. An alien spaceship arrives to the futuristic city. The camera gets inside the alien spaceship. The camera moves forward until showing an astronaut in the blue room. The astronaut is typing in the keyboard. The camera moves away from the astronaut. The astronaut leaves the keyboard and walks to the left. The astronaut leaves the keyboard and walks away. The camera moves beyond the astronaut and looks at the screen. The screen behind the astronaut displays fish swimming in the sea. Crash zoom into the blue fish. We follow the blue fish as it swims in the dark ocean. The camera points up to the sky through the water. The ocean and the coastline of a futuristic city. Crash zoom towards a futuristic skyscraper. The camera zooms into one of the many windows. We are in an office room with empty desks. A lion runs on top of the office desks. The camera zooms into the lion’s face, inside the office. Zoom out to the lion wearing a dark suit in an office room. The lion wearing looks at the camera and smiles. The camera zooms out slowly to the skyscraper exterior. Timelapse of sunset in the modern city。


····· End ·····



GameLook
每日游戏产业报道
全球视野 / 深度有料

爆料 / 交流 / 合作:请加主编微信 igamelook
广告投放 : 请加 QQ:1772295880
      长按下方图片,"识别二维码" 订阅微信公众号

····· 更多内容请访问 www.gamelook.com.cn ·····
Copyright © GameLook® 2009-2022

        觉得好看,请点这里 ↓↓↓ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
视频生成新高度!Meta提出Make-A-Video,网友:我已跟不上AI发展速度...这场直播太神奇了!一条围巾5种系法,让几百块钱的衣服穿出上W的范!赶紧进来看……罗永浩或将开启淘宝直播;中国企业研发强度华为第一;苹果发布M2芯片版iPad Pro;四成子女支持退休父母再就业...【八卦】偶遇李安国外路边小店吃饭 用一次性餐具太真实这就叫“量子细胞”!太神奇了!​神奇的大学习率:多大才算大, 神奇的效用又为何?NAACL 2022 | 基于Prompt的文本生成迁移学习连三天!澳洲黑客公布Medibank客户信息!公开怼澳政府!开价$1500万赎金!左中堂说过3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,给一个文本提示就能生成3D模型!赎期已过,黑客发布Medibank用户信息!澳女身份被盗用卖淫,华男勒索已认罪GENIUS:一个基于“草稿”进行文本生成、数据增强的“小天才”模型​GENIUS: 根据草稿进行文本生成的预训练模型,可用于多种NLP任务的数据增强4.5K Star! 这个图像识别工具太强了他们不但急了而且疯了。。。。。。扎卡伯格宣布Meta进行大规模重组团队与裁员。。。转发以前写的几篇短文:恐怖!赎金支付期限已过,黑客凌晨在暗网上公布Medibank用户私密信息!还发话要继续曝光!刚刚,黑客再公布Medibank大批数据!数百万人信息直接暴露!生活的酸甜苦辣炸锅!3D人行横道来悉尼了!不久将在这里投入使用!太神奇了!3D版DALL-E来了!谷歌发布文本3D生成模型DreamFusion,重点是zero-shot如何生成「好」的图?面向图生成的深度生成模型系统综述|TPAMI2022[评测]Geometric Future Eskimo Junior Neon 36W 评测中文文本生成发展到哪一步了?写方案、写广告的AI全能工具已上线AIGC基于文本生成音乐,现在压力来到配乐行业这边|Github自称推特新CEO,被李笑来引路,这个币圈大忽悠,到底什么来头?ACE成员项目|Meteor X 马力在知群 | ​想做杀手级应用却没有用户?听听17年PM,现任CEO给你讲解什么是产品思维~从多篇论文看扩散模型在文本生成领域的应用倚澜科技发布MetaC与MetaS系统,探索元宇宙会议与虚拟直播场景不需要开关的特斯拉单向阀门!太神奇了...谷歌AI生成视频两连发:720p高清+长镜头,网友:对短视频行业冲击太大扩散模型在文本生成领域的应用WAIC 2022 | 澜舟科技创始人&CEO 周明:基于预训练语言模型的可控文本生成研究与应用最头痛的是俺们XI大大, 一大堆问题, 这不是难为他了么, ABCD, 甲乙丙丁,1234, 一二三四, 饶了他吧
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。