Redian新闻
>
用嘴做视频,这款应用太逆天

用嘴做视频,这款应用太逆天

公众号新闻

你可能错过的大新闻:灵动岛:iPhone X 以来最大变化、Touch ID 不会回到 iPhone 上、Pixel Watch 全配色曝光、RTX 4090 跑分是 3090 Ti 的 1.6 倍、诺贝尔生理学或医学奖花落古人类学家、新 AI 可以用文字生成视频……
今年,是 AI 在图像视频制作领域进步很大的一年。
有人拿着 AI 生成的图像拿走了数字艺术大奖,战胜了一众人类艺术家;有 Tiktok 这样的应用通过文字输入生成图片,变为短视频的绿幕背景;还有新的产品可以做到文字直接生成视频,直接实现「用嘴做视频」的效果。
这次的产品来自深耕人工智能多年,前段时间才因为元宇宙被疯狂嘲讽的 Meta。
Meta 元宇宙曾被疯狂嘲讽
只是这次,你不能嘲讽它了,因为它真的有了小突破。
文字转视频,能做成什么样
现在,你可以动嘴做视频了。
这话虽然有点夸张,但 Meta 这次推出的 Make-A-Video 恐怕真是朝着这个目标前进的。
目前 Make-A-Video 可以做到的是:
  • 文字直接生成视频——将你的想象力变成真实的、独一无二的视频

  • 图片直接转为视频——让单一图片或两张图片自然地动起来

  • 视频生成延伸视频——输入一个视频创建视频变体

单说文字直接生成视频这个方面,Make-A-Video 就战胜了不少专业的动画设计专业的学生。至少它什么风格都能做,而且制作成本非常低。
虽然官网还不能让你直接生成视频体验,但你可以先提交个人资料,之后 Make-A-Video 有任何动向都会先和你分享。
目前可以看到的案例不多,官网展示的案例在细节上还有一些怪异的地方。但不管怎么说,文字可以直接变视频,本身就是一个进步了。
一只泰迪熊在画自画像,你可以看到小熊的手在纸面阴影部分的投影不太自然。

机器人在时代广场跳舞。

猫拿着电视遥控器换台,猫咪手部爪子和人手极为相似,某些时候看还觉得有点惊悚。

还有戴着橙色针织帽的毛茸茸树懒在摆弄一台笔记本电脑,电脑屏幕的光映在它的眼睛里。

上面这些属于超现实风格,和现实更相似的案例则更容易穿帮。
Make-A-Video 展示的案例如果只是专注局部表现都不错,例如艺术家在画布上画画的特写,马喝水,在珊瑚礁游泳的小鱼。

但是稍微写实一点的年轻夫妇在大雨中行走就很怪异,上半身还好,下半身的脚忽隐忽现,有时还会被拉长,如同鬼片。

还有一些绘画风格的视频,宇宙飞船登陆火星,穿着晚礼服的夫妇被困在倾盆大雨中,阳光洒在桌上,会动的熊猫玩偶。从细节上看,这些视频都不够完美,但仅仅从 AI 文字转视频的创新效果来看,还是让人惊叹的。

静态的油画也可以在 Make-A-Video 帮助下动起来——船在大浪中前进。
海龟在海中游动,最初的画面非常自然,后面变得更像绿幕抠图,不自然。
瑜伽训练者在朝阳中舒展身体,瑜伽垫也会随着视频的变化一起变化——这个 AI 就战胜不了学习影视制作的学生了,控制变量没做好。

最后输入一个视频模仿其风格创造视频变体也有 3 种案例。
其中一个变化相对来说没那么精致。宇航员在太空中飘舞的视频变为了美感稍弱版本的 4 个粗放版视频。
小熊跳舞的视频倒是有不少令人惊喜的变化,至少舞姿有变化了。

至于最后兔子吃草的视频就是最「安能辨我是雌雄」的类型了,5 个视频最后很难认出谁是初始视频,看着都蛮和谐。
文字转图片刚有进展,视频就来了
在《阿法狗之后,它再次彻底颠覆人类认知》中,我们曾经介绍过图像生成应用 DALL·E。曾有人用它制作出的图像去和人类艺术家 PK并最终取胜。
现在我们看到的 Make-A-Video 可以说是一个视频版本的 DALL·E(初级版)——它就像 18 个月前的 DALL·E,有巨大突破,但现在的效果不一定能让人满意。
DALL·E 创作的延伸画作
甚至可以说,它就是站在巨人 DALL·E 肩膀上做出成就的产品。相较于文字生成图片,Make-A-Video 并没有在后端进行太多全新变革。
研究人员在论文中也表示:「我们看到描述文本生成图片的模型在生成短视频方面也惊人地有效。」
描述文本生成图片的获奖作品
目前 Make-A-Video 制作的视频有 3 个优点:
  1. 加速了 T2V 模型(文字转视频)的训练

  2. 不需要成对的文本转视频数据

  3. 转化的视频继承了原有图像/视频的风格

这些图像当然有缺点,前面提到的不自然都是真实存在的。而且它们不像这个年代诞生的视频,画质模糊,动作僵硬,不支持声音匹配,一段视频长度不超过 5 秒,解析度 64 x 64px 都是硬伤,它们的清晰度远远不够。
这个视频狗狗舌头和手有几帧非常怪异
几个月前清华大学和智源研究院(BAAI)研究团队发布的第一个能根据文本直接合成视频的 CogVideo 模型也有这样的问题。它基于大规模预训练的 Transformer 架构,提出了一种多帧率分层训练策略,可以高效的对齐文本和视频片段,只是也经不起细看。
但谁能说 18 个月后,Make-A-Video 和 CogVideo 制作的视频不会比大部分人更好呢?


C1

目前已经发布的文字转视频工具虽然不多,但在路上的却有不少。在 Make-A-Video 发布后,初创企业 StabilityAI 的开发者就公开表示:「我们的(文字转视频应用)会更快更好,适用于更多人。」
有竞争才会更好,越来越逼真的文字转图像功能就是最好的证明。
好产品就是一颗糖
💡 AI 着实让人眼前一亮,这里还有一款让人眼前一亮的键盘值得一试!
来自咱家的「硬糖机械键盘」,致敬博朗 SK4 收音唱片机设计,通过科技与艺术的结合,让你的桌面品质迅速提升;
⌨️ 多设备兼容,MacBook、Windows 电脑、iPad 以及 iPhone 等设备都能轻松适配;
🔋 4000mAh 大电池,续航持久,轴体任选,还原打字机的段落敲击体验。
👇🏻 点击图片直接购买。
点击「在看
是对我们最大的鼓励

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
惊悚!“我在和鬼魂对话...”网红博主分享自己的夜间梦游视频,惹得网友又爱又怕!The World of Helicopting Parents...这段监控视频,美媒称令人"不安"日本人偷学失败的中华“鬼工”,皇室攀比炫富的“奢侈品”,这也太逆天了!这页PPT做的地图,太逆天了!孩子,你不用太完美。妈妈,你也是!都在疯传这个视频!逆天!身上藏着9个窝,都是上天给你的治病药,不会用太可惜~一台道具车就能送公司上市,北美贾跃亭教你如何用嘴造电车。湖南公交上曝光不雅视频,全网围观:我顿悟什么是一个人最顶级的教养美股SPAC|美国家用太阳能电池存储解决方案提供商 Electriq Power 与SPAC合并上市央视名嘴做“私教”,国家队帮娃搞定大语文!茄子与军演避免便秘,訓練你的腸道生物鐘超高清视频技术点亮“工业之眼” | 超高清视频应用扮靓美好生活【品牌专场】视频化升级新思路 —— StreamLake音视频技术创新与应用伊万卡晒自己冲浪的优雅视频,却引来了奇葩的骂声……年轻人不用太过于努力实际若是按照江胡的办法, 时间是在大陆一边的下周大降温!这款神仙取暖器,升温快超省电,比空调实用太多“中秋节父亲给我发来家乡视频,他知道我想家了”“抽象煎饼果子大赏!!”全靠嘴做生意吧哈哈哈颜值逆天、质感巨好、超显品味!这款包真的值得买!超高清视频铺开文旅产业新画卷 | 超高清视频应用扮靓美好生活这么拍视频,他不火才怪!超高清视频为社会撑起“安全伞” | 超高清视频应用扮靓美好生活不打游戏只看视频,骁龙和天玑竟然能拉开这么大差距?【交通安全】短短一个视频,竟然看哭了……又贵又难用!这款简单应用程序23家外包公司花了3.8亿开发,一程序员2天就做了个一样的不用太久!纽约将满街大麻味,今年底开20间新店硬核观察 #765 黑客泄露 GTA 6 测试视频,并出售 GTA 5 的源代码供应商用嘴“修边”,台军吃“口水面包”……“用嘴做视频”已经成真!AI让短视频创作者惊呼饭碗不保天上下火啦优秀的人不用管理,不用太在乎他们的自尊
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。