Redian新闻
>
克苏鲁高清AI视频爆火,背后模型已开源,Demo在线可玩,前特斯拉AI总监也来围观

克苏鲁高清AI视频爆火,背后模型已开源,Demo在线可玩,前特斯拉AI总监也来围观

公众号新闻
萧箫 发自 凹非寺
量子位 | 公众号 QbitAI

可生成1024×576高清分辨率视频的大模型,开源了!

无论是在海草间游动的小鱼:

还是精细到眼珠子的神秘克苏鲁图像:

全部以前所未有的清晰感呈现出来,让网友直呼“san值狂掉”。

这个视频生成模型开源即爆火,不仅在推特和Reddit上收获一众热度,就连前特斯拉AI总监Andrej Karpathy也来围观了一波:

现在,Hugging Face工程师已经搞出了试玩demo,不少网友直接线上开炫,例如生成《星球大战》达斯·维德在水上冲浪的珍贵影像:

效果看起来也不错,所以它究竟是怎么训练的?

基于17亿参数大模型改造

Zeroscope的“原型”,是达摩院ModelScope(魔搭)社区开源的17亿参数文生视频大模型。

这一版大模型由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间3个子网络组成。

其中,扩散模型采用Unet3D结构,通过从纯高斯噪声视频中迭代去噪过程,最终实现视频生成。

不过在ModelScope社区中开源的这版大模型,生成视频的效果还不能说是高清:

为此,ZeroScope设计了两个阶段,先通过文生视频、再通过视频生视频提升分辨率,最终生成1024×576分辨率的视频:

第一步,文生视频,基于ZeroScope_v2_576w来生成576×320分辨率的视频;

第二步,视频生视频,基于ZeroScope_v2_XL来生成1024×576分辨率的视频片段。

训练上,ZeroScope采用了9923个1024×576分辨率的视频片段,每个片段包含24帧画面,其中有3帧被打上标记,加起来一个是29769个标记帧(tagged frames)

不过,生成高清视频,需要的硬件要求也会更高一些。

要想生成576×320分辨率、帧率30的视频,至少需要7.9GB的VRam(显存的一种);如果要生成1024×576分辨率、帧率30的视频,则至少需要15.3GB的VRam。

有网友感到高兴:

又一个足以与Gen-2竞争的文生视频模型出现了!

甚至有网友认为,这个模型的出现已经说明,人们没必要为了Runway搞出来的Gen-2付钱了,毕竟后者效果也没有那么好。

无论如何,文生视频AI领域的“新搅局者”都已经出现。

在线试玩Demo已出

模型一开源,Hugging Face上就已经出现了试玩Demo。

这里我们试着生成“和爱因斯坦打高尔夫球”。

效果还不错,虽然不知道为什么爱因斯坦打着打着蹲下了(手动狗头)

从提示词类型来看,不仅可以输入比较精细的描述

例如“一个男人在行驶的火车上睡觉,窗外物体飞速移动”(A man is sleeping in his seat, inside a train running, background behind the window is moving fast)

也可以只输入简单的一句话,像是“巨型皮卡丘大战哥斯拉”(Giant Pikachu versus Godzilla fight)

除此之外,也有不少网友分享了自己的作品。

例如这是“爱因斯坦大笑着开星球大战里的飞梭赛车”:

还有网友@Callimiya生成了“达斯维德在课室跳舞”的神奇视频,似乎还有小孩子在陪他一起跳:

不过,由于试玩人数比较多,导致它有时会出bug。这时候只要不停地提交,还是可以冲进队列中的。

当然,如果你觉得这一版的Demo可控性不够好,还可以尝试另一版,无论是seed (便于生成相似内容)还是推理次数都可手动调整:

怎么样,想好用它生成什么新视频了吗?

简单版试玩:
https://huggingface.co/spaces/fffiloni/zeroscope

可控版进阶试玩:
https://huggingface.co/spaces/hysts/zeroscope-v2

参考链接:
[1]https://twitter.com/_akhaliq/status/1672650155743408133

[2]https://www.reddit.com/r/aivideo/comments/14hbiql/announcing_zeroscope_v2_xl_a_new_1024x576_video/
[3]https://twitter.com/fffiloni/status/1673644193967747072

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「电商零售」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
谁靠着克苏鲁爆金币?【播客更新】繁复不是一种美丽曾因炫富视频爆火 亚裔网红突去世 年仅15岁她没死!大大大反转!亚裔网红少女沉默一天发声, 曾因炫富视频爆火!王志纲:村超爆火,背后有高人不用回国在线可办!6月1日起,中国驻外使领馆全面实施→[世相]亚裔大叔美国怒骂视频爆火全网!加拿大首例 超强变种入侵BC,口罩令或重启!特斯拉前AI总监Andrej Karpathy:大模型有内存限制,这个妙招挺好用!点赞| 亚裔大叔美国怒骂视频爆火全网!智讯|理想汽车二季度毛利率超特斯拉;地平线智能驾驶研发总监加入比亚迪;广汽 AI 大模型平台亮相曾因炫富视频爆火!年仅15岁 华裔女突然离世 21岁哥哥也……2023回国 梦牵魂萦的上海南京路,外滩(多图)前特斯拉车主林志颖,复出救小鹏“低俗”男模爆火,背后金主浮出水面《夏日的玫瑰》&合唱《天下有情人》​2023世界超高清视频产业发展大会发布104项超高清视频典型应用案例村超爆火,背后有高人国内首个视频垂直大模型发布!一句话生成科幻大片预告,人人可玩中国文化反向输出?!澳华人妈妈带火“月子文化”,老外拍月子视频爆火网络,成百万流量网红……马斯克直播特斯拉自动驾驶;居然之家创始人:我把包括CTO在内的IT部门全裁了;首批8个大模型正式上线 | AI一周资讯一夜之间,大模型格局巨变!已开源,可直接商用!视频版大爆炸来了!剪辑可精准到每个字,支持中文Demo可玩,老罗:打钱更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」麦门!麦当劳在国内爆火,背后有神秘组织助推?Meta推出像素级动作追踪模型,简易版在线可玩 | GitHub 1.4K星《消失的她》女主一夜爆火,背后真相值得深挖!外派故事 (30)约翰和女出租车司机 (下)李开复的新AI公司登陆大模型战场,百亿级模型已内测|最前线有毒!HomeDepot和Sickkids:快来围观这份有毒植物名单,千万别碰这些花花草草前特斯拉总监、OpenAI大牛Karpathy:我被自动驾驶分了心,AI智能体才是未来!现在连马桶都可以玩克苏鲁的么?贾佳亚团队提出LISA大模型:理解人话「分割一切」,在线可玩坐火车玩,吃饭玩,连去游乐园排个队都在玩,娃疯狂成这样,你敢信这是个学习APP?《行香子 - 贺吉安一中百年华诞》耗时5年斥资23亿美元只为造个球?!拉斯维加斯克苏鲁风格新地标已亮相!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。