Redian新闻
>
AI新风口?首个高质量「文生视频」模型Zeroscope引发开源大战:最低8G显存可跑

AI新风口?首个高质量「文生视频」模型Zeroscope引发开源大战:最低8G显存可跑

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】首个高质量文本转视频开源模型Zeroscope,仅需8G显存就能用!


文生图模型Stable Diffusion开源后,将「AI艺术」彻底平民化,只需一张消费级显卡即可制作出非常精美的图片。


文本转视频领域,目前质量较高的只有Runway前不久推出的商用Gen-2模型,开源界还没有一个能打的模型。


最近,Huggingface上有作者发布了一个文生视频模型Zeroscope_v2,基于17亿参数量的ModelScope-text-to-video-synthesis模型进行二次开发。


模型链接:https://huggingface.co/cerspense/zeroscope_v2_576w


相比于原版本,Zeroscope生成的视频没有水印,并且流畅度和分辨率都得到了提升,适配16:9的宽高比。


开发者cerspense表示,他的目标就是和Gen-2进行开源较量,即提高模型质量的同时,还能免费供大众使用。


Zeroscope_v2包括两个版本,其中Zeroscope_v2 567w可以快速生成576x320像素分辨率、帧率为30帧/秒的视频,可用于视频概念的快速验证,只需要约7.9GB的显存即可运行。


Zeroscope_v2 XL可以生成1024x576分辨率的高清视频,大约需要15.3GB的显存。


Zeroscope还可以与音乐生成工具MusicGen一起使用,快速制作一个纯原创短视频。



Zeroscope模型的训练用到了9923个视频片段(clip)以及29769个标注帧,每个片段包括24帧。偏移噪声包括视频帧内对象的随机移位、帧定时(frame timings)的轻微变化或微小失真。


训练期间引入噪声可以增强模型对数据分布的理解,从而可以生成更多样化的逼真视频,并更有效地解释文本描述中的变化。


使用方法


使用stable diffusion webui


在Huggingface上下载zs2_XL目录下的权重文件,然后放到stable-diffusion-webui\models\ModelScope\t2v目录下即可。


在生成视频时,推荐的降噪强度值为0.66到0.85


使用Colab


笔记链接:https://colab.research.google.com/drive/1TsZmatSu1-1lNBeOqz3_9Zq5P2c0xTTq?usp=sharing


先点击Step 1下的运行按钮,等待安装,大约需要3分钟;



当按钮旁边出现绿色复选标记时,继续执行下一步。



点击想要安装模型附近的运行按钮,为了能够在Colab中快速获得3秒左右的剪辑视频,更推荐使用低分辨率的ZeroScope模型(576或448)。



如果相运行更高分辨率模型(Potat 1或ZeroScope XL),运行也会更费时间,需要做出权衡。


再次等待复选标记出现,继续执行下一步。


选择在Step2中安装并希望使用的模型型号,对于更高分辨率的模型,推荐下面的配置参数,不需要太长的生成时间。



然后为目标视频效果输入提示词,也可以输入否定提示(negative prompts),再按下运行按钮。 


等待一会后,生成的视频就会被放置在outputs目录下。



extremely detailed, Futuristic Cityscape, blade runner, extremely cloudy, awardwinning, best quality, 8k

非常详细,未来城市景观,叶片亚军,极端多云,获奖,最好的质量,8k


「文生视频」开源竞赛


目前来说,文生视频领域仍处于起步阶段,即便是最好的工具也只能生成几秒钟的视频,并且通常存在较大的视觉缺陷。


但其实文生图模型最初也面临着类似的问题,但仅仅几个月后就实现了照片级真实感。


不过与文生图模型不同的是,视频领域在训练和生成期间所需要的资源都要更比图像更多。


虽然谷歌已经研发出了Phenaki和Imagen Video模型,可以生成高分辨率、更长、逻辑连贯的视频片段,但公众无法使用到这两个模型;Meta的Make-a-Video模型也同样没有发布。


目前可用的工具仍然只有Runway的商用模型Gen-2,此次Zeroscope的发布也标志着文生视频领域第一个高质量开源模型的出现。


参考资料:
https://the-decoder.com/zeroscope-is-a-free-text-to-video-model-that-runs-on-modern-graphics-cards/




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
义工随笔:前传好人若蓝苹果新产品将取代iPhone?啥专业能抓住这个新风口?小白大挑战:24 小时内用 ChatGPT 和 Next.js 开发开源项目,吸引上万用户!百川开源最强中英文百亿参数模型!超越LLaMA,中国开源大模型开启商用新纪元劝退小三,婚恋行业新风口?「目前最好的文生视频AI」来了!做广告、电影都不在话下,网友:很丝滑文生图模型又“卷”起来了!比 Stable Diffusion 中文理解能力更强、更懂国人的文生图模型是如何构建的?大模型思维链经典论文阅读之——Zero-shot CoT, Manual CoT, AutoCoT2017 MacBook air(i5 1.8g/8gran/128g ssd/battery circle 80)微软 Office copilot 定价每月 30 美元;腾讯否认推公务员版微信;Meta 发布新一代开源大模型 | 极客早知道谁动了我的显存?——深度学习训练过程显存占用分析及优化查尔斯加冕和其他碾压LLaMA的最强开源大模型居然来自阿联酋,OpenAI和HuggingFace 为它吵了起来「360智脑大模型4.0」正式发布,支持文生视频,已接入360全家桶|最前线人形机器人+大模型,为什么是投资人追逐的新风口?|甲子光年儿童玩具出海正在成为新风口?7 Papers & Radios | OpenAI用GPT-4解释GPT-2;Meta开源多感官基础模型4G显存低配畅玩AIGC!ControlNet作者新作登顶GitHub热榜,小白点3次就出图开源大模型重击OpenAI!小扎放出LLaMA2炸裂科技圈,联手微软高通冲击市场格局规则制定者与普通劳动者华为天才少年、OpenAI员工辞职创业,AI机器人会是新风口?|直播预告CodeGeeX2-6B开源,最低6GB显存,性能优于 StarCoderOpenAI被曝将发布全新开源大模型,网友:GPT平替?LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归国内开源第一!百川开源大模型Baichuan-13B评测揭晓|SuperCLUELeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?Stable Diffusion又出大招!「文生动画」震撼发布淘汰导演,DC英雄一秒变身苹果新品将取代iPhone!什么专业的人才能抓住这个新风口?他们又急了。。。。我是否该原谅兔子的暴力苹果或降低Vision Pro销售预期/中国电信回应广东无信号/微信上线「文生图」功能苏妈战老黄!官宣AMD大模型专用卡,对标英伟达H100,可跑更大模型AI创作有著作权吗?首例 “AI 文生图” 案开审阿里开源大模型治理数据集;华为推出AI存储新品;OpenAI被美国FTC调查丨AIGC大事日报文生图prompt不再又臭又长!LLM增强扩散模型,简单句就能生成高质量图像|ACM MM'23
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。