Redian新闻
>
全球首发,国产开源「文本-视频生成」模型!免费在线体验,一键实现视频生成自由

全球首发,国产开源「文本-视频生成」模型!免费在线体验,一键实现视频生成自由

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】AIGC进军视频生成!


去年4月,OpenAI发布的DALL-E 2用更高的分辨率、更真实的图像生成以及更准确地理解自然描述,横扫整个AIGC领域。


不过图像生成真正进入全民化还要数Stable Diffusion的开源,仅在消费级的GPU上即可运行,用户可以在自己的数据集上进行微调,也不用忍受各大绘画网站为了「安全」设立的各种过滤词表,真正实现了「绘画自由」


而在视频生成领域,目前各家大厂还是只敢拿demo出来演示,普通用户还无法使用。


最近阿里达摩院在ModelScope上首发开源「基于文本的视频生成」的模型参数,一起实现「视频自由」!


模型链接:https://modelscope.cn/models/damo/text-to-video-synthesis/files

体验链接:https://huggingface.co/spaces/damo-vilab/modelscope-text-to-video-synthesis


只需要输入文本,即可返回符合文本描述的视频,并且该模型能够适用于「开放领域」的视频生成,能够基于文本描述进行推理,不过目前只支持英文输入。


比如说输入经典的「an astronaut riding a horse」,直接让宇航员动起来!


或者输入「a panda eating bamboo on a rock」,可以得到下面的视频。



也可以根据huggingface上提供的接口自行输入prompt,比如输入「a dog eating a cake」,就可以得到2秒钟的视频,不过由于计算资源不足,可能需要排队等待一会。


国内首发「文本-视频生成」


文本到视频生成扩散模型由「文本特征提取」、「文本特征到视频隐空间扩散模型」、「视频隐空间到视频视觉空间」三个子网络组成,整体模型参数约17亿。


多阶段文本到视频生成扩散模型采用Unet3D结构,通过从纯高斯噪声视频中迭代去噪的过程,实现视频生成的功能。


在实现上参考的相关论文主要有两篇。


高分辨率图像合成与潜扩散模型


通过将图像形成过程分解为自动编码器去噪的顺序应用,扩散模型实现了对图像数据和其他数据的最新合成结果,并且扩散模型的公式能够接受一个引导机制来控制图像生成过程,而不需要重新训练。



不过由于这些模型通常直接在像素空间中运行,因此对强大的扩散模型进行优化通常需要耗费数百 GPU 天的时间,并且由于顺序评估而导致推理成本高昂。


论文链接:https://arxiv.org/pdf/2112.10752.pdf


为了能够在有限的计算资源上进行扩散模型训练,同时保持其质量和灵活性,研究人员将其应用于强大的预训练自动编码器的潜空间。


与以往的工作相比,在这种表征上的训练扩散模型可以在降低复杂度和保持细节之间达到接近最佳的点,大大提高了视觉保真度。



通过在模型结构中引入交叉注意层,可以将扩散模型转化为功能强大且灵活的生成器,用于一般条件输入(如文本或边界框) ,并使得以卷积方式进行高分辨率合成成为可能。



文中提出的潜扩散模型(LDM)在图像修复和各种任务(包括无条件图像生成、语义场景合成和超分辨率)的高度竞争性性能方面取得了新的进展,同时与基于像素的潜在扩散模型相比,显著降低了计算需求。


VideoFusion:用于高质量视频生成的分解扩散模型


扩散概率模型(DPM)通过逐渐向数据点添加噪声来构造正向扩散过程,并学习反向去噪过程以生成新样本,已被证明能够处理复杂的数据分布。


尽管最近在图像合成方面取得了成功,但是由于视频的数据空间维度更高,将DPM应用于视频生成仍然具有挑战性。



以往的方法通常采用标准的扩散过程,即用独立的噪声破坏同一视频片段中的帧,忽略了内容冗余和时间相关性。


论文链接:https://arxiv.org/pdf/2303.08320v2.pdf


这篇论文提出了一种分解扩散过程,通过将每帧噪声分解为一个在所有帧之间共享的基本噪声和一个沿着时间轴变化的残余噪声;去噪pipeline采用两个联合学习的网络来相应地匹配噪声分解。



在不同数据集上的实验证实了文中的方法VideoFusion,在高质量视频生成方面优于基于GAN和基于扩散的替代方法。


实验中进一步表明,分解公式可以受益于预先训练的图像扩散模型和良好的支持文本条件下的视频生成。


使用方法


在ModelScope框架下,通过调用简单的Pipeline即可使用当前模型,其中,输入需为字典格式,合法键值为'text',内容为一小段文本。


该模型暂仅支持在GPU上进行推理,模型需要硬件配置大约是 16GB 内存和 16GB GPU显存。


输入具体代码示例如下。


运行环境 (Python Package)

GIT_LFS_SKIP_SMUDGE=1 git clone  https://github.com/modelscope/modelscope  && cd modelscope && pip install -e .pip install open_clip_torch

代码范例 (Demo Code)


from modelscope.pipelines import pipelinefrom modelscope.outputs import OutputKeysp = pipeline('text-to-video-synthesis', 'damo/text-to-video-synthesis')test_text = {        'text': 'A panda eating bamboo on a rock.',    }output_video_path = p(test_text,)[OutputKeys.OUTPUT_VIDEO]print('output_video_path:', output_video_path)

查看结果 (View Results)


上述代码会展示输出视频的保存路径,目前编码格式采用VLC播放器可以正常播放。

模型的限制与偏见


  • 模型基于Webvid等公开数据集进行训练,生成结果可能会存在与训练数据分布相关的偏差。

  • 该模型无法实现完美的影视级生成。

  • 该模型无法生成清晰的文本。

  • 该模型主要是用英文语料训练的,暂不支持其他语言。

  • 该模型在复杂的组合性生成任务上表现有待提升。


训练数据


训练数据包括 LAION5B、 ImageNet、 Webvid 等公共数据集。图像和视频滤波是经过美学评分、水印评分和重复数据删除等预训练后进行的。


参考资料:
https://modelscope.cn/models/damo/text-to-video-synthesis/summary




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
让ChatGPT调用10万+开源AI模型!HuggingFace新功能爆火:大模型可随取随用多模态AI工具喜剧片:你会遇到一个高大黝黑的陌生人CVPR 2023|哈工大南洋理工提出全球首个「多模态DeepFake检测定位」模型:让AIGC伪造无处可藏24小时内、200美元复制RLHF过程,斯坦福开源「羊驼农场」模拟器北大、西湖大学等开源「裁判大模型」PandaLM:三行代码全自动评估LLM,准确率达ChatGPT的94%0门槛克隆ChatGPT方案再升级,开源模型完整复现,在线体验无需注册大象P转身开箱即用!港大、南大、清华等抢先开源「复刻」版DragGANAI绘画新思路:国产开源50亿参数新模型,合成可控性、质量实现飞跃动画制作效率提升80%!这个AI软件一键实现高精度视频动捕手机版官方ChatGPT首发体验!免费、响应快、新增语音识别跑分达ChatGPT的99%,人类难以分辨!开源「原驼」爆火,iPhone都能微调大模型了超经典的10部英文影片(5,6),值得收藏(免费在线观看)前美团联合创始人王慧文 “正在收购” 国产开源深度学习框架OneFlow《墨尔本的秋天》为女神节打call重磅内幕:OpenAI即将开源新模型!开源社区的繁荣,全靠大厂「施舍」?开源模型、单卡训练,带你了解爆火的文本指导音频生成技术AudioLDM分割一切深度图!港科技、南洋理工等开源「SAD」:根据几何信息分割图像可直训ChatGPT类模型!华师大、NUS开源HugNLP框架:一键刷榜,全面统一NLP训练用ChatGPT秒建大模型!OpenAI全新插件杀疯了,接入代码解释器一键get超经典的10部英文影片(1,2),值得收藏(免费在线观看)一日团 |【意大利NFL·GERAN西装阔腿裤】轻奢面料,UPF50+ 高倍防晒,清爽体验,释放凉感因子,瞬间冰爽触感!免熨烫超经典的10部英文影片(9和10),值得收藏(免费在线观看)重访西班牙(8)-飘香的欧洲果园【元宵快闪】《萱草花》+ 春节真人秀答案片链接见内,24小时后删除一行文本,生成3D动态场景:Meta这个「一步到位」模型有点厉害文本和图片之后,AIGC的下个前沿将是视频生成马云回国,首谈 ChatGPT/百度「文心千帆」实现三分钟做PPT/ 首个国产新冠药停产GTA菜价飙涨?在家实现蔬菜自由!不用种子和土,三周养成自家菜园,一次吃半年!国产ChatGPT「序列猴子」全网首测!在线体验不用等,画苏联马斯克超逼真急需有声配音员:400元/天,对照小说文本播讲即可,工作地点不限,时间自由!送4天免费培训!免费声音表现力测试!邓小平在中共中央会议上的检讨最新通知!免费!免费!微软赢麻了!数十亿文本-图像对训练,多模态Florence开启免费体验,登上Azure2000元训练比肩ChatGPT的开源大模型!GPT-4亲自盖章认证,模型权重均可下载苹果全家餐免费送!免费送!免费送!手机、iPad、耳机...索尼PS 5 一件不留....
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。