Redian新闻
>
Vidu直逼Sora,生数科技:还说“中国sora”就太没想象力了【内附Vidu逐帧拆解】

Vidu直逼Sora,生数科技:还说“中国sora”就太没想象力了【内附Vidu逐帧拆解】

公众号新闻
作者|周一笑,丸丸柚贝

编辑|王兆洋

可媲美Sora的中国文生视频模型,就这么来了。
4月27日上午,在2024中关村论坛上,生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型——Vidu,它所展示的效果立刻刷屏。
据生数科技,Vidu支持一键生成16秒、1080P分辨率的视频内容。而从视频来看,Vidu的一致性、运动幅度都达到了Sora水准,虽然时长还比不上Sora的最长60秒,但整体上已经可以对标Sora。
生数的发布一如既往的低调,并没有什么发布会。但效果引发广泛关注,一时间“中国Sora”的称谓四起。
但我们第一时间和生数做了交流,这家核心团队来自清华人工智能研究院、由清华人工智能研究院副院长朱军博士牵头的公司对我们表示:
Vidu的视频时长会继续突破,“另外,我们的架构是支持多模态的,视频模态只是当前阶段最重要的。”据生数透露,Vidu目前正在加速迭代提升,面向未来,Vidu灵活的模型架构也将能够兼容更广泛的多模态能力。
言下之意,还说生数科技是“中国sora”,就有点太没想象力了。
生数的野心比这更大。

1

逐帧拆解对比Vidu与Sora

在今年3月12日的一次交流中,生数科技联合创始人兼CEO唐家渝曾对我们表示:
“今年内一定能达到Sora目前版本的效果,但很难说是三个月还是半年”。
据我们了解,生数三月份就实现了8秒的视频生成,在四月份突破了16秒生成。今天的发布背后,短短两个月时间完成巨大进步。
这次的展示中,到底有哪些细节值得关注,我们第一时间逐帧对比了Vidu与Sora,话不多说,先来一起看一下。

经典走路名场面

Sora这个街头美女走路的视频也是刷爆了各大社交媒体,Vidu一出来就贴脸开大!不光生成街头美女走路,街头帅哥走路就连街头熊都给整出来了!
首先从人物、背景来看,Vidu的生成效果真的和Sora不相上下,但是人物动作协调性与Sora相比还是稍弱一些。

Vidu

Sora

行驶中的越野车

越野车在丛林小道中穿梭,Vidu的丛林背景略有3D动画的效果,更像游戏中的一些场景,Sora的背景更具真实性一些。
Vidu

Sora

中国龙

这一视频场景,二者生成的风格不太相同,Vidu展示的是现实中虚拟龙的形象,Sora是现实中舞龙舞狮真实存在的场景,但是二者对于龙的形象各种细节也都展现出了各自的特点。
另外,除了主体龙之外的背景两者都很真实,但是Sora的视频画面丰富度更高。
Vidu

Sora

人物眼睛特写

这谁能分得清是真实拍摄还是AI生成啊!这一局我感觉Vidu真的不输Sora!
Vidu

Sora

电视合集

Vidu确实是不怕对比的!这个画面丰富度和运镜真是一点不比Sora差。
Vidu

Sora

狗狗

Sora生成的狗狗动态感、真实感更强一些,但是Vidu对狗狗游泳腿上的毛漂浮的细节处理也相当不错。
Vidu

Sora

猫和人
Vidu所展现是“带珍珠的猫”,虽然有点玄幻,但是镜头旋转之后,毛发细节感也是表现不错。
Vidu

Sora

船与“海”

Vidu 的波浪流动十分符合物理规则。可以说与 Sora 不相上下。
而且,这里两者都提供了Prompt,可以直接对比,也能看到很多有趣的不同。
Vidu:“画室里的一艘船驶向镜头”
‍‍

Sora:“逼真的特写视频,展示两艘海盗船在一杯咖啡内航行时互相争斗的场景。”

宇航员

Vidu更突出的是宇航员在太空生活的状态,Sora则更突出宇航员的人物脸部特写。
Vidu

Sora


1

Vidu如何炼成:正确的技术路线+工程技术迁移

这次发布的视频,所有人肉眼可见的效果大幅进步,背后是如何做到的?
这看起来的突破其实是生数长期积累的结果。
OpenAI Sora的DiT架构融合了Diffusion和Transformer,不仅能够实现与GAN相媲美的图像生成质量,而且还具有更好的扩展性和计算效率。而通过使用Transformer结构代替传统Diffusion模型中常用的U-Net结构,DiT能够以更高效的方式处理数据,尤其是在处理大规模数据时,能够显著减少所需的计算资源,同时在视觉任务下展现出卓越的涌现能力。
在技术路线上,Vidu采用了和Sora完全一致的Diffusion和Transformer融合的架构。Vidu的底层基于生数自研的U-ViT架构,该架构由团队在2022年9月提出,实际上U-ViT是第一个融合了Diffusion 和Transformer的架构,比Sora的DiT架构更早。

图注:《All are Worth Words: A ViT Backbone for Diffusion Models》提出了网络架构U-ViT,这是Vidu最重要的技术基础。

市面上的部分视频生成工具增加视频长度的思路是采用的是插帧技术,这种方法通过在原始视频帧之间插入额外的帧来提升视频的流畅度和长度。插帧技术可以基于不同的算法实现,包括传统的运动补偿(MEMC)、深度学习方法,或是结合编解码器进行智能补帧等。Nvidia的SuperSlomo技术就是通过深度学习算法来预测并插入中间帧以实现视频的高帧率播放。
但同时插帧也会带来一些弊端。比如可能导致的画质下降,尤其是在快速运动或阴影处理上可能出现扭曲或模糊。
另外一些工具通过组合不同的模型和技术来生成看似较长的视频,例如,一些工具可能先使用Stable Diffusion或Midjourney等图像生成模型生成单张图像,然后通过图生视频的技术将这些图像转换成短视频,最后再将这些短视频进行拼接以形成更长的视频内容。
这些方法的确能够增加视频的长度,但它基本上还是依赖于“短视频生成”的工作流程。因此可能会在内容的流畅性和视觉表现上显得不够连贯,缺乏一些自然的过渡效果,而且在叙事和逻辑上可能也不如一个完整的长视频那样紧密。
Vidu基于U-ViT架构,不涉及中间的插帧和拼接等多步骤的处理,文本到视频的转换是直接且连续的。感官上更加“一镜到底”,视频从头到尾连续生成,没有插帧痕迹。
除了U-ViT底层架构的创新,Vidu也离不开生数团队的工程化基础。
在2023年3月,基于 U-ViT 架构,生数在开源的大规模图文数据集 LAION-5B 上训练了 10 亿参数量的多模态模型——UniDiffuser,并将其开源。UniDiffuser主要擅长图文任务,支持图文模态间的任意生成和转换。
据了解,UniDiffuser首次验证了融合架构在大规模训练任务中的可扩展性(Scaling Law),相当于将U-ViT 架构在大规模训练任务中的所有环节流程都跑通。值得一提的,UniDiffuser比最近才切换到DiT架构的Stable Diffsion 3早了一年。
此外,视频可以被看作是图像序列在时间轴上的扩展,因此处理图像的技术和经验可以迁移到视频处理中。例如Sora采用了DALL·E 3的重标注技术,对视觉训练数据进行精细地重标注和描述,使其生成视频时能够更准确地遵循用户的指令。
正是这些积累的工程经验,为生数从图文任务到视频任务的技术迁移打下了基础。
实际上,Vidu在视频生成任务中就复用了生数科技在图文任务中积累的多项技术经验,包括训练加速、并行化训练和低显存训练等,从而优化了训练流程。通过视频数据压缩技术和自研的分布式训练框架,实现了计算精度保证下的通信效率提升、显存开销的大幅度降低,以及训练速度的提升。
从图任务的统一到融合视频能力,Vidu可被视为一款通用视觉模型,能够支持生成更加多样化、更长时长的视频内容。生数也透露,Vidu目前正在加速迭代提升,面向未来,Vidu灵活的模型架构也将能够兼容更广泛的多模态能力。
根据朱军的解释,Vidu意味着We do、We did、We do together。生数也顺势推出了“Vidu大模型合作伙伴计划”。
“主要是希望吸引AI视频场景关注和感兴趣的产业应用伙伴,公司机构,包括一些个人创作者,包括上下游的产业伙伴,起探索应用场景。”
除了自研大模型,生数科技也研发垂类应用产品,旗下有视觉创意设计平台PixWeaver、3D资产创建工具VoxCraft等,按照订阅等形式收费。
至于Vidu的产品化,生数科技留了个悬念,回复了硅星人四个字:
敬请期待。
点个在看,再走吧👀

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
微塑料的有毒物质可直接被皮肤吸收;调查显示,超半数科学家认为流感病毒将引发下一次全球大流行 | 环球科学要闻美股基本面 - 2024_02_28 * 晨报 * 比特币势创2021年10月来最佳单月表现 减半临近或有望挑战纪录高位。“百当建筑重新开口说“中国话”……100、长篇家庭伦理小说《嫁接》第二十七章 何去何从(上部完)中国SAAS的命运击壤科技:2015-2023年611个大品牌持续5年投电视广告-电视影响力无可取代报告【玩具日报】华立科技:2023年盈利5195.69万元;实丰文化一季度净利润417.5万元旅行的尽头是日本(25)早稻田大学,大偎重信,松尾芭蕉居美科技:2023地板行业招商加盟数据分析报告居美科技:2023木门行业招商加盟数据分析报告雷神科技:小巨人,大舞台今日arXiv最热NLP大模型论文:微软发布可视思维链VoT,提高大模型空间想象力上海 800㎡极简别墅,依山而居,1000㎡的花园狠狠羡慕了【居住榜样】卓尔数科:2024品牌营销新赛道:玩转情绪价值不骗你,这台春晚属第一艾瑞咨询:2024年中国SDN与SD-WAN行业研究报告元籁科技:拯救早C晚A,成为一个精力充沛的人,MindLax修眠毯已销往52个国家众成数科:2023年国内医学影像设备市场洞察散记知衣科技:2024年第一季度亚马逊女装TANKS与CAMIS市场趋势与数据分析报告外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生患癌查尔斯心碎坦言:如果哈里回来“就太好了”!可怜天下父母心啊…凯特终于有消息了!大妈排队抢Apple开业礼,还说“乔布斯来了”?地狱笑话……击壤科技:2024年Q1四大平台网剧植入分析报告最佩服佛口哥的想象力,何其宏伟!微软炸裂级单图生数字人,Sora同款思路,“比AI刘强东还真”不平等将永远存在,我们仍要利用想象力并享受行动主义 | 一周荐书一场航母大秀,七匹狼打开国牌焕新想象力精选SDE岗位丨Amazon、Apple、Anduril Industries等公司开放岗位!转发|开幕式嘉宾揭晓!2024哈佛中国教育论坛 “人文与科技:迎接教育新浪潮”诗经有多美?没读过就太可惜了AI换脸以假乱真!蚂蚁数科发布反DeepFake产品,还设百万奖金池邀请黑客找bug居美科技:2023卫浴行业招商加盟数据分析报告【早鸟售票|开幕式嘉宾揭晓】2024哈佛中国教育论坛 “人文与科技:迎接教育新浪潮”联合实验室&飞驳科技:2024医疗AI数字医生与健康科普大模型研究报告
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。