Redian新闻
>
Vidu直逼Sora,生数科技:还说“中国sora”就太没想象力了【内附Vidu逐帧拆解】

Vidu直逼Sora,生数科技:还说“中国sora”就太没想象力了【内附Vidu逐帧拆解】

公众号新闻
作者|周一笑,丸丸柚贝

编辑|王兆洋

可媲美Sora的中国文生视频模型,就这么来了。
4月27日上午,在2024中关村论坛上,生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型——Vidu,它所展示的效果立刻刷屏。
据生数科技,Vidu支持一键生成16秒、1080P分辨率的视频内容。而从视频来看,Vidu的一致性、运动幅度都达到了Sora水准,虽然时长还比不上Sora的最长60秒,但整体上已经可以对标Sora。
生数的发布一如既往的低调,并没有什么发布会。但效果引发广泛关注,一时间“中国Sora”的称谓四起。
但我们第一时间和生数做了交流,这家核心团队来自清华人工智能研究院、由清华人工智能研究院副院长朱军博士牵头的公司对我们表示:
Vidu的视频时长会继续突破,“另外,我们的架构是支持多模态的,视频模态只是当前阶段最重要的。”据生数透露,Vidu目前正在加速迭代提升,面向未来,Vidu灵活的模型架构也将能够兼容更广泛的多模态能力。
言下之意,还说生数科技是“中国sora”,就有点太没想象力了。
生数的野心比这更大。

1

逐帧拆解对比Vidu与Sora

在今年3月12日的一次交流中,生数科技联合创始人兼CEO唐家渝曾对我们表示:
“今年内一定能达到Sora目前版本的效果,但很难说是三个月还是半年”。
据我们了解,生数三月份就实现了8秒的视频生成,在四月份突破了16秒生成。今天的发布背后,短短两个月时间完成巨大进步。
这次的展示中,到底有哪些细节值得关注,我们第一时间逐帧对比了Vidu与Sora,话不多说,先来一起看一下。

经典走路名场面

Sora这个街头美女走路的视频也是刷爆了各大社交媒体,Vidu一出来就贴脸开大!不光生成街头美女走路,街头帅哥走路就连街头熊都给整出来了!
首先从人物、背景来看,Vidu的生成效果真的和Sora不相上下,但是人物动作协调性与Sora相比还是稍弱一些。

Vidu

Sora

行驶中的越野车

越野车在丛林小道中穿梭,Vidu的丛林背景略有3D动画的效果,更像游戏中的一些场景,Sora的背景更具真实性一些。
Vidu

Sora

中国龙

这一视频场景,二者生成的风格不太相同,Vidu展示的是现实中虚拟龙的形象,Sora是现实中舞龙舞狮真实存在的场景,但是二者对于龙的形象各种细节也都展现出了各自的特点。
另外,除了主体龙之外的背景两者都很真实,但是Sora的视频画面丰富度更高。
Vidu

Sora

人物眼睛特写

这谁能分得清是真实拍摄还是AI生成啊!这一局我感觉Vidu真的不输Sora!
Vidu

Sora

电视合集

Vidu确实是不怕对比的!这个画面丰富度和运镜真是一点不比Sora差。
Vidu

Sora

狗狗

Sora生成的狗狗动态感、真实感更强一些,但是Vidu对狗狗游泳腿上的毛漂浮的细节处理也相当不错。
Vidu

Sora

猫和人
Vidu所展现是“带珍珠的猫”,虽然有点玄幻,但是镜头旋转之后,毛发细节感也是表现不错。
Vidu

Sora

船与“海”

Vidu 的波浪流动十分符合物理规则。可以说与 Sora 不相上下。
而且,这里两者都提供了Prompt,可以直接对比,也能看到很多有趣的不同。
Vidu:“画室里的一艘船驶向镜头”
‍‍

Sora:“逼真的特写视频,展示两艘海盗船在一杯咖啡内航行时互相争斗的场景。”

宇航员

Vidu更突出的是宇航员在太空生活的状态,Sora则更突出宇航员的人物脸部特写。
Vidu

Sora


1

Vidu如何炼成:正确的技术路线+工程技术迁移

这次发布的视频,所有人肉眼可见的效果大幅进步,背后是如何做到的?
这看起来的突破其实是生数长期积累的结果。
OpenAI Sora的DiT架构融合了Diffusion和Transformer,不仅能够实现与GAN相媲美的图像生成质量,而且还具有更好的扩展性和计算效率。而通过使用Transformer结构代替传统Diffusion模型中常用的U-Net结构,DiT能够以更高效的方式处理数据,尤其是在处理大规模数据时,能够显著减少所需的计算资源,同时在视觉任务下展现出卓越的涌现能力。
在技术路线上,Vidu采用了和Sora完全一致的Diffusion和Transformer融合的架构。Vidu的底层基于生数自研的U-ViT架构,该架构由团队在2022年9月提出,实际上U-ViT是第一个融合了Diffusion 和Transformer的架构,比Sora的DiT架构更早。

图注:《All are Worth Words: A ViT Backbone for Diffusion Models》提出了网络架构U-ViT,这是Vidu最重要的技术基础。

市面上的部分视频生成工具增加视频长度的思路是采用的是插帧技术,这种方法通过在原始视频帧之间插入额外的帧来提升视频的流畅度和长度。插帧技术可以基于不同的算法实现,包括传统的运动补偿(MEMC)、深度学习方法,或是结合编解码器进行智能补帧等。Nvidia的SuperSlomo技术就是通过深度学习算法来预测并插入中间帧以实现视频的高帧率播放。
但同时插帧也会带来一些弊端。比如可能导致的画质下降,尤其是在快速运动或阴影处理上可能出现扭曲或模糊。
另外一些工具通过组合不同的模型和技术来生成看似较长的视频,例如,一些工具可能先使用Stable Diffusion或Midjourney等图像生成模型生成单张图像,然后通过图生视频的技术将这些图像转换成短视频,最后再将这些短视频进行拼接以形成更长的视频内容。
这些方法的确能够增加视频的长度,但它基本上还是依赖于“短视频生成”的工作流程。因此可能会在内容的流畅性和视觉表现上显得不够连贯,缺乏一些自然的过渡效果,而且在叙事和逻辑上可能也不如一个完整的长视频那样紧密。
Vidu基于U-ViT架构,不涉及中间的插帧和拼接等多步骤的处理,文本到视频的转换是直接且连续的。感官上更加“一镜到底”,视频从头到尾连续生成,没有插帧痕迹。
除了U-ViT底层架构的创新,Vidu也离不开生数团队的工程化基础。
在2023年3月,基于 U-ViT 架构,生数在开源的大规模图文数据集 LAION-5B 上训练了 10 亿参数量的多模态模型——UniDiffuser,并将其开源。UniDiffuser主要擅长图文任务,支持图文模态间的任意生成和转换。
据了解,UniDiffuser首次验证了融合架构在大规模训练任务中的可扩展性(Scaling Law),相当于将U-ViT 架构在大规模训练任务中的所有环节流程都跑通。值得一提的,UniDiffuser比最近才切换到DiT架构的Stable Diffsion 3早了一年。
此外,视频可以被看作是图像序列在时间轴上的扩展,因此处理图像的技术和经验可以迁移到视频处理中。例如Sora采用了DALL·E 3的重标注技术,对视觉训练数据进行精细地重标注和描述,使其生成视频时能够更准确地遵循用户的指令。
正是这些积累的工程经验,为生数从图文任务到视频任务的技术迁移打下了基础。
实际上,Vidu在视频生成任务中就复用了生数科技在图文任务中积累的多项技术经验,包括训练加速、并行化训练和低显存训练等,从而优化了训练流程。通过视频数据压缩技术和自研的分布式训练框架,实现了计算精度保证下的通信效率提升、显存开销的大幅度降低,以及训练速度的提升。
从图任务的统一到融合视频能力,Vidu可被视为一款通用视觉模型,能够支持生成更加多样化、更长时长的视频内容。生数也透露,Vidu目前正在加速迭代提升,面向未来,Vidu灵活的模型架构也将能够兼容更广泛的多模态能力。
根据朱军的解释,Vidu意味着We do、We did、We do together。生数也顺势推出了“Vidu大模型合作伙伴计划”。
“主要是希望吸引AI视频场景关注和感兴趣的产业应用伙伴,公司机构,包括一些个人创作者,包括上下游的产业伙伴,起探索应用场景。”
除了自研大模型,生数科技也研发垂类应用产品,旗下有视觉创意设计平台PixWeaver、3D资产创建工具VoxCraft等,按照订阅等形式收费。
至于Vidu的产品化,生数科技留了个悬念,回复了硅星人四个字:
敬请期待。
点个在看,再走吧👀

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
不平等将永远存在,我们仍要利用想象力并享受行动主义 | 一周荐书AI+数字化,想象力的极限在何方?“你什么时候洗澡”!已婚华男偷拍租客 短息内容字字猥琐 被抓还说“自己性格内向”大妈排队抢Apple开业礼,还说“乔布斯来了”?地狱笑话……为啥可以说“吃食堂”,却不说“吃厨房”“吃饭店”?确认!数智零售服务商「元数科技」将亮相2024第十届全球母婴大会暨母婴行业观察十周年庆美股基本面 - 2024_02_28 * 晨报 * 比特币势创2021年10月来最佳单月表现 减半临近或有望挑战纪录高位。“百100、长篇家庭伦理小说《嫁接》第二十七章 何去何从(上部完)想象力在实现目标中的力量 | 今日心理学今日arXiv最热NLP大模型论文:微软发布可视思维链VoT,提高大模型空间想象力不骗你,这台春晚属第一澳洲华人脸被丢干净了!追极光后变成这样,“真是太没素质了!”散记「生数科技」完成数亿元Pre-A轮融资,百度投了|36氪首发【求职战报】全球金融交易平台Deutsche Börse Systems销售运营面试邀约!最佩服佛口哥的想象力,何其宏伟!美打压中国高科技:从钱入手“中国寿险科技应用高峰论坛”及“中国财险科技应用高峰论坛“将于7月在京召开9家AI相关公司获融资;3大科技巨头被曝将面临反垄断调查;Vidu重大更新,生成32秒视频,支持音视频合成丨AI情报局转发|开幕式嘉宾揭晓!2024哈佛中国教育论坛 “人文与科技:迎接教育新浪潮”霆升科技:TINGSN Sonic Eyes 10首款国产心腔内超声诊断导管【动脉严选新品鉴第60期】当老外说“You are a noodle”,可不是在说“你是面条”!真正的意思你绝对想不到!【早鸟售票|开幕式嘉宾揭晓】2024哈佛中国教育论坛 “人文与科技:迎接教育新浪潮”是谁说“留美不再流行”?美国最新留学生数据报告出炉!加州国际生数量领跑!南部地区国际生增长迅速!AIGC时代的赛博游乐园,BUD想用人工智能重塑元宇宙想象力|100个革新产品(8/100)一场航母大秀,七匹狼打开国牌焕新想象力旅行的尽头是日本(25)早稻田大学,大偎重信,松尾芭蕉2025届秋招第一波!加拿大CIBC、BCG、谷歌…250+岗位开放!【内附岗位汇总表】太没品!儿子和小朋友起冲突,美60岁男子狠掐10岁男童脖子,差点勒死。外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生开眼了!北美巨星Drake出售$8800万豪宅!贫穷限制了想象力!只因答不上孩子的问题,母亲竟将三个娃全部勒死?!“小孩的问题都不会,我太没用...”诗经有多美?没读过就太可惜了雷神科技:小巨人,大舞台患癌查尔斯心碎坦言:如果哈里回来“就太好了”!可怜天下父母心啊…凯特终于有消息了!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。