追赶 OpenAI 文生视频模型 Sora 需要多久?在中关村论坛未来人工智能先锋论坛上,中国首个长时长、高一致性、高动态视频大模型 Vidu 正式发布,支持一键生成长达 16 秒、分辨率为 1080P 的高清视频内容。Vidu 生成的视频 demo 甫一发布,便迅速在各大社交平台的热搜榜上「攻城略地」,被誉为效果层面最接近 Sora 的国内大模型。中国版 Sora 来了,视频大模型 Vidu 登场Sora 生成的视频之所以令人惊艳,很大程度上归功于其对真实物理世界运动的精确模拟,Vidu 也不遑多让。以加速行驶在土路上的 SUV 为例,Vidu 生成的扬尘效果要比 Sora 更到位。并且,无论是光线的反射,还是阴影的变化,Vidu 的每个画面都处理得恰到好处。ViduSora在走路镜头的模拟上,Sora 和 Vidu 算得上棋逢对手。视频中的人物走起路来自信淡然,特别是周围环境的渲染,如霓虹灯在潮湿街面水渍上的倒影,简直是加分项,让画面的逼真程度直线上升。ViduSoraVidu 不仅能生成人物,还能生成走路的熊,人物一致性让人眼前一亮。当涉及到动作协调性时,Sora 的表现要更胜一筹。Vidu 则自带 AI 的「顿挫感」,走路姿势略显僵硬,还需要「多加练习」。多复杂镜头、多景别的切换是 Sora 拉开其他视频生成模型的一大杀招。Vidu 在这方面也不甘示弱,尽管电视机画面的细节处理还有提升空间,但流畅的镜头转换犹如真人导演的精心编排。画室里的一艘船随着海浪摇摆,木头玩具船在地毯上航行,Vidu 不仅脑洞大开,画面效果更是令人赞叹。
在理解中国文化元素上,Sora 生成的国外唐人街舞龙环节,画面细节丰富,整体文化氛围是拉满的。Vidu 生成的「龙」更靠近西方世界的龙形象,在中国宫殿的建筑环境里稍微有些格格不入。不过熊猫在湖畔弹吉他的画面,倒有些「忽闻江上弄哀筝」的意境。ViduSora戴珍珠耳环的橙猫、优雅眼神杀、缓慢抬头、陶艺 DIY,视觉效果简直爆棚,让人分不清是现实还是电影场景。清华打造,Vidu 先行一步Vidu 是清华大学联合大模型创业公司生数科技,用两个半月交出的一份新答卷。Vidu,we do, we did, we do together!感谢小伙伴们日以继夜的坚持,在实验室原创架构上开花结果。 据证券时报消息, Vidu 发布后,清华大学 AI 研究院副院长、生数科技首席科学家朱军在朋友圈写下了上面这段话。生数科技官方介绍称, Vidu 模型之所以取得快速突破,源自于该团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。早在 2022 年 9 月,出于对标当时刚刚开源的 Stable Diffusion, 清华团队提交了一篇名为《All are Worth Words: A ViT Backbone for Diffusion Models》的论文,里面提出了全球首个 Diffusion 与 Transformer 融合的架构,比 Sora 采用的 DiT 架构还要再早两个月。到了去年 3 月,团队开源了全球首个基于 U-ViT 融合架构的多模态扩散模型 UniDiffuser,率先完成了 U-ViT 架构的大规模可扩展性验证,一举实现了从简单的文生图扩展到图生文、图文改写等多种功能。朱军曾透露,之所以选择先做图文任务,而不是视频生成,完全是基于算力的考虑和对技术成熟度的预判,但在图文领域的技术积累,也为后续长视频的爆发积攒了不少的经验。生数科技官方介绍,正是基于对 U-ViT 架构的深入理解以及长期积累的工程与数据经验,团队才能在短短两个月里进一步突破了长视频表示与处理的多项关键技术,成功研发出 Vidu 视频大模型。3 月份的 Vidu 还只能生成 8 秒的视频,包括当时生数科技联创兼 CEO 唐家渝在媒体沟通会上表示,今年内一定能达到 Sora 目前版本的效果,但很难说是三个月还是半年。如今,短短一个月过去,Vidu 再次在技术上迎来突破,不仅画面效果逼近 Sora 的水准,视频生成的时长也扩展到了 16 秒。正如那句老话,起跑领先只是一时之快,大模型之战笑到最后才是赢家。前不久,我们提到 OpenAI 和艺术家合作发布的七部专业级短片在影视界一石激起千层浪,让不少电影人感叹饭碗不保。然而,与 Sora 合作的加拿大制作公司 Shy Kids 透露了 Sora 一些实际的内幕:从 Sora 生成的素材到最终成品之间的差距,不亚于「买家秀」和「买家秀」的区别。具体来说,生成的原始素材与最终使用素材的比例高达 300:1,也就是说,为得到一秒的有效画面,制作团队需要并审查长达 300 秒的原始素材,对筛选和判断能力提出极高的要求。这就好比,我们用 AI 来简化任务,却忘了先要教会 AI 怎么简化。从原始素材的打磨到最终成品的诞生,还需要如同传统影视工作流一般,经过大量后期处理工作,以至于 Sora 的制作流程更适合于「先打枪后画靶子」——根据生成的素材「改剧本」,而不是按照剧本生成画面。电影艺术的魅力,很大程度源自于导演对镜头语言的精妙运用。推拉摇移升降跟往往构成电影视觉叙事的骨架。OpenAI 的研究人员最初在开发 Sora 的过程中,更多地将注意力集中在图像生成的技术层面,却没有考虑到创作者在实际应用中对镜头语言的需求。Sora 这些「尚未成神」的状态,为其他竞争者,尤其是国内的研发团队提供了迎头赶上宝贵的时间窗口。一大批有望对标甚至超越 Sora 的大模型也正在涌现。上个月,北大-兔展 AIGC 联合实验室发起了一项 Sora 的开源复现计划。现在 Open-Sora 已经支持单镜头生成长达 16 秒的视频生成,分辨率最高可达 720P。并且该团队还声称支持任何宽高比,不同分辨率和时长的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。与此同时,在 AI 视频生成技术的赛道上,腾讯的 VideoCrafter2、Morph Studio、NeverEnds 也都是国内发布类 Sora 产品的佼佼者。Vidu 是国内第一个有希望追赶 Sora 的视频生成大模型,但也不会是唯一一个迎头赶上的大模型。