Redian新闻
>
中国版 Sora 来了!一键生成 16 秒 1080P 视频,清华系团队能对标 OpenAI 吗?

中国版 Sora 来了!一键生成 16 秒 1080P 视频,清华系团队能对标 OpenAI 吗?

公众号新闻

追赶 OpenAI 文生视频模型 Sora 需要多久?
在中关村论坛未来人工智能先锋论坛上,中国首个长时长、高一致性、高动态视频大模型 Vidu 正式发布,支持一键生成长达 16 秒、分辨率为 1080P 的高清视频内容。
Vidu 生成的视频 demo 甫一发布,便迅速在各大社交平台的热搜榜上「攻城略地」,被誉为效果层面最接近 Sora 的国内大模型。
中国版 Sora 来了,视频大模型 Vidu 登场
Sora 生成的视频之所以令人惊艳,很大程度上归功于其对真实物理世界运动的精确模拟,Vidu 也不遑多让。
以加速行驶在土路上的 SUV 为例,Vidu 生成的扬尘效果要比 Sora 更到位。
并且,无论是光线的反射,还是阴影的变化,Vidu 的每个画面都处理得恰到好处。
Vidu
Sora
在走路镜头的模拟上,Sora 和 Vidu 算得上棋逢对手。
视频中的人物走起路来自信淡然,特别是周围环境的渲染,如霓虹灯在潮湿街面水渍上的倒影,简直是加分项,让画面的逼真程度直线上升。
Vidu
Sora
Vidu 不仅能生成人物,还能生成走路的熊,人物一致性让人眼前一亮。
当涉及到动作协调性时,Sora 的表现要更胜一筹。Vidu 则自带 AI 的「顿挫感」,走路姿势略显僵硬,还需要「多加练习」。
多复杂镜头、多景别的切换是 Sora 拉开其他视频生成模型的一大杀招。
Vidu 在这方面也不甘示弱,尽管电视机画面的细节处理还有提升空间,但流畅的镜头转换犹如真人导演的精心编排。
画室里的一艘船随着海浪摇摆,木头玩具船在地毯上航行,Vidu 不仅脑洞大开,画面效果更是令人赞叹。


在理解中国文化元素上,Sora 生成的国外唐人街舞龙环节,画面细节丰富,整体文化氛围是拉满的。
Vidu 生成的「龙」更靠近西方世界的龙形象,在中国宫殿的建筑环境里稍微有些格格不入。
不过熊猫在湖畔弹吉他的画面,倒有些「忽闻江上弄哀筝」的意境。
Vidu
Sora
戴珍珠耳环的橙猫、优雅眼神杀、缓慢抬头、陶艺 DIY,视觉效果简直爆棚,让人分不清是现实还是电影场景。
清华打造,Vidu 先行一步
Vidu 是清华大学联合大模型创业公司生数科技,用两个半月交出的一份新答卷。
Vidu,we do, we did, we do together!感谢小伙伴们日以继夜的坚持,在实验室原创架构上开花结果。
据证券时报消息, Vidu 发布后,清华大学 AI 研究院副院长、生数科技首席科学家朱军在朋友圈写下了上面这段话。
生数科技官方介绍称, Vidu 模型之所以取得快速突破,源自于该团队在贝叶斯机器学习和多模态大模型的长期积累和多项原创性成果。
早在 2022 年 9 月,出于对标当时刚刚开源的 Stable Diffusion, 清华团队提交了一篇名为《All are Worth Words: A ViT Backbone for Diffusion Models》的论文,里面提出了全球首个 Diffusion 与 Transformer 融合的架构,比 Sora 采用的 DiT 架构还要再早两个月。
到了去年 3 月,团队开源了全球首个基于 U-ViT 融合架构的多模态扩散模型 UniDiffuser,率先完成了 U-ViT 架构的大规模可扩展性验证,一举实现了从简单的文生图扩展到图生文、图文改写等多种功能。
朱军曾透露,之所以选择先做图文任务,而不是视频生成,完全是基于算力的考虑和对技术成熟度的预判,但在图文领域的技术积累,也为后续长视频的爆发积攒了不少的经验。
生数科技官方介绍,正是基于对 U-ViT 架构的深入理解以及长期积累的工程与数据经验,团队才能在短短两个月里进一步突破了长视频表示与处理的多项关键技术,成功研发出 Vidu 视频大模型。
3 月份的 Vidu 还只能生成 8 秒的视频,包括当时生数科技联创兼 CEO 唐家渝在媒体沟通会上表示,今年内一定能达到 Sora 目前版本的效果,但很难说是三个月还是半年。
如今,短短一个月过去,Vidu 再次在技术上迎来突破,不仅画面效果逼近 Sora 的水准,视频生成的时长也扩展到了 16 秒。
正如那句老话,起跑领先只是一时之快,大模型之战笑到最后才是赢家。
前不久,我们提到 OpenAI 和艺术家合作发布的七部专业级短片在影视界一石激起千层浪,让不少电影人感叹饭碗不保。
然而,与 Sora 合作的加拿大制作公司 Shy Kids 透露了 Sora 一些实际的内幕:从 Sora 生成的素材到最终成品之间的差距,不亚于「买家秀」和「买家秀」的区别。

具体来说,生成的原始素材与最终使用素材的比例高达 300:1,也就是说,为得到一秒的有效画面,制作团队需要并审查长达 300 秒的原始素材,对筛选和判断能力提出极高的要求。
这就好比,我们用 AI 来简化任务,却忘了先要教会 AI 怎么简化。
从原始素材的打磨到最终成品的诞生,还需要如同传统影视工作流一般,经过大量后期处理工作,以至于 Sora 的制作流程更适合于「先打枪后画靶子」——根据生成的素材「改剧本」,而不是按照剧本生成画面。
电影艺术的魅力,很大程度源自于导演对镜头语言的精妙运用。推拉摇移升降跟往往构成电影视觉叙事的骨架。
OpenAI 的研究人员最初在开发 Sora 的过程中,更多地将注意力集中在图像生成的技术层面,却没有考虑到创作者在实际应用中对镜头语言的需求。
Sora 这些「尚未成神」的状态,为其他竞争者,尤其是国内的研发团队提供了迎头赶上宝贵的时间窗口。一大批有望对标甚至超越 Sora 的大模型也正在涌现。
上个月,北大-兔展 AIGC 联合实验室发起了一项 Sora 的开源复现计划。现在 Open-Sora 已经支持单镜头生成长达 16 秒的视频生成,分辨率最高可达 720P。
并且该团队还声称支持任何宽高比,不同分辨率和时长的文本到图像、文本到视频、图像到视频、视频到视频和无限长视频的生成需求。
与此同时,在 AI 视频生成技术的赛道上,腾讯的 VideoCrafter2、Morph Studio、NeverEnds 也都是国内发布类 Sora 产品的佼佼者。
Vidu 是国内第一个有希望追赶 Sora 的视频生成大模型,但也不会是唯一一个迎头赶上的大模型。



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
浓人,nèng死淡人清华系出手,推出全面对标Sora的视频大模型外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生曝谷歌Python团队全员被裁;清华系团队“国产Sora”:视频突破16秒;“社恐”周鸿祎:喊话贾跃亭、雷军送自己车|AI周报OpenAI CEO最新演讲:GPT-5性能远超GPT-4;媲美Sora,视频生成模型EMO上线通义APP丨AIGC日报Open-Sora全面开源升级:支持16s视频生成和720p分辨率Open-Sora 全面开源升级:支持单镜头16s视频生成和720p分辨率奇语共欣赏,疑义相与析—为“清场式遥遥领先”释义酷比魔方 GTBook 15 Gen2 笔记本现身官网:12 代 N95、15.6 英寸 1080P 屏DeepMusic刘晓光:深度解读AIGC音乐创作技术原理,明年实现一键生成自唱歌曲丨GenAICon 2024直播网友AI写歌征婚,实测最新登榜音乐SOTA模型:免费无限次,一键生成速读60万字《马斯克传》、手机一键生成PPT,零一万物上线AI生产力工具「万知」10秒整理搜索结果,脑图表格一键生成,网友:搜索终于有了该有的样子中国如何复刻Sora,华人团队长文解构!996 OpenAI研究员:Sora是视频GPT-2时刻进度赶超大厂,中国最接近Sora的视频模型出自一家「清华系」公司|New ThingsSora之后,OpenAI Lilian Weng亲自撰文教你从头设计视频生成扩散模型OpenAI releases realH800竟然能白嫖了!还能一键部署Open Sora,潞晨云YYDS!国产 Sora 的秘密,藏在这个清华系大模型团队中长篇小说 侦破小组之迷案追踪 第三十五章Sora 加入 Adobe 全家桶!一句话 P 视频,真成「美图秀秀」了苹果加紧与OpenAI谈判,在iOS18加入AI功能/小米高管否认雷军被李想锁车里/「中国版Sora」发布Open-Sora 全面开源升级:支持 16s 视频生成和 720p 分辨率新旧家具的联想1199 元起,酷比魔方 GTBook 15 Gen2 笔记本开售:12 代 N95、15.6 英寸 1080P 屏青烟一缕入大漠(八)北碚的记忆:微软刚刚发布了VASA-1:单张照片生成超现实真人视频,还没开源但是性能SOTA[干货] person 的复数是 people 还是 persons?干货:一键生成任意前端项目清华系创业新势力!把大模型塞进AR眼镜,高铁上能用10块大屏办公获千万级天使轮融资,华为系团队以AI大模型改造用工模式丨早起看早期[龙年卜卦]退休的年纪清华团队国产“Sora”火了!画面效果对标OpenAI,长度可达16秒,还能读懂物理规律百亿tokens免费额度,清华系明星AI公司的羊毛薅起来当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律全球首个自主进化多模态MoE震撼登场!写真视频击败Sora,人大系团队自研底座VDT
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。