Redian新闻
>
国产 Sora 的秘密,藏在这个清华系大模型团队中

国产 Sora 的秘密,藏在这个清华系大模型团队中

科技

在视频 AIGC 领域,出现一个有力的国产选手。

作者 | 刘芮Ray
编辑 | 靖宇
2024 年,Sora 一直活在聚光灯下。
马斯克不惜溢美之词,称「人类愿赌服输」;红衣教主周鸿祎眼中,借助 Sora 人类实现 AGI 将缩减至一两年。就连卖付费课程的微商,也拿「Sora」重新组装了自己的镰刀。
这种狂热的蔓延,从美国到中国,从一级到二级甚至再到三级市场,像涟漪一样,播散向全世界。
因为,在理想情况下,长视频生成的底层逻辑,约等于世界模型。十几秒、几十秒的视频中,包含了基础的图像处理、空间关系、物理规律、因果逻辑等等现实规律与知识的映射。小处看,可以掀翻传统电影、游戏制作的桌子,大处看,通往通用人工智能,这是关键一步。
同时,在一众长视频生成算法中,Sora 的技术突破是具备革命性的。相比传统的 Stable Diffusion,Sora 采用的 Diffusion 加 Transformer 架构,既克服了 Stable Diffusion 扩展性的缺失,更是在生成内容的准确性和灵活性上有了质的飞跃。
唯一美中不足是,Sora 并非开源算法。
没了开源,也就没了复现的可能;没了复现可能,那么哪怕经管出身的合伙人睡前读物变成了《Scalable diffusion models with transformers》,投资经理一周跑遍北京、深圳科技产业园掘地三尺,所有人都不得不承认一个现实,尽管视频大模型企业众多,但或许尚未等到国产 Sora 正式发掘,视频大模型的淘汰赛就已经走到尾声
业内「哇声一片」,一级市场却空前焦虑。中国 AI 企业,只能眼睁睁看着自己距离 Sora 越来越远吗?

01

「国产 Sora」来了?


场上 VC 几乎绝望之际,谁也没曾想到,国产 Sora 的秘密,最先揭晓谜底的,竟是成立仅一年多的大模型企业——生数科技。
近日,生数科技联合清华大学宣布推出国内首个基于纯自研 U-ViT 架构的视频大模型「Vidu」,支持一键生成长达 16 秒、分辨率高达 1080p 的高清视频内容。从官宣的短片来看,Vidu 在多镜头生成、时间和空间一致性、模拟真实物理世界以及想象力等方面,几乎与 Sora 齐平
而相比其他国产「类 Sora」的工作,Vidu 一个最明显的特点就是,画面时间足够长。
提示词:一艘木头玩具船在地毯上航行注:这是 Vidu 放出的一段官方视频,可在生数科技旗下 PixWeaver 平台查看
一直以来,十秒几乎是「国产 Sora」的一个生死线。要想达到或者超过十秒,则意味着对训练素材的积累,以及如何解决算法记忆消失问题,需要做出深厚的研究。
这是 Vidu 放出的另一段官方视频,从视频中可以看到,白色老式 SUV 在山坡土路行驶中,滚动的轮胎会扬起灰尘,轨迹自然连贯;周围树林,也在阳光的照射下,遵循真实世界中的投射规律,留下光影斑驳。
形成对比的是,保证视频时长的前提下,大部分国产「类 Sora」都很难保持人物和场景的连贯,同时也难以做到真实地遵循物理世界规律,比如吃汉堡会留下咬痕、汽车开过会留下尾气与灰尘的痕迹。
根据行业人士透露,目前市面上之前的一些「类 Sora」模型,做到长时长的路径,其实大多是通过插帧的方式,在视频的每两帧画面中增加一帧或多帧来提升视频的长度。
这种方法就需要对视频进行逐帧处理,通过插入额外的帧来改善视频长度和质量。整体画面就会显得僵硬而又缓慢。
但生数科技的作用原理明显不同。基于单一模型完全端到端生成实现底层算法,直观上,我们可以看到「一镜到底」的丝滑感,视频从头到尾连续生成,没有插帧痕迹。
另外,还有一些工具类的长视频采用了「换汤不换药」的做法。底层集合了许多其他模型工作,比如先基于 Stable Diffusion、Midjourney 生成单张画面,再图生 4s 短视频,再做拼接。也就是说,想要一个十几秒长视频,那就把多个 4s 短视频拼在一起就好,不仅整体的画面流畅度会大打折扣,底层也并没有实现长视频生成能力的突破。
除了生成时长有了质的突破,从官宣视频中我们还可以看到,Vidu 还做到了画面连续流畅,且有细节、逻辑连贯。尽管都是运动画面,但几乎不会出现穿模、鬼影、运动不符合现实规律的问题。
做一个简单对比,以下是某热门视频大模型团队的视频生成效果截图,虽然整体视频长度才四秒,但仅仅一个准备跳跃的动作指令,就足以让画面里的小猫变成 6 只脚,或者三根尾巴的「鬼影」。
对比如此鲜明,让人不禁疑惑:为何ChatGPT发布后,市场马上涌现一批「达到 GPT 3.5,逼近 GPT4.0」的大模型产品。同样是追赶,为什么类 Sora 产品却如此困难?
答案是,ChatGPT 发布不久,Meta LLama2 开源,开源平替解决了国产 ChatGPT 技术复现的燃眉之急。而 Sora 没有开源,技术细节未公开,这就导致,实现「国产 Sora」就只剩了自研这一条路可以走。
根据 OpenAI 披露的技术报告,Sora 核心技术架构背后源自一篇名为《Scalable Diffusion Models with Transformers》的论文,论文提出了一个将 Diffusion(扩散模型)和 Transformer 融合的架构——DiT,后面被 Sora 采用。
巧合的是,比 DiT 早两个多月,清华团队就提出了用 Transformer 替代基于 CNN 的 U-Net 的网络架构 U-ViT。从架构路线上,两者并无二致。甚至过程中,还曾出现一个小插曲,由于发布时间更早,当年计算机视觉顶会 CVPR 2023 收录了清华大学的 U-ViT 论文,却以「缺乏创新」为由拒稿了 Sora 底层使用的 DiT 论文。
生数科技的创始团队正是源于清华大学该论文团队。公司的 CTO 鲍凡就是该篇论文的第一作者,此次发布的 Vidu 模型底层采用的就是 U-ViT 架构。也就是说,生数科技并不属于追逐 Sora 的一员,而是一早就踏在了同一起跑线,甚至是更早。
由此窥见,生数科技成立时间虽短,但来头却不小。
深扒发现,论人才,其团队核心成员来自清华大学人工智能研究院,是国内最早开展深度生成式研究的团队。论技术,团队多项研究成果被 OpenAI、苹果、Stability AI 等应用于 DALL·E 2、Stable Diffusion 等模型中,是现阶段在生成式领域发表论文成果数最多的国内团队。论背景,生数科技已获得蚂蚁集团、启明创投、BV 百度风投、字节系锦秋基金等多家知名机构的认可,完成数亿元融资。
而真做到这一切的,为什么是生数?

02

为什么是生数科技?


最重要的答案或许是,生数科技早早走对了技术路线。
与市面上大部分视频生成算法采用基于 U-Net 卷积架构的传统扩散模型不同,生数科技此次发布的 Vidu 与 Sora 采用的都是融合架构(即上文提到的 U-ViT 与 DiT)。
所谓融合架构,可以理解为 Diffusion(扩散模型)与 Transformer 的融合。
Transformer 架构被熟知应用于大语言模型,该架构的优势在于 scale 特性,参数量越大,效果越好,而 Diffusion 被常用于传统视觉任务(图像和视频生成)中。
融合架构就是在 Diffusion Model(扩散模型)中,用 Transformer 替换常用的 U-Net 卷积网络,将 Transformer 的可扩展性与 Diffusion 模型处理视觉数据的天然优势进行融合,能在视觉任务下展现出卓越的涌现能力。
2022 年 9 月,团队提交了 U-ViT 论文,在全球首次提出将扩散模型与 Transformer 融合的架构思路。两个多月之后推出的 DiT 架构同样采取了这一思路,而后被 Sora 采用。
相比仅在 ImageNet 上做了实验的 DiT,U-ViT 还在小数据集(CIFAR10、CelebA)、ImageNet、图文数据集 MSCOCO 均做了实验。而且,相比传统的 Transformer,U-ViT 提出了一项「长连接」的技术,大大提升了训练收敛速度。
之后,团队继续深入。2023 年 3 月,团队基于 U-ViT 架构在大规模图文数据集 LAION-5B 上训练出近 10 亿参数量模型 UniDiffuser,并将其开源,UniDiffuser 支持图文模态间的任意生成和转换。
UniDiffuser 的实现有一项重要的价值——首次验证了融合架构在大规模训练任务中的可扩展性(Scaling Law),相当于将融合架构在大规模训练任务中的所有环节流程都跑通。
值得一提的是,同为图文模型,UniDiffuser 比最近才切换至 DiT 架构的 Stable Diffusion 3 领先了一年。
不过,虽然都选了融合架构,但在后续产品路径的推进上,基于资源等方面的考虑,Sora 团队选择「每天基本不睡觉高强度工作了一年」all in 长视频,生数科技则选择从 2D 图像开始,再进一步拓展到 3D 和视频。
路线没有对错之分,一个基本常识是,国内创业公司,技术路线可以与 OpenAI 一样,说明目光足够长远;但商业化打法参考 OpenAI 就是自寻死路——Sora 背后是 OpenAI 的技术实力,以及微软的几乎无限制的算力支持,普通公司没有学习的资本。
也是因此,回顾整个 2023 年,生数科技主要资源都放在了图像和 3D 上。到了今年 1 月份,生数科技才正式上线 4 秒短视频生成,2 月份 Sora 发布之后,公司正式攻坚,很快便在 3 月份就突破了 8 秒的视频生成,4 月份实现 16 秒长度突破,生成质量与时长,全方面取得突破。
仅仅两个月的时间就完成从 4 秒到 16 秒的训练任务,速度令人吃惊。
背后不仅源自技术架构层面的「前瞻」,也在于通过过去图像到 3D 到视频的循序渐进,让团队积累了高效的工程化经验。
视频本质上是图像在时间序列上的扩增,可以看成连续多帧的图像,所以先从图像开始入手,基础建设类的工程化工作,比如数据的收集、清洗、标注以及模型的高效训练等经验,是可以复用的。Sora 就是这么做的:它采用了 DALL·E 3 的重标注技术,通过为视觉训练数据生成详细的描述,使模型能够更加准确地遵循用户的文本指令生成视频。
据悉,「Vidu」也复用了生数科技在图文任务的很多经验,通过在前期的图像等任务中的准备铺垫,生数科技利用视频数据压缩技术降低了输入数据的序列维度,同时采用自研的分布式训练框架,在保证计算精度的同时,通信效率提升 1 倍,显存开销降低 80%,训练速度累计提升 40 倍。
路要一步一步走,饭要一口一口吃。在这个抢夺「国产 Sora」的商业游戏中,技术上找对和认准方向是第一步;而走出「国产」特色,也是生存下去的必要条件,二者缺一不可。

*头图来源:视频号生数shengshu
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO



极客一问
你如何看待生数科技
选择的技术路线



 

更多阅读




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事曝谷歌Python团队全员被裁;清华系团队“国产Sora”:视频突破16秒;“社恐”周鸿祎:喊话贾跃亭、雷军送自己车|AI周报清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!给大模型装上眼睛,李学龙团队提出Any2Point,让大模型具备3D视觉理解能力北京内推 | 微软亚洲研究院WWE大模型团队招聘大模型研究实习生书籍推荐 | 中国人的处世哲学,藏在这本《资治通鉴》里大语文时代必备!藏在课本里的秘密,语文老师不会告诉你北大学生优化清华系大模型,拿ASC全球超算大赛冠军中国版 Sora 来了!一键生成 16 秒 1080P 视频,清华系团队能对标 OpenAI 吗?【七律】古道今日arXiv最热大模型论文:清华把大模型用于城市规划,回龙观和大红门地区成研究对象脚臭竟是因为这个?狂走5km也不脚臭的秘密,轻轻一喷,臭味拜拜!五十知天命,你知了吗?戴上眼镜反而颜值飞升的秘密,我都帮你们总结出来了成都“来了就不想走”的秘密,藏在这些细节里2.27.24 苏轼咏春试新茶凯特未能说出的秘密,将会撼动英国君主制的根基?清华系创业新势力!把大模型塞进AR眼镜,高铁上能用10块大屏办公国产版Sora到来!视频大模型更上一层楼 | 大模型一周大事百度VS清华系独角兽对决IPO!估值数百亿,小米腾讯比亚迪都投了清透细腻肌肤的秘密,海蓝之谜太绝了!火遍全球的“阴道博物馆”仅2年就倒闭了!揭露女性羞耻的秘密,画面太“美”我不敢看!三个清华校友,争抢大模型一哥100个人性的秘密,看完一身冷汗!清华团队国产“Sora”火了!画面效果对标OpenAI,长度可达16秒,还能读懂物理规律智谱再投AI Infra清华系公司!已在大模型生态投资超13家企业安静、清新的深圳街头逻辑对举的手法,眼前和远方,苟且和诗意/高晓松苹果将在WWDC公布AI战略;曝智谱AI参投清华系AI创企;百度升级7款大模型应用丨AIGC大事日报国产Sora来了!清华团队打造,背后公司已融资数亿元外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生当前最强国产Sora!清华团队突破16秒长视频,懂多镜头语言,会模拟物理规律清华系出手,推出全面对标Sora的视频大模型情趣内裤的秘密,红着脸也要看完最神秘国产大模型团队冒泡,一出手就是万亿参数MoE,两款应用敞开玩
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。