进度赶超大厂，中国最接近Sora的视频模型出自一家「清华系」公司｜New Things

公众号新闻

2024-05-10 08:05

训练和落地，文生视频模型给厂商带来的是远高于大语言模型的成本压力。

文｜周鑫雨

编辑｜苏建勋

封面来源｜生数科技

“镜头围绕一大堆老式电视旋转，所有电视都显示不同的节目——20世纪50年代的科幻电影、恐怖电影、新闻、静态、1970年代的情景喜剧等，背景设置在纽约一家大型博物馆画廊。”

若这是对视频剪辑师的一道命题作业，复杂的细节和叠加的图层也定会让不少人叫苦不迭。曾有专业剪辑师测试过，若是用公开素材剪出一段符合基本要求的5秒视频，大概要花费1-2小时。

而这句“地狱提示词”，也被业界视作视频生成模型的试金石。近期，在这一句提示词下，诞生了两段视频：

前者，想必不少读者并不陌生，出自OpenAI的现役视频生成模型天花板，于2024年2月发布的Sora之手。相对地，后者在满足画廊的环境、播放着各种老片的电视机等基本元素的要求上，还增加了机位的连续变动，让视频更加丰富。

这段敢在关公前耍大刀的视频，来源于一个名叫“Vidu”（谐音We do）的文生视频模型，并且，当大多国内厂商仍在为突破4秒瓶颈时，Vidu已经将国产文生视频模型的生成时长天花板，拉到了16秒。

这匹国产文生视频模型界的“黑马”，来自成立于2023年的“清华系”AI公司“生数科技”。在2024年4月27日举办的中关村论坛上，完成首秀的Vidu得到了在场不少人“很接近Sora”的感叹。

在Sora发布之前，随着Runway、Pika等视频生成新秀的崛起，国内也早就掀起视频生成模型的竞速，主要玩家不仅包括BTA和字节跳动，还有前京东副总裁梅涛成立的Hidream，以及前字节跳动AI Lab总监王长虎创办的爱诗科技。

16秒的门槛有多难跨？可见的是，目前全球一次性视频生成能够达到该级别时长的“文生视频”模型，只有OpenAI的Sora（60秒）、Runway的Gen-2（18秒），以及同为国内初创公司的Hidream（15秒）。

即便是人才和训练资源一骑绝尘的大厂，想要生成超过10秒的长视频，或要辅以图片、音频等其他模态的输入（如PixelDance和EMO），或需要先将文字提示词生成为图片关键帧，再利用图片生成连续视频（如Hidream）。

这对剪辑师和创作者而言，生成的质量提高有限，反倒让工具的使用门槛高了不少，得不偿失。

而“国产Sora”Vidu的出现，给苦找素材、作息007的剪辑打工人们，些许解放双手和大脑的希望。

多维度对标Sora，但比Sora更懂中国风

被外界称为中国的“Sora”，生数科技也毫不避讳Vidu对Sora的对标。论坛上，生数科技发布的几个视频Demo，用的是Sora同款提示词，对标的也是Sora最为出众的几个能力：

模拟真实物理世界、想象力、多镜头语言、时空一致性。

首先，为了展示模拟真实物理世界的程度，在Vidu中输入的是Sora同款提示词：

提示词：镜头跟随在一辆白色复古SUV后面，它带着黑色的车顶架，在陡峭的山坡上，沿着松树环绕的陡峭土路加速行驶，轮胎上扬起灰尘，阳光照在SUV上，它沿着土路飞驰，投射出温暖的光芒。土路缓缓地向远处弯弯曲曲，看不见其他车辆。道路两旁的树木是红杉，点缀着一片片的绿色植物。从后面可以看到赛车轻松地沿着弯道行驶，使它看起来像是在崎岖的地形上行驶。这条土路本身被陡峭的山丘和山脉环绕，上面是清澈的蓝天和缕缕云彩。

根据这段充盈着复杂物理世界细节的提示词，前者为Sora生成的一段视频，后者则是Vidu交的作业。在画质、光影细节等层面，两者几乎难分伯仲。

Sora生成的视频

Vidu生成的视频（由于上传大小限制，处理成GIF时对画质有所压缩）

而在虚构场景和超现实画面的能力上，Vidu根据提示词“画室里的一艘船驶向镜头”，也生成了一段富有视觉冲击力的视频。

Vidu生成的视频

若要视频生成模型能在各领域商用，画质和细节是基本功，生成镜头是否足够复杂、动态也至关重要。下文的提示词，包含了长镜头、中远近景、特写以及追焦等效果，Vidu生成的视频也能做到。

提示词：在一个古色古香的海边小屋里，阳光沐浴着房间，镜头慢慢过渡到一个阳台，俯瞰着宁静的大海，最后镜头定格在漂浮着大海、帆船和倒影般的云彩。

Vidu生成的视频

在镜头的连贯性和时空一致性上，Vidu也能准确理解3D物体在现实中的时空维度。比如这一生成案例：

提示词：这是一只蓝眼睛的橙色猫的肖像，慢慢地旋转，灵感来自维米尔的《戴珍珠耳环的女孩》，画面上戴着珍珠耳环，棕色头发像荷兰帽一样，黑色背景，工作室灯光。

Vidu生成的视频

不过，也有不少用户发现，Vidu展示的Demo视频中，出现的大多是西方面孔。这也让Vidu身陷“是否套壳国外开源视频模型”的争议。对此，生数科技告诉36氪，这是由于Vidu训练数据中的面孔数据中，西方面孔占据大多数所致。

生数科技联合创始人兼CEO唐家渝曾对36氪表示，生数科技多模态模型的训练数据主要来源于两块：互联网上大量公开的数据，通过向版权方购买的私有数据，两者共同完善训练数据的丰富性。而从全球来看，互联网上的公开视频数据，依然以西方主题为主。

同样是训练数据的差异性使然，在对熊猫、龙等中国元素的理解上，Vidu相较于Sora等海外模型更胜一筹。

Vidu生成的视频（上图为龙‍、熊猫两段Demo片段拼接而成）

不到2个月，4秒到16秒

将生成视频的时长从4秒抬到到16秒，美国AI独角兽Runway花了4个月，Vidu背后的生数科技只用了2个月。

在2024年3月中旬的交流中，生数科技联合创始人兼CEO唐家渝对36氪表示，团队自研的多模态通用大模型，尚且初步具备了短视频的生成能力。发布的视频Demo，时长也基本在2-4秒。

但相对地，Runway是融资总额约2.4亿美元的明星独角兽，而生数科技的融资总额才不过数亿元。

要与资源与实力兼具的强者扳手腕，生数科技的手上也必须有几把刷子。

作为“清华系”的企业，多模态方面的技术储备自然是生数的门面。虽然采用与Sora相似的Diffusion Transformer融合架构，但Vidu的底层技术，则是生数团队原创研究的成果，甚至比Sora的底层架构发布得更早——

2022年9月，生数科技就发布了9.5亿参数规模的U-ViT网络架构，这也是全球首个Diffusion Transformer架构。1个月后，Stable Diffusion才发布了初代DiT架构U-Net，后被应用于Sora的研发。

另一把刷子，往往是一家企业的商业化能力。但视频生成模型至今难以大规模落地的原因就在于：太贵了！

投资机构Factorial Funds曾对Sora的成本做了一番推算：Sora每生成一段视频的计算成本约为708×10^15 FLOPS。换算下来，生成1分钟的视频大概需要8块英伟达A800计算3小时，成本约60-90美元，视频每秒产生的成本就在1美元左右。

唐家渝也曾对36氪坦言，长视频生成需要高昂的入场费，A100、A800的卡可能要上万张。

这意味着，视频模型的技术迭代需要烧钱，落地应用后，用户的使用也会带来巨额的计算成本。视频模型厂商需要快速找到可以覆盖计算和推理成本的落地场景和商业模式。

生数科技的想法是：先在付费能力强和成本相对可控的B端场景落地。“广告、短视频目前是比较直接的（落地场景），中期来讲我们比较看好游戏和电影娱乐形式的融合。”生数科技方对36氪回应。

当然，从长远来看，视频模型的较量，绝对不只是各家公司之间的技术竞速。AI界“教父”OpenAI，已经在视频生成模型中，摸到了通往AGI的方向。

近日，Sora团队的三位负责人在节目“No Priors”中表示，Sora通过在神经网络中对复杂环境进行模拟，可以逐渐弥合当前AI和AGI（通用人工智能）之间的差距。随着训练数据量和参数量的不断扩大，Sora将有可能成为真正的世界模型。

在当下，视频生成模型也有更为现实的妙用：为多模态模型生成稳定、高质的训练数据。

比如近期，国内另一家学院派多模态模型公司——中国人民大学高瓴人工智能学院教授卢志武创立的“智子引擎”，在中关村论坛上推出了MoE（混合专家架构）多模态大模型Awaker 1.0。

特别的是，用于Awaker 1.0训练的视觉数据，主要来源于智子引擎在2023年5月推出的自研视频生成底座VDT，一个同样采取Transformer Diffusion架构的模型。卢志武在论坛上表示，未来更加通用的 VDT 将成为解决多模态大模型数据来源问题的得力工具。使用视频生成的方式，VDT 将能够对现实世界进行模拟，进一步提高视觉数据生产的效率。