Redian新闻
>
进度赶超大厂,中国最接近Sora的视频模型出自一家「清华系」公司|New Things

进度赶超大厂,中国最接近Sora的视频模型出自一家「清华系」公司|New Things

公众号新闻

训练和落地,文生视频模型给厂商带来的是远高于大语言模型的成本压力。


周鑫雨
编辑苏建勋

封面来源生数科技

“镜头围绕一大堆老式电视旋转,所有电视都显示不同的节目——20世纪50年代的科幻电影、恐怖电影、新闻、静态、1970年代的情景喜剧等,背景设置在纽约一家大型博物馆画廊。”
若这是对视频剪辑师的一道命题作业,复杂的细节和叠加的图层也定会让不少人叫苦不迭。曾有专业剪辑师测试过,若是用公开素材剪出一段符合基本要求的5秒视频,大概要花费1-2小时。
而这句“地狱提示词”,也被业界视作视频生成模型的试金石。近期,在这一句提示词下,诞生了两段视频:

前者,想必不少读者并不陌生,出自OpenAI的现役视频生成模型天花板,于2024年2月发布的Sora之手。相对地,后者在满足画廊的环境、播放着各种老片的电视机等基本元素的要求上,还增加了机位的连续变动,让视频更加丰富。
这段敢在关公前耍大刀的视频,来源于一个名叫“Vidu”(谐音We do)的文生视频模型,并且,当大多国内厂商仍在为突破4秒瓶颈时,Vidu已经将国产文生视频模型的生成时长天花板,拉到了16秒。
这匹国产文生视频模型界的“黑马”,来自成立于2023年的“清华系”AI公司“生数科技”。在2024年4月27日举办的中关村论坛上,完成首秀的Vidu得到了在场不少人“很接近Sora”的感叹。
在Sora发布之前,随着Runway、Pika等视频生成新秀的崛起,国内也早就掀起视频生成模型的竞速,主要玩家不仅包括BTA和字节跳动,还有前京东副总裁梅涛成立的Hidream,以及前字节跳动AI Lab总监王长虎创办的爱诗科技。
16秒的门槛有多难跨?可见的是,目前全球一次性视频生成能够达到该级别时长的“文生视频”模型,只有OpenAI的Sora(60秒)、Runway的Gen-2(18秒),以及同为国内初创公司的Hidream(15秒)。

即便是人才和训练资源一骑绝尘的大厂,想要生成超过10秒的长视频,或要辅以图片、音频等其他模态的输入(如PixelDance和EMO),或需要先将文字提示词生成为图片关键帧,再利用图片生成连续视频(如Hidream)。
这对剪辑师和创作者而言,生成的质量提高有限,反倒让工具的使用门槛高了不少,得不偿失。
而“国产Sora”Vidu的出现,给苦找素材、作息007的剪辑打工人们,些许解放双手和大脑的希望。

多维度对标Sora,但比Sora更懂中国风

被外界称为中国的“Sora”,生数科技也毫不避讳Vidu对Sora的对标。论坛上,生数科技发布的几个视频Demo,用的是Sora同款提示词,对标的也是Sora最为出众的几个能力:
模拟真实物理世界、想象力、多镜头语言、时空一致性。
首先,为了展示模拟真实物理世界的程度,在Vidu中输入的是Sora同款提示词:
提示词:镜头跟随在一辆白色复古SUV后面,它带着黑色的车顶架,在陡峭的山坡上,沿着松树环绕的陡峭土路加速行驶,轮胎上扬起灰尘,阳光照在SUV上,它沿着土路飞驰,投射出温暖的光芒。土路缓缓地向远处弯弯曲曲,看不见其他车辆。道路两旁的树木是红杉,点缀着一片片的绿色植物。从后面可以看到赛车轻松地沿着弯道行驶,使它看起来像是在崎岖的地形上行驶。这条土路本身被陡峭的山丘和山脉环绕,上面是清澈的蓝天和缕缕云彩。
根据这段充盈着复杂物理世界细节的提示词,前者为Sora生成的一段视频,后者则是Vidu交的作业。在画质、光影细节等层面,两者几乎难分伯仲。

Sora生成的视频

Vidu生成的视频(由于上传大小限制,处理成GIF时对画质有所压缩)

而在虚构场景和超现实画面的能力上,Vidu根据提示词“画室里的一艘船驶向镜头”,也生成了一段富有视觉冲击力的视频。

Vidu生成的视频

若要视频生成模型能在各领域商用,画质和细节是基本功,生成镜头是否足够复杂、动态也至关重要。下文的提示词,包含了长镜头、中远近景、特写以及追焦等效果,Vidu生成的视频也能做到。
提示词:在一个古色古香的海边小屋里,阳光沐浴着房间,镜头慢慢过渡到一个阳台,俯瞰着宁静的大海,最后镜头定格在漂浮着大海、帆船和倒影般的云彩。

Vidu生成的视频

在镜头的连贯性和时空一致性上,Vidu也能准确理解3D物体在现实中的时空维度。比如这一生成案例:
提示词:这是一只蓝眼睛的橙色猫的肖像,慢慢地旋转,灵感来自维米尔的《戴珍珠耳环的女孩》,画面上戴着珍珠耳环,棕色头发像荷兰帽一样,黑色背景,工作室灯光。

Vidu生成的视频

不过,也有不少用户发现,Vidu展示的Demo视频中,出现的大多是西方面孔。这也让Vidu身陷“是否套壳国外开源视频模型”的争议。对此,生数科技告诉36氪,这是由于Vidu训练数据中的面孔数据中,西方面孔占据大多数所致。
生数科技联合创始人兼CEO唐家渝曾对36氪表示,生数科技多模态模型的训练数据主要来源于两块:互联网上大量公开的数据,通过向版权方购买的私有数据,两者共同完善训练数据的丰富性。而从全球来看,互联网上的公开视频数据,依然以西方主题为主。
同样是训练数据的差异性使然,在对熊猫、龙等中国元素的理解上,Vidu相较于Sora等海外模型更胜一筹。

Vidu生成的视频(上图为龙、熊猫两段Demo片段拼接而成)

不到2个月,4秒到16秒

将生成视频的时长从4秒抬到到16秒,美国AI独角兽Runway花了4个月,Vidu背后的生数科技只用了2个月。
在2024年3月中旬的交流中,生数科技联合创始人兼CEO唐家渝对36氪表示,团队自研的多模态通用大模型,尚且初步具备了短视频的生成能力。发布的视频Demo,时长也基本在2-4秒。
但相对地,Runway是融资总额约2.4亿美元的明星独角兽,而生数科技的融资总额才不过数亿元。
要与资源与实力兼具的强者扳手腕,生数科技的手上也必须有几把刷子。
作为“清华系”的企业,多模态方面的技术储备自然是生数的门面。虽然采用与Sora相似的Diffusion Transformer融合架构,但Vidu的底层技术,则是生数团队原创研究的成果,甚至比Sora的底层架构发布得更早——
2022年9月,生数科技就发布了9.5亿参数规模的U-ViT网络架构,这也是全球首个Diffusion Transformer架构。1个月后,Stable Diffusion才发布了初代DiT架构U-Net,后被应用于Sora的研发。
另一把刷子,往往是一家企业的商业化能力。但视频生成模型至今难以大规模落地的原因就在于:太贵了!
投资机构Factorial Funds曾对Sora的成本做了一番推算:Sora每生成一段视频的计算成本约为708×10^15 FLOPS。换算下来,生成1分钟的视频大概需要8块英伟达A800计算3小时,成本约60-90美元,视频每秒产生的成本就在1美元左右。
唐家渝也曾对36氪坦言,长视频生成需要高昂的入场费,A100、A800的卡可能要上万张。
这意味着,视频模型的技术迭代需要烧钱,落地应用后,用户的使用也会带来巨额的计算成本。视频模型厂商需要快速找到可以覆盖计算和推理成本的落地场景和商业模式。
生数科技的想法是:先在付费能力强和成本相对可控的B端场景落地。“广告、短视频目前是比较直接的(落地场景),中期来讲我们比较看好游戏和电影娱乐形式的融合。”生数科技方对36氪回应。
当然,从长远来看,视频模型的较量,绝对不只是各家公司之间的技术竞速。AI界“教父”OpenAI,已经在视频生成模型中,摸到了通往AGI的方向。
近日,Sora团队的三位负责人在节目“No Priors”中表示,Sora通过在神经网络中对复杂环境进行模拟,可以逐渐弥合当前AI和AGI(通用人工智能)之间的差距。随着训练数据量和参数量的不断扩大,Sora将有可能成为真正的世界模型。
在当下,视频生成模型也有更为现实的妙用:为多模态模型生成稳定、高质的训练数据。
比如近期,国内另一家学院派多模态模型公司——中国人民大学高瓴人工智能学院教授卢志武创立的“智子引擎”,在中关村论坛上推出了MoE(混合专家架构)多模态大模型Awaker 1.0。
特别的是,用于Awaker 1.0训练的视觉数据,主要来源于智子引擎在2023年5月推出的自研视频生成底座VDT,一个同样采取Transformer Diffusion架构的模型。卢志武在论坛上表示,未来更加通用的 VDT 将成为解决多模态大模型数据来源问题的得力工具。使用视频生成的方式,VDT 将能够对现实世界进行模拟,进一步提高视觉数据生产的效率。

VDT生成的写真视频(上图为多段Demo片段拼接而成)

当然,在16秒时长的赛道,生数科技已经用Sora同款架构,闯出了名堂。但接下来,无论是商业化的验证、商业模式的设计,以及跨越16秒到分钟级的时长门槛,对国内的“生数科技们”而言,都是需要相互竞速的考验。


独家、深度、前瞻,为1%的人捕捉商业先机

36氪旗下精选公众号

👇 真诚推荐你来关注 👇

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
万兴科技朱伟:Sora至今没有商业化,视频模型成熟需要周期丨GenAICon 2024国产多模态大模型狂飙!颜水成挂帅开源Vitron,破解图像/视频模型割裂问题40 岁的联想,正在成为一家「超级智能体」公司What’s Wrong With Chinese Weddings? Everything, Says Gen-Z有爱情陪伴的花季. 可同时收听歌曲: 天边给可可,数委和爱厨善厨的同学推荐一部法国电影The Taste of Things。朱丽叶毕那许主演。中国版 Sora 来了!一键生成 16 秒 1080P 视频,清华系团队能对标 OpenAI 吗?【求职战报】全球金融交易平台Deutsche Börse Systems销售运营面试邀约!热度赶超生信!仅靠临床数据就能发一区!审稿人推荐的热门发文套路速来get!全球首发!50家「真•具身智能」公司,机器人的ChatGPT时刻来临?|硅兔活动浅聊一下最接近英伟达B200的AI芯片感兴趣的同学再讨论一下计算和传输吧 AND INTEL'S NEW TECH腾讯是最接近苹果公司的中国智谱再投AI Infra清华系公司!已在大模型生态投资超13家企业俞敏洪称东方甄选做得乱七八糟;巴菲特旗下公司跌逾99%;斯坦福团队抄袭清华系大模型;丰田、本田和马自达就造假公开道歉...传清华系大模型公司高层变动Sora超逼真视频引恐慌!Nature刊文警示AI视频模型,或在2024年颠覆科学和社会丰田、本田、马自达等车企造假,斯坦福团队抄袭清华系大模型,巴菲特公司股票跌98%,周星驰首部短剧上线,这就是今天的其他大新闻!美股基本面 - 2024_03_11 * 午报 * 30万美元的“飞行汽车”你会买吗?Space X投资了一家eVTOL公司。清华系出手,推出全面对标Sora的视频大模型老爷爷话语的力量AI早知道|谷歌推出文生视频模型Veo;百度发布全球首个支持 L4 级自动驾驶的大模型国产 Sora 的秘密,藏在这个清华系大模型团队中墨梅畫法一定不要错过的欧洲十大最美城堡:最接近童话和爱情的地方2024发文量超1300篇!热度赶超生信,认可度秒杀meta,这片发文蓝海千万别错过!AI早知道|HeyGen推自动剪辑工具;智谱AI文生视频模型预计年内发布学唱“音乐之声”插曲: My Favourite Things超越Sora极限,120秒超长AI视频模型诞生!谷歌放大招,AI搜索引擎来了,发布最强AI模型!发布会现场:总共提了120次AI、视频模型登场......外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生曝谷歌Python团队全员被裁;清华系团队“国产Sora”:视频突破16秒;“社恐”周鸿祎:喊话贾跃亭、雷军送自己车|AI周报剪辑软件Pr要用第三方AI视频模型了!我能学会吗?Sora不开源,微软给你开源!全球最接近Sora视频模型诞生,12秒生成效果逼真炸裂三月十一终局之战!OpenAI Sora大佬专访:AI视频模型仍处在GPT-1时代麦当劳,一家最会做玩具的快餐公司|营销观察阿里投资深圳人形机器人公司;小米投资一新能源公司;中东基金参投AI公司|硬氪纪
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。