Redian新闻
>
清华系出手,推出全面对标Sora的视频大模型

清华系出手,推出全面对标Sora的视频大模型

科技

中国首个长时长、高一致性、高动态性视频大模型Vidu发布。
作者 |  ZeR0
编辑 |  漠影
智东西4月27日报道,在今日举行的2024中关村论坛人工智能主题日未来人工智能先锋论坛上,清华大学教授、生数科技首席科学家朱军宣布,生数科技与清华大学联合推出中国首个原创全自研长时长、高一致性、高动态性的视频大模型Vidu
根据公开融资信息,成立于去年3月的生数科技,是当前主要国内累计融资额及估值最高的类Sora创企,迄今已完成数亿元融资,投资方包括百度风投智谱AI、蚂蚁集团以及创始成员多数来自于原字节跳动投资团队的锦秋基金
朱军现场展示了Vidu与Pika、Gen-2、Sora等行业现有文生视频大模型的生成视频效果对比。他评价说,Vidu在16秒长期保持和语义理解等方面表现得非常突出。

▲使用相同提示词,Vidu与Pika、Gen-2生成视频对比

▲使用相同提示词,Vidu与Sora生成视频对比

▲Vidu生成视频的部分动图

Vidu能根据文本描述直接生成16秒高质量视频,且生成视频流畅连贯,没有明显的插帧现象。据介绍,这是因为Vidu采用的是“一步到位”的生成方式,与Sora一样,文本到视频的转换是直接且连续的,在底层算法实现上是基于单一模型完全端到端生成,无需经过多个步骤的关键帧生成和插帧处理。

01.
一键生成16秒高清视频,
Vidu具有5大特色


Vidu支持一键生成长达16秒1080P分辨率的高清视频内容,具备模拟真实物理世界、富有想象力、多镜头语言、高时空一致性、理解中国元素等特色。
1、模拟真实物理世界。能够生成复杂、细节丰富的场景,且符合物理规律,例如合理的光影效果、细腻的人物表情等。

▲在输入复杂SUV加速行驶在陡峭土路上的场景描述后,Vidu生成的视频(受限于可上传动图大小,做了压缩处理)

2、富有想象力。能够生成真实世界不存在的虚构画面,创造出具有深度和复杂性的超现实主义内容。

▲Vidu根据提示词“画室里的一艘船驶向镜头”生成的视频(受限于可上传动图大小,做了压缩处理

3、多镜头语言。能够生成复杂的动态镜头,不再局限于简单的推、拉、移等固定镜头,而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换,包括能直接生成长镜头、追焦、转场等效果,给视频注入镜头语言。

▲Vidu根据提示词“在一个古色古香的海边小屋里,阳光沐浴着房间,镜头缓慢过渡到一个阳台,俯瞰着宁静的大海,最后镜头定格在漂浮着大海、帆船和倒影般的云彩”生成的视频(受限于可上传动图大小,做了压缩处理

4、高时空一致性。在16秒的时长上保持连贯流畅,随着镜头的移动,人物和场景在时间、空间中能够保持一致。

▲Vidu根据提示词“这是一只蓝眼睛的橙色猫的肖像,慢慢地旋转,灵感来自维米尔的《戴珍珠耳环的女孩》,画面上带着珍珠耳环,棕色头发像荷兰帽一样,黑色背景,工作室灯光”生成的视频

5、理解中国元素。能够理解、生成特有的中国元素,例如熊猫、龙等。

▲Vidu根据提示词“在宁静的湖边,一只熊猫热切地弹着吉他,让整个环境变得活跃起来。晴朗天空下平静的水面倒映着这一场景,以生动的全景镜头捕捉到,将现实主义与大熊猫活泼的精神融为一体,创造出活力与平静的和谐融合”生成的视频(受限于可上传动图大小,做了压缩处理


02.
快速突破源于多项原创成果,
文生视频能力加速成长中


朱军称其快速突破离不开5个要素:算法原理、模型架构、算力资源、数据治理、工程实现

他谈道,Vidu的快速突破源于长期积累和多项原创成果,其技术路线与Sora高度一致。2022年9月,其团队在全球首发U-ViT网络架构,这是全球首个Diffusion Transformer架构,这一架构提出3个月后,Sora采用的同源基础架构DiT的论文才发表。

受限于算力限制,其团队起初选择做文生图、文生3D这类计算量相对小一些的大模型研发,2023年3月在全球首发并开源基于U-ViT架构的多模态大模型UniDiffuser,在全球范围内率先完成融合架构的大规模可扩展性(Scaling Law)验证。UniDiffuser是在大规模图文数据集LAION-5B上训练出的近10亿参数量模型,支持图文模态间的任意生成和转换,在架构上比同样DiT架构的Stable Diffusion 3领先了一年。
同年5月,该团队提出文生3D新算法Prolific Dreamer,今年1月发布4D框架Animatable Dreamer并实现可生成4秒视频的文生视频模型。
“Sora出来之后,刺激了我们攻关的速度。”朱军说,团队第一时间紧急启动和攻关,3月将视频时长突破8秒,4月突破16秒,短短两个月实现了长视频表示与处理关键技术的突破,取得了今天的效果,将视频连贯性与动态性显著提升。


03.
结语:推出Vidu大模型合作伙伴计划,
共建生态推动视频大模型发展


朱军解释说,Vidu的取名有多重含义,首先字面含义与“Video(视频)”相近,更深层的含义还表达了三个愿景:
一是谐音“We do”,“我们第一时间决定我们应该要做,而且立即去做”;二是谐音“We did”,今天的进展虽然只是迈出一小步,但确实做到在这个方向能够有突破性进展;三是“We do together”,现在的进展还在初步阶段,希望与国内优质单位合作,共同实现技术进步。

大模型的突破是一个多维度、跨领域的综合性过程,需要技术与产业应用的深度融合。为此,生数科技正式推出“Vidu大模型合作伙伴计划”,发起合作伙伴申请通道,诚邀产业链上下游的企业和研究机构共同合作,推动视频大模型发展。

申请链接:

https://shengshu.feishu.cn/share/base/form/shrcnybSDE4Id1JnA5EQ0scv1Ph

(本文系网易新闻•网易号特色内容激励计划签约账号【智东西】原创内容,未经账号授权,禁止随意转载。)




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
国产 Sora 的秘密,藏在这个清华系大模型团队中智谱再投AI Infra清华系公司!已在大模型生态投资超13家企业刚发布就被对标Sora,这个国产模型来头这么大?清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事今日arXiv最热大模型论文:清华把大模型用于城市规划,回龙观和大红门地区成研究对象特斯拉,被调查;麦当劳就侮辱性文字骂顾客一事致歉;小米高管否认雷军被李想锁车里;中国首个Sora级视频大模型发布...曝谷歌Python团队全员被裁;清华系团队“国产Sora”:视频突破16秒;“社恐”周鸿祎:喊话贾跃亭、雷军送自己车|AI周报百亿tokens免费额度,清华系明星AI公司的羊毛薅起来再回首 (七)清华系发布全新金融AI,数秒完成金融数据大海捞针!金融民工直呼要失业清华系创业,这家企业携手腾讯攻克助听器关键技术难题!哪里要动点哪里!腾讯联合清华、港科大推出全新图生视频大模型AI早知道|360安全大模型3.0发布;通义听悟上线音视频问答助手;腾讯混元大模型参数规模扩展至万亿苹果将在WWDC公布AI战略;曝智谱AI参投清华系AI创企;百度升级7款大模型应用丨AIGC大事日报开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型百度VS清华系独角兽对决IPO!估值数百亿,小米腾讯比亚迪都投了CVPR 2024 | 港理工联合OPPO提出统一且通用的视频分割大模型最好到最后 第七章 烦心事熵泱——第二十八章参战万亿MoE模型!上海大模型独角兽出手,腾讯阿里米哈游参投北大学生优化清华系大模型,拿ASC全球超算大赛冠军清华团队国产“Sora”火了!画面效果对标OpenAI,长度可达16秒,还能读懂物理规律南美比格尔海峡(Beagle Channel),冰川与雪山AI早知道|商汤发布日日新5.0大模型;微软推出小语言模型Phi-3;腾讯旗下协作SaaS产品全面接入混元大模型面壁智能低调开源大模型“理科状元”!LeetCode 周赛超越80%人类选手,推理性能超 Llama3-70BGPT-4现场被端侧小模型“暴打”,商汤日日新5.0:全面对标GPT-4 Turbo清华系创业新势力!把大模型塞进AR眼镜,高铁上能用10块大屏办公开源大模型火了!(附99个大模型微调模型/数据/工具)!618淘宝京东均取消预售机制;中国首个Sora级视频大模型发布;周鸿祎将举办线下拍卖会出售迈巴赫丨邦早报波士顿动力抛弃液压机器人Atlas,推出全新电动化机器人,动作超灵活中国版 Sora 来了!一键生成 16 秒 1080P 视频,清华系团队能对标 OpenAI 吗?外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生破解大模型安全难题,360推出大模型安全能力框架冰上的大雁
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。