Redian新闻
>
刚发布就被对标Sora,这个国产模型来头这么大?

刚发布就被对标Sora,这个国产模型来头这么大?

科技



前几天,世超上网冲浪的时候,刷到了几个 AI 视频片段。


大船驶来的压迫感,被风吹起的发丝和丝巾,太空人直接走进现实菜园。。。一幕幕把我看得是一愣一愣的。


真实度也是一绝,在湖边随着镜头移动,不仅光线跟着变化,连天空、树木的变化都跟咱肉眼看到的没差。


要不是右下角有水印,我还差点以为是 Sora 的视频又上新了。


所以这次的主角不是 Sora ,也不是各位差友熟知的 Pika 、 Runway 那几个 Sora 竞品,而是初出茅庐的国产视频大模型 Vidu


咱看到的那些视频,就是前几天, Vidu 在中关村论坛的人工智能主题日上公布的。


它最长能生成16 秒,一句 “ 木头玩具船在地毯上航行 ” 的提示词,就能生成下面这长长的一段,一镜到底的丝滑程度,怕是路过的谋子导演看了都会点赞。


Sora 号称能真实模拟物理世界的拿手戏, Vidu 照样也能实现。


让它生成一段 “ 汽车加速驶过森林里乡间小路 ” 的视频,像是树林缝隙透过的阳光,后轮扬起的灰尘,都很符合咱们的日常认知。


而且 Vidu 的想象力比咱人还要丰富,画室里的一艘船驶向镜头的场景,它分分钟就能给 “ 拍 ” 出来,看这效果,不知道该有多少动效师瑟瑟发抖了。


甚至在某些提示词下, Vidu 的理解能力比 Sora 还强,比如 “ 镜头绕着电视旋转 ” 的提示词, Sora 压根儿就没 get 到旋转的意思,反而是 Vidu 能轻松理解。


有一说一,在看完 Vidu 的这些视频后,世超是真觉得它是目前市面上,唯一一个能在画面效果上和 Sora 拼一拼的模型。


虽然现在 16 秒的 Vidu 在时长上还比不上 60 秒的 Sora ,但它的进步也确实是肉眼可见的快,据极客公园消息,上个月, Vidu 在内部只能生成 8 秒的视频,上上上个月,还只能生成 4 秒的视频。


反正媒体们都把 Vidu 比作是 “ Sora 级视频大模型 ” ,网友们也都在评论区喊话催他们赶紧开放内测。


不过这里面世超更好奇的是,咱之前压根儿都没听说过 Vidu ,怎么突然平地一声雷,搞出了这么大的阵仗?


我们也顺藤摸瓜找了找资料,发现 Vidu 身上,值得说道的东西还挺多,甚至仔细咂摸下,还能从 Sora 身上找出点 Vidu 的影子来( 世超可没说反 )。


它背后是一家名叫生数科技的公司,别看这个公司才刚满一周岁,但它可是在娘胎里就开始攒劲儿了。因为它的亲妈,是清华系AI 企业瑞莱智慧,背后的研究团队,几乎全是这里面的人。


而在成立生数科技之前,团队就已经把视频大模型研究得很深入了。


尤其是在图像生成这块很火的扩散( Diffusion )模型,他们算是业内第一批研究这个模型的,整出来的论文也在 ICML 、 NeurIPS 、 ICLR 各种顶会发了个遍。


正是因为有这么好的底子,早在2022 年 9 月的时候,团队就找到了做 Vidu 的灵感,就是下面这篇论文。


世超让 AI 帮咱解读了下,大概的思路就是,扩散模型在生成图像这块挺强,而大语言模型里用的 Transformer 有个规模( Scale )效应,参数堆得越多,性能就越好。团队就想着,能不能把这两个的优点结合一下,整个融合架构,提升图像生成的质量。


于是他们转头把扩散模型里面的 U-Net 给换成 Transformer ,还起了个名字叫 U-ViT ( Vision Transformers )。结果试下来发现这么一结合还真有用,光是相同大小的 U-ViT ,性能就比 U-Net 强了。


那好嘛,既然这条路走得通,他们也顺势把技术路线定在了 U-ViT 上。


然鹅。。。在团队悄悄酝酿 Vidu 的时候,大洋彼岸的UC 伯克利的一个研究,却让 OpenAI 的 Sora 捷足先登了。


就在清华小分队提交论文的两个月后, UC 伯克利也在预印平台 ArXiv 上提交他们的论文了,一样说要把 Transformers 揉在扩散模型里面,只不过名字起的更直白了点,叫DiT ( Diffusion Transformers )。


看着是不是挺眼熟,没错, OpenAI 的 Sora 模型,用的就是伯克利的 DiT 技术路线。


但因为清华小分队早发了两个月,当年的计算机视觉顶会 CVPR 2023 还以 “ 缺乏创新 ” 的由头,拒了 Sora 的 DiT ,收录了 U-ViT 。


而且早在 2023 年年初的时候,清华小分队还用 U-ViT ,训练出了一个近 10 亿参数量的开源大模型 UniDiffuser 。


算是第一个用行动证明了,融合架构也遵守 Scaling Law 这一套规则,也就是说随着计算量、参数量越来越大,模型的性能就会随指数级上升。而这个 Scaling Law ,同样也是 Sora 这么强的秘密武器。


所以照这么来盘算,Sora 其实还得叫 Vidu 一声祖师爷才对。。。


但现实世界却是, DiT 被 OpenAI 带着一路飞升。


清华小分队呢,计算资源没 OpenAI 那么到位,也没 ChatGPT 这种珠玉在前,总之就是啥啥都不完善,他们只能慢慢来,先做图像、 3D 模型,等有家底儿了,再去做视频。


好在他们身上还是有点实力在的,稳扎稳打慢慢也赶上来了。去年 3 月,清华小分队们成立了生数科技后,就在马不停蹄地搞自家的产品,现在图像生成和 3D 模型生成大伙儿都能免费用了。


并且靠着这两个产品,刚满一周年,它就攒了好几亿的家底。


像是成立 3 个月的时候,就完成了一波近亿级的天使轮投资,上个月,又完成了新一轮的数亿元融资。参与投资的,也都是智谱 AI 、 BV 百度风投等等业内大佬。


反正看这波架势, Vidu 还真有可能成为国内的黑马,去对标 OpenAI 的 Sora 。


不过生数科技那边,倒是觉得只把 Vidu 看作国产版的 Sora ,实在是有点缺乏想象力了,因为他们给 Vidu 的定位,可不仅仅是个视频模型,而是图、文、视频全都要,只不过现在视频暂时是重点。


当然了,好听话谁都会说,能不能搞出来,咱还得实打实地看成品。


世超已经去排了队,等拿到内测资格,再跟大伙儿同步一波。。。


撰文:松鼠 编辑:江江 & 面线 封面:子曰


图片、资料来源

Scalable Diffusion Models With Transformers
All are Worth Words:A ViT Backbone for Diffusion Models
机器之心,专访生数科技唐家渝:清华系团队拿到上亿融资,用Transformer来做多模态大模型
界面新闻,生数科技完成新一轮融资,国内多模态大模型厂商着力追赶Sora
极客公园,国产 Sora 的秘密,藏在这个清华系大模型团队中
新智元,图灵诺奖得主等大佬齐聚海淀!清华版Sora震撼首发,硬核AI盛会破算力黑洞



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
玩这么大?!澳洲单身男女纷纷跑去超市,买香蕉!只为了...应要求写个职场系列(4)新的多模态盲测榜单来了,一眼望过去全是国产模型 | AI鲜测这家世界模型公司发布中国版Sora级视频生成大模型,走向世界模型打造新一代数据引擎微软刚刚发布了VASA-1:单张照片生成超现实真人视频,还没开源但是性能SOTA偷卖种子是对境外“提供情报”,为什么这事影响这么大?生物学家 vs. 医生,做科研的思维方式差别这么大?国内首个开源千亿参数MoE大模型来了!性能超Grok-1,单张GPU可跑​同为35名!纽大、 UCSB、UIUC、威斯康星,为什么「录取差距」这么大?刷屏看‘’曹奶奶爱唠嗑‘’老师,医生和医生之间到底有什么区别,怎么差距可以这么大?国产模型人均「第一」太假?字节扣子模型广场竞技,全民投票!7053 血壮山河之枣宜会战 宜昌溃战 9外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生耗资30 亿!Allen新地标Sloan Corners开始建设,办公+住宅+餐厅+酒店+公园!Meta无限长文本大模型来了:参数仅7B,已开源美股基本面 - 2024_03_01 * 晨报 * 纽约社区银行盘前大跌 公司发现内控存在重大缺陷、CEO也被撤换。世贸组织部OpenAI对中国开发者停服,国产模型公司“自助”开始,这里是一份最全迁移指南清华团队国产“Sora”火了!画面效果对标OpenAI,长度可达16秒,还能读懂物理规律国产版Sora到来!视频大模型更上一层楼 | 大模型一周大事“非洲黑人”之间的区别为什么这么大?清北爸爸辅导数学崩溃瞬间,这个国产大模型有解!AI启发问答关键情绪稳定清华系出手,推出全面对标Sora的视频大模型大模型又开“卷”!万亿参数闭源模型、四千亿开源模型来了P70系列有3或4款新品;国内首个开源千亿参数MoE大模型来了,对标马斯克的Grok……首个国产音乐SOTA模型来了!专为中文优化,免费用,不限曲风KUNDUN/Dalai Lama - Martin Scorsese\'s Hidden Gem最近南方的雨,为啥这么大?全球140+模型考试出炉!超8万道考题国产模型分数亮眼,智源评测体系发布AI大模型来了,低代码还有机会吗?周末玩啥?两款Steam“奇葩爽游”好评如潮,射击游戏脑洞这么大?中文得分世界第一,多项盲测并肩 GPT4o,这个国产大模型怎么就成了 AI 界的黑马?刚发布就召回!油门踏板有问题,特斯拉宣布召回近4000量Cybertruck。【求职战报】全球金融交易平台Deutsche Börse Systems销售运营面试邀约!拿下SOTA!最强中文Embedding模型对标OpenAI,技术路线公开
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。