Redian新闻
>
「平替版 Sora」何时能追上?

「平替版 Sora」何时能追上?

公众号新闻

专题解读

事件:

随着 OpenAI 正式发布文生视频大模型 Sora,直接带动了国内外文生视频、文生图模型的热潮出现。Stability AI、Pika、阿里达摩院、腾讯、华为等国内外大厂先后推出自家生成模型。近期,华为诺亚方舟实验室发布了同样基于 DiT 架构的文生图模型 PixArt-Σ。


上月,OpenAI 正式发布文生视频大模型 Sora,因其生成效果惊艳,可以生成不同时长、长宽比和分辨率的视频和图像,且最多可以输出长达一分钟的高清视频,打开了文生视频的新格局。有人称,文生视频的 GPT 时刻已经到来。与此同时,据 a16z 统计,在 2023 年,文生视频领域发布相关工具与产品即达到了 21 种,且发布产品的多为初创企业。国内外的文生视频模型随着 Sora 的热潮频出,其他文生视频能否作为「Sora 平替版」追赶上 Sora?


平替模型们与 Sora 对比,效果如何?

以下整理了较为热门的国内外大厂的文生视频模型,从模型架构、模型创新点、技术特点、生成视频表现等维度进行了比对。[27] -[46] 

1、Sora:由 OpenAI 开发的一款文本到视频生成模型,能够根据文本提示生成长达一分钟的高清视频。
① 架构方面,Sora 基于扩散模型和 Transformer 架构,通过将视频数据转换为时空 patches,从而实现对视频内容的生成。
② 技术特点方面,Sora 使用了时空 patches 作为 Transformer 的 tokens,patches 是从压缩后的潜在空间中提取的,代表了视频的时间和空间信息。
③ Sora 可以处理多种时长、长宽比和分辨率的视频和图像。
2、W.A.L.T(Window Attention Latent Transformer):由斯坦福大学(Stanford University)、谷歌研究(Google Research)、佐治亚理工学院(Georgia Institute of Technology)开发的一款视频生成模型,除文本提示生成视频外,还可以将静态图像转换为动态视频。
① 架构方面,W.A.L.T 第一阶段使用因果编码器将视频和图像映射到统一的低维隐空间。第二阶段设计了一种新的 Transformer 块,包含自注意力层,这些层在非重叠、窗口限制的空间和时空注意力之间交替。
② 技术特点方面,W.A.L.T 采用了隐视频扩散模型(Latent Video Diffusion Models, LVDMs)的技术路径,结合了 Transformer 架构的优势。
③ W.A.L.T 模型能够从文本提示生成高分辨率、时间上连贯的逼真视频,并且能够将静态图像转换为动态视频,支持 3D 摄像机运动的视觉效果。
3、Zeroscope:由阿里达摩院 ModelScope 社区开发的一款文本到视频的生成模型,能够生成高达 1024×576 分辨率的高清视频。
① 架构方面,Zeroscope 由文本特征提取、文本特征到视频隐空间扩散模型、视频隐空间到视频视觉空间的 3 个子网络组成。
② 技术特点方面,Zeroscope 基于 17 亿参数的文生视频大模型改造,采用 Unet3D 结构的扩散模型。
4、Stable Diffusion 3:由 Stability AI 开发的一款基于 Transformer 的文本到图像生成模型。
① 架构方面,Stable Diffusion 3 采用 MMDiT 架构,使用单独的权重组处理图像和文本模态,实现双向信息流动。同时,采用 Rectified Flow 技术,通过直线连接数据和噪声,简化采样过程......

表:文生视频模型表现对比


「平替模型们」 离追上 Sora 还有多远?

在 Sora 正式发布之后,出现了关于国内外其他文生视频模型能否追赶上 Sora 的探讨。目前,国内科技大厂仍停留在内部探索、研发 Demo 的阶段。目前,普遍认为算法实现、算力和数据是导致「复现」Sora 困难的主要因素。
1、技术方面,OpenAI 并未公布 Sora 的技术细节,路径模糊。
① 出门问问创始人李志飞认为,目前仍处于早期,技术没有收敛,各种视频相关模型的分类或讲法比较混乱。OpenAI「狡猾」,Sora 的技术报告只是很笼统地引用了几篇谷歌的文章,但没说到底用了什么,怎么用的,以及做了哪些创新。[16]
② 同样也有类似观点。360 集团创始人周鸿祎认为 OpenAI 最强的能力其一是找方向,另一个是工程化思路非常严谨。因此,现在重要的是需要把工程化思路探索出来。[17]
2、算力方面,Sora 坚守了 OpenAI 的核心理念,即 Scaling Law,「大力出奇迹」,随着训练计算量增加,视频质量显著提升。而大模型训练数据量的剧增,意味着需要强大的算力支持,而初创企业难以实现。
① 有人工智能算法工程师分析......



Sora 之外还有有哪些值得关注的文生视频模型?这些模型与 Sora 有何区别?「平替模型们」 为何追不上 Sora?为什么都在用 DiT?视频生成是如何从 GAN 演进到 DiT 的?... 查看完整解读请前往「机器之心PRO」业内通讯 · 2024年度#Week 11
本期完整版通讯含 3 个专题解读 +  31 项 AI & Robotics 赛道要事收录
 1. Figure 用的 VLM 和 「机器人 LLM」 是同一回事吗?
Figure、Covariant 和谷歌都发什么成果了?Sergey Levine 也创业了?Figure 01 用了哪些技术?Covarian 的 RFM-1 是基于 LLM 的吗?...
 2. 「平替版 Sora」 何时能追上?
Sora 之外还有有哪些值得关注的文生视频模型?这些模型与 Sora 有何区别?「平替模型们」 为何追不上 Sora?为什么都在用 DiT?视频生成是如何从 GAN 演进到 DiT 的?...

3.Yann LeCun 万字播客专访要点解读

Yann LeCun 在 3 小时里都聊了啥?LeCun 为什么批评强化学习?LeCun 本人觉得 JEPA 能理解物理世界吗?Llama 3 有新进展了?...



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
因标签不符合标准,Kmart召回平替版Air Tag打工人!何时能拥有“午休自由”?AI时代来临,人形机器人“科技赛跑”激烈!何时能“到我家”?「不用充电」的耳机来了,智能手机何时能摆脱电量焦虑[干货] I am really sorry 和 I really am sorry 啥区别?Learn English with President Obama and Mark Zuckerberg at Facebo太可怕了!Tyler Perry 在见证 OpenAI 的 Sora 后,搁置了价值8亿美元的扩展计划特斯拉市值,快被丰田汽车追上了每周硅闻 | 20天内4轮裁员;Google被质问何时停止裁员;同为大厂,Microsoft重启加薪计划!限免!这个App终于让iPhone追上了安卓!Open AI: Sora北京车展上,“山寨平替版”Cybertruck现身!眼前一亮...吗?特斯拉市值已经跌到快被丰田汽车追上了最强开源大模型 Llama 3震撼发布!开源模型将追上GPT-4,4000亿参数模型也在路上全球文化版图大地震, 中国人何时能有自己的IP宇宙?“平替版Midjourney”,上线1年超700万用户,生成图片超7亿张写作补习班上?不上?白天变长!2024年夏令时何时开始,何时结束?哪些州不实行?笑疯网友!美国夫妇被邮轮“扔在”非洲小岛,横跨6国拼命追船,好不容易追上,又跑了.......中年人,你啥时候让梦想失去了斑斓?遭遇欺诈,银行账户里的钱被转走,还能追回吗?【求职战报】全球金融交易平台Deutsche Börse Systems销售运营面试邀约!Llama3发布,开源模型追上闭源模型的历史时刻就在眼前了?​晚点财经丨中概股指数年内涨幅追上纳斯达克;北京车展,抓紧时间多卖车卫网君:火箭发射该走马斯克的试错路线,还是中国的归零路线?中国空间站首批材料舱外暴露实验完成;国内手机何时能够直连卫星?智利森林大火至少51死 「平静小镇变炼狱」农夫山泉快追上娃哈哈了外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生Sora 平替出现了!字节 Dreamina 开放测试,申请就给用|AI 鲜测疫情后北京的变化北京车展上,“山寨平替版”Cybertruck现身,上了外媒头条!16、长篇家庭伦理小说《嫁接》第四章 求子心切(1)护士还差400万,缺口何时能堵上​【资讯】遭遇欺诈,银行账户里的钱被转走,还能追回吗?校车平均延迟41分钟!刚刚宣布!纽约公立学校推出这一app,随时能查询校巴位置..免费培训!皇后区三家公共图书馆向纽约人推出课程2024年夏令时何时开始,何时结束?哪些州不遵守夏令时?最美圆号三重奏—山风在勃拉姆斯身边吹过
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。