Redian新闻
>
Sora三巨头首次解密幕后信息,CTO:最快年内开放

Sora三巨头首次解密幕后信息,CTO:最快年内开放

公众号新闻
明敏 克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

“Sora最快今年内开放公测。”

在一场访谈中,OpenAI CTO Mira Murati亲自透露了这一消息。

短短10分钟里,Sora技术细节、进展、规划等当下最热议的问题,都有了更进一步解答:

  • 生成20秒的720P视频只需几分钟

  • 计算资源远超ChatGPT和DALL·E

  • 目前正在进行正在进行红队测试

  • 未来版本有望支持视频声效

而且还向外界传递了一层重要信息:

OpenAI在考虑发布这项技术时,抱有非常谨慎的态度。

“我们希望电影界人士和世界各地的创作者都能参与进来,与我们共同探索如何进一步推动这些行业发展。”

加上前几天,Sora的三名研发主管——Tim Brooks、William Peebles和Aditya Ramesh,也参与了一场16分钟的播客访谈。

综合两场对话,关于Sora背后的秘密,也有了更多蛛丝马迹可以探寻。

Sora背后还有多少秘密?

关于Sora,人们最关心也最期待的,可能就是什么时候才能上手体验了。

对此,Mira表示Sora正在进行红队测试,以确保工具的安全性,并且不会产生偏见或其他有害问题。

对于具体的时间,Mira也立下了flag——今年年内让Sora与广大用户正式见面。

此外,两场对话中谈到的其他话题,可以分为技术细节、项目规划和未来展望三个部分。

揭开更多技术细节

技术方面,三人团队表示,Sora更像是介于Dall·E这类扩散模型和GPT之间。

训练方式类似于Dall·E,但架构上更像GPT系列。

训练数据是不方便说滴(doge),大致就是公开数据和OpenAI已获授权的数据。

不过他们专门cue了一个点:通常图像、视频模型都是在一个固定尺寸上进行训练,而Sora使用了不同时长、比例和清晰度的视频。

具体方法之前的技术报告已经有了说明,就是用“Patches”来统一不同的视觉数据表现形式。

然后可以根据输入视频的大小,训练模型认识不同数量的小块。通过这种方式,模型能够更加灵活学习各种数据,同时也能生成不同分辨率和尺寸的内容。

性能方面,Mira和三人组的说法则略有不同:

三人组透露,有一次给Sora布置好任务后,出去买了杯咖啡,结果回来之后视频还没做好。

而Mira这边的回答则是,Sora生成720P分辨率、长达20秒的视频内容,只需要几分钟就能完成。

当然,具体消耗的时间,还要取决于任务复杂程度等多种因素,不能简单一概而论。

不过Mira这边表示,在正式发布之前将继续努力优化算法,以降低所需的算力。

这些问题还需解决

而针对Sora存在的不足,他们的回答也很坦诚,表示其还存在无法完美处理手部的生成,渲染复杂的物理过程也存在一定难度等一系列问题。

除了这些bug型的缺陷之外,Sora不能给视频添加声音也算一个美中不足之处,对此三人组给出了这样的回应:

很难确定什么时候能有这样的功能,但这并非一个技术问题,而是目前有优先级更高的问题需要解决。
目前,Sora还是更关注视频本身的生成,研究重点是提高视频的画质和帧率。
所以,能够加入声音当然是更好的,但现在的当务之急,还是要把视频能力先搞上来。

而Mira对此的回答则更像是给人们吃了一颗定心丸——未来版本有望支持视频声效,增强用户体验。

而除了这些产品本身的问题之外,为Sora生成的视频加入溯源信息,以防出现造假,也是OpenAI当下的一项重要任务。

同时,负责人和Mira都表示,团队始终在收集来自各界的用户反馈,三人组还举例说有用户希望能加入提示词以外,更精细、直接的控制方式,团队将此作为了重点考虑的一个方向。

Sora,未来可期

最后,针对Sora的未来,负责人给出了很高的预期,并表示其将不仅仅在视频创作方面发挥作用。

我们的世界充满了视觉信息,其中有很多无法仅通过文本来传达。
所以,虽然像GPT这样的语言模型已经对世界有了深刻的理解,但如果它们无法像人类一样“看”到视觉的世界,对世界的认识就会有所缺失。

因此,负责人对Sora及未来可能在其基础上开发的其他AI模型充满了期待——通过学习视觉信息的方式理解这个世界,在未来能够更好地帮助人类。

对此有网友表示,这的确是个好消息,Sora的意义不仅在于其本身,而且还会对其他AI产生影响。

另一边,已经有人在期待Runway等前任王者对此的反应了。

不过,虽然团队自己说Sora在未来能够理解人类世界,但它到底能不能真的算世界模型,还存在不小的争议。

Sora是世界模型吗?

针对这个问题,正反双方各执一词,支持者的主要理由,是认为从Sora生成的视频中能看出其对物理世界的理解。

而反方则不认同Sora是世界模型,代表人物是图灵奖得主、Meta首席AI科学家LeCun。

近期,LeCun点赞了一篇澳大利亚学者的万字长文,文章的核心观点就是认为Sora不是世界模型。

其中最核心的原因,是Sora并没有物理引擎来运行前向时间模拟,而且训练过程是端到端完成的,数据中并没有物理规律信息。

即便是抛开训练和生成过程,单从表现上看,Sora的输出也出现了违反重力、碰撞动力学等物理规律的情况。

Sora生成的“反重力玻璃杯”

所以,作者认为,将Sora称为世界模型是缺少充分依据的。

而人们比较关心的另一个问题,是Sora的训练过程,是否使用了虚幻引擎(Unreal Engine)5。

不过作者也没有给出确切结论,只表示这只是猜测,目前并没有确切的证据表明Sora确实使用了UE5进行训练。

而要想进一步揭开这些问题,或许要OpenAI再次自己出来公布,或者直接开源了。

One More Thing

虽然两场访谈的确透露出了不少干货,但针对人们同样广为关心的训练数据来源问题,无论是三人团队还是Mira,说法都十分模糊——

Sora的训练过程中使用的是公开可用和已获得授权的数据源。

但对于YouTube、Instagram和Facebook上的视频是否被用作训练数据,Mira则是顾左右而言他:

我不知道,但如果这些数据是公开可用的,他们也许是(训练)数据(的一部分)……我不确定

不过,这个说法的可信度先放下不谈,即便真的如Mira所说,也有网友并不认账:

OpenAI好像觉得,只要是公开的数据就可以随便用,呵呵

参考链接:
[1]
https://www.youtube.com/watch?v=Srh1lut4Q2A(第53分钟开始)
[2]https://www.youtube.com/watch?v=mAUpxN-EIgU
[3]https://artificialcognition.net/posts/video-generation-world-simulators/

报名中!

2024年值得关注的AIGC企业&产品

量子位正在评选2024年最值得关注的AIGC企业、 2024年最值得期待的AIGC产品两类奖项,欢迎报名评选

评选报名截至2024年3月31日 

中国AIGC产业峰会同步火热筹备中,了解更多请戳:Sora时代,我们该如何关注新应用?一切尽在中国AIGC产业峰会

商务合作请联络微信:18600164356 徐峰

活动合作请联络微信:18801103170 王琳玉


点这里👇关注我,记得标星噢

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
精选DS岗位丨Ford、Johnson & Johnson、Apple等多个公司开放岗位!华为P70闪拍功能意外爆火,CTO亲自下场解读技术原理攻破ctDNA+ctRNA联合检测,全球商业化布局多点开花,路胜如何领跑液体活检市场?爆红产品年内登陆中国!苹果CEO:我爱中国,我爱中国人!此前他隐瞒“iPhone在中国不好卖”,苹果赔了35亿谷歌狂喜:JAX性能超越Pytorch、TensorFlow!或成GPU推理训练最快选择Hinton、LeCun、Bengio三巨头,马维英、陈海波等华人入选,2023 ACM Fellow公布曾经火爆的高端零食三巨头,撬不开大众的钱包了Sora神图惊掉下巴,好莱坞导演急撤掉8亿美元摄影棚! Sora「内测」提前开放,影视失业潮将至疯狂!中国留学生还敢去吗?大温政府竟然批准在UBC学校内开一家大麻店!学生会还大力支持?!附近居民反对了三年都没用...《华灯初上》&《一程山路》高校内开车撞人致3死16伤:撞向同学的大专学生被诅咒的2023一锤降维!解密OpenAI超级视频模型Sora技术报告,虚拟世界涌现了离奇!波音飞机近期频发事故 关键证人在“车内开枪自杀”美股基本面 - 2024_01_24 * 晨报 * Getaround盘前暴涨60% 获2千万美元芯片级拆解!35颗苹果Vision Pro 芯片型号供应商首次解密!显微镜看索尼屏惊艳业界外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生爬藤规划的核心 :如何定制你的美本Impact Project?精选DS岗位丨Groupon、Johnson & Johnson、Apple等公司开放岗位!精选UX岗位丨PayPal、Johnson & Johnson、WellSky等公司开放岗位!彭博社:加拿大央行或激进降息,最快4月开始!明年底降至这个数有钱人不买房!美国富豪正在改变住房方式,租房猛增,在美国发布信息,别忘记上美国同城分类信息网us58.com芯片三巨头,竞争陷入白热化好消息,好消息,好消息……习总说,上海人“不粘人”;其实,上海,不粘中国偏爱应届生丨Microsoft开放大量岗位,支持sponsor!1300页报告坐实学术造假!顶尖高校或将首次解雇终身教职人员Sora幕后团队揭秘:4位华人,印度裔小哥“牵头”,还有高中就创业的00后..7030 血壮山河之枣宜会战 “扑朔迷离”南瓜店 7AMD CTO:AI推理芯片需求猛增25fall 英国QS前100院校硕士网申开放时间预测!最快4个月后开放!图灵三巨头等38人当选NAAI终身院士,却无从查证!剑指科技三巨头!欧盟启动《数字市场法案》生效以来首次调查AI院士评选大瓜!图灵三巨头、贾扬清等38人当选NAAI终身院士,却无从查证!2023 ACM Fellow颁给图灵三巨头!清华马维英、微软高剑峰、上交大陈海波等14位华人当选
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。