Redian新闻
>
听众问答|Sora是真的理解世界吗?

听众问答|Sora是真的理解世界吗?

科学

听众:匿名


请问 Sora 到底是了解了物理世界还是利用人类知识做知识推理,才能做出这种连续性的电影动画类的效果?



回答这个问题之前,我先为其他听众简单介绍一下问题中的 Sora 到底是什么。


Sora 是人工智能公司 OpenAI 正在开发的一个专门用于生成视频的 AI 模型。用这个模型,可以根据用户提供的文本,生成一段不超过1分钟的高清视频。



最近大家在网上看到的 Sora 生成的成品视频一共有 9 段,都来自于 Sora 的官方网站。还有几个演示性的视频,都出自 Sora 的技术报告。


sora 演示视频


所以 Sora 目前还是一个处在开发阶段的,没有对外提供测试账号的内部项目。我们对 Sora 的了解,也仅限于 Sora 官网上已经披露的公开信息作出的判断。


好,我们回到问题本身。其实无论是了解物理世界,还是利用人类的知识做推理,本质上都是理解规则。基于力学的规则是规则,基于生物学的骨骼肌肉结构也是规则,基于光学的阴影、材质、反射,这些也是规则。可以这么说,AI 懂的规则越多,它犯常识性错误的机会就越少。


所以基于这个理解,我们再去看 Sora 生成的作品,就能对它的视频生成机制有个大概了解了。


从 Sora 公开的作品上来看,那种经常出现在 AI 图像中的违背常识的画面依然还是存在的。


比如说,街道上行走的人,有的异常高大,有的身材过于矮小。一些密集的人群会被当做一个物体处理,结果就出现了一个形状怪异的东西长着很多条腿的情况。有一个路边有农场的视频,里面就有几匹马连体和牛羊连体的情况发生。还有 AI 图片中常见的光影问题,视频中每一个细节的光影似乎都对,但整体来看,就是不知道光线是从哪里射来的。还有一些视频,上面的影子与产生影子的物品形状不能匹配。


sora 演示视频

弱点:不准确的物理建模和不自然的物体“变形”


这些问题其实都是违背人类知识和常识的问题。这说明在处理画面背景细节的角度上看,Sora 使用的技术并没有受到类似空间和物体结构、生物骨骼结构这类规则的约束。Sora 构建的立体空间,也不具备虚拟现实引擎中计算遮挡、透视和光影的能力。可以看得出来,Sora 生成的视频,主要还是依赖大规模训练所获得的类似于人类直觉的能力,它并没有真正的理解规则和常识。


当然你可能会问,如果 Sora 完全不理解规则和常识,是怎么做到把视频的连续性做得这么好的呢?


根据 Sora 技术报告中的解释,它运用了一种名叫数据块的处理技术。就像大语言模型可以通过海量网络数据来学习通用能力一样,Sora 可以通过把视频分解成时空数据块的方式实现对海量数据的学习。


这么说你可能不懂,我可以给你举个例子。


想象一下你有很多很多张拼图,上面是各种各样的风景、人物或者任意的画面。当所有拼图拆散后,每一小块拼图就可以理解为一个数据块。



Sora 就像是一个超级拼图高手,它通过对每一块拼图的学习,具备了在大量数据块之间进行任意排列组合的能力。就像大语言模型能够不分语种地驾驭词汇一样。


当我们把制作一个视频的要求交给 Sora 的时候,它会根据需求,对它掌握的数据块进行拼接和组合,最终得到符合要求的视频短片。


当我们让 Sora 学习一段视频的时候,它会把这段视频拆解成数据块去学习。当我们要求它输出一段新视频的时候,它就会用这些数据块进行排列组合,得到一个与原视频不同,但却符合需求的新视频。


Sora 的开发团队希望让 Sora 成为构建物理世界通用模拟器的一条可行的路径。这意味着不教给 Sora 任何的规则,但允许 Sora 自己通过学习去发现和总结规则这等于是在让人工智能自己去走人类走过的路。这种想法如果放在两年前,我可能不太敢相信这事儿能成,但现在,我愿意拭目以待。


更多推荐

哇,终于可以二刷《寻秘自然》了!

杠精猫08|偏方治大病吗?

星空与人类文明 03:金牛座、天鹰座、宝瓶座的来历

汪诘怎么看:比特币疯涨的原因和雪崩的可能


扫码加入社群👇


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
搭建乐高:消极自由的理式世界,一叶一世界的赛博禅修所有生命分子一夜皆可AI预测!AlphaFold 3改变人类对生命的理解,全球科学家都能免费使用「量子大军」出动,中国实验室破解世界级算法难题!MRD码微秒级加密防窃听,6G无人机爆炸性飞跃寒彻骨的中国社会的基础体温,谁触及,谁死心爬藤之路,别让孩子只会“纸上谈兵”,要让孩子“走出去”,理解世界免中介费和最高一个半月租金【高级公寓】Arris|Somerville|城市绿洲中的崭新生活|靠近橙线和绿线每天学一句英语台词|So be it李飞飞揭秘创业方向“空间智能”:视觉化为洞察,看见成为理解,理解导致行动因为中国,澳洲所有人都要多交一笔钱!全世界首创的税收种类,这才是真的抢钱!李飞飞解读创业方向「空间智能」,让AI真正理解世界华人最喜欢的橙子品种!甜是真的甜,多汁也是真的多汁! 基本上日常橙子就认准这款了越了解世界,就越相信中国第141章 棒打鸳鸯全日程发布|Sora之后的视频生成技术与应用她让我真的理解了,什么叫漂亮加拿大风光:美丽的阿冈昆稻盛和夫对幸福的理解,让人通透明澈!奥本海默这句“I am become Death”,你真的理解了吗?【高级公寓】Revolution|Somerville|Assembly Square的明星公寓【求职战报】全球金融交易平台Deutsche Börse Systems销售运营面试邀约!Sora是世界模拟器吗?全球首篇综述全面解析通用世界模型西安交大发表鲁棒视觉问答综述,揭秘AI视觉问答的“超强大脑”丨IEEE TPAMI家里用了多年的老风扇真的该换一换了,现在的风扇是真的智能好用!【高级公寓】Prospect union square|Somerville|工业风居住体验的典范第142章 我把仇人领回宫述评:质疑主流媒体没问题,转向做塔克·卡尔森的听众才是问题看看他们的勇气!对信仰的理解是这么深入!【高级公寓】345 Harrison|South End|酒店式高级公寓李飞飞揭秘创业方向“空间智能”:视觉化为洞察!看见成为理解,理解导致行动!少吃鱼人大 Sora 思辩:Sora 到底懂不懂物理世界?关于 RAG、AI Agent、多模态,我们的理解与探索AI 对「劳动节」的理解,让我没太绷住揭秘Sora:用大语言模型的方法理解视频,实现了对物理世界的“涌现”外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。