Redian新闻
>
被吹爆的Sora ,为何恐怕是过誉了?

被吹爆的Sora ,为何恐怕是过誉了?

公众号新闻
来源:风声OPINION
作者:刘正 Simon Kucher 战略咨询顾问

  凤凰网原创  Sora其实完全不理解真实世界的物理因果律,并不真正具有AGI(通用人工智能)所需的“世界模型”,它也无法去创造新的世界。

无需赘述,2024开年大事件就是Sora,几乎所有人都见识了Sora带来的震撼:极为细腻,真实渲染,情节连续,可持续60秒的视频,如同这不可能存在的冬日樱花一样,模糊了真实和虚幻的边界。

仿佛回到ChatGPT问世的那一天,OpenAI又一次震撼了世界。
在碾过一整条赛道AI初创公司的同时,连带着助力NVIDA拿下美股史上最大涨幅(以市值计算)。看着这一片欣欣向荣的狂欢,仿佛这次真的要被西方先进生产力按在地上摩擦了。所以真的有这么可怕吗?
从技术上看,Sora恐怕是过誉了
经过数日的挖坟,业界逐渐了解到Sora是基于纽约大学助理教授谢赛宁和学生Bill Peebles (如今任职于OpenAI)共同发表的Diffusion Transformer(DiT)的思路来开发的。
Diffusion是常见的文生图算法,通过给已标注的图片加噪点直至“扩散”成完全的白噪音状态,那么将这一操作倒过来就实现了按标注从白噪音中生成与文本对应的图片。在这一点上,Sora和Stable Diffusion, Midjourney以及Open AI自家的DALLE工具没有太多差别。
Sora的独到之处,是用GPT中常用的Transformer替换此前常用的UNet模型,来生成下一帧图片。还有,为了把在ChatGPT上玩得炉火纯青的Transformer应用到视频上,OpenAI采用了独特的时空补片(Space Patch)方法(对应大语言模型中的Token)。
通过把视频理解为三维空间(二维图像+一维时间)里堆叠的立方体,将其拆解成隐空间里一个个按时间排序的patch,再套用GPT的Transformer模型进行概率预测分析,最后将其解码回来即可获取后续帧的排列方式。
在生成过程里,不断重复这一步骤1440次,就得到了连续流畅,时空一致性极高的60秒视频。
无论用了多少工程上的trick,究其本质,Sora所做的仍然是开局一张图,后续全靠猜,不断输出下一帧像素的最大可能性组合。只不过OpenAI调教下的Transformer大力出奇迹,效果之好令人震惊。
但OpenAI并没有发明全新的框架,所以仅仅过了两周,Stable Diffusion 3就正式发布了,用了和Sora同款的DiT框架,在进度上咬得紧紧的。
可见,只要显卡管够,算法之下众生平等。这里并不存在去年ChatGPT刚问世时的技术代差。
Sora还不具备理解“因果律”的能力
OpenAI宣称Sora是“作为世界模拟的视频生成模型”,听起来神乎其神的。如在下面这个视频里,在不同角度的镜头切换中,人物和背景的细节一致性好的出奇,仿佛Sora是先在内部构建了人物和场景的3D模型,再对其进行“模拟拍摄”而产生的画面。
其实,这是人类自欺欺人的幻觉。
很多人都发现Sora生成视频中有些不合理之处,如这个“考古挖掘”的视频中,椅子完全不受刚性和重力影响,凭空出现,随风飘扬和变形。任何一个人都能看出这里的诡异之处。
师从丘成桐的顾险峰教授深刻讨论了这些bug背后的真相:Sora其实完全不理解真实世界的物理因果律,它只是寻找到了几何上足够平滑的点云分布。而且找到的这个分布基本是局部的最优解,缺乏对长程物理关系本质及表观的体现。
比如在下面这个视频中,老太太做了吹蜡烛的动作,但蜡烛却没有被吹灭。这是因为吹熄蜡烛是三维世界里以看不见的空气为中介“隔空”发生的物理作用。而在二维画面中,蜡烛和人物分属于隐空间中两个无关的patch,但没有任何像素来自看不见的空气,所以Sora无法在蜡烛和人物的画面间建立起因果关系,也就预测不出也画不出“吹熄”这个效果。
这就回到我们一开始所说的,Sora的本质是预测下一帧像素的最大可能性组合。但这种基于归纳的相关性统计方法,无法真正理解具有解析解的物理演绎逻辑。
语言或许可以表征人类能表达出的所有的知识和社会建构,所以大语言模型在文本生成上如鱼得水,分分钟秒杀人类做题家。
但真实的世界是物理的,具有比文本大得多的信息量,无论是图像还是文本描述都仅仅表征了其很小的侧面。
Sora能从视频里总结出牛顿万有引力那凝练的公式吗?有可能是做不到的。
再深入一层,你会发现Sora生成的视频都具有时空的连续性。所有的画面都是围绕同一元素和风格产生的连续画面(即便有分镜,背景也是一致的),没有突变点。这也很好理解,Sora的本质是预测下一帧像素的最大可能性组合,它先天就无法创造“不连续”的东西,尽管不连续才是物理世界的常态。
人对混沌和临界点具有先天的认知,Sora似乎还不能领悟这一点。Sora所呈现的,仅仅是在提示词限定下最具合理性的世界拟像,而非世界本身。
正如图灵奖得主杨立昆(Yann LeCun)指出,Sora并不真正具有AGI(通用人工智能)所需的“世界模型”,它也无法去创造新的世界。
当人类开始沉迷幻境,拒绝现实
当然,对于影视业而言,Sora已经产生了足够的冲击和恐慌。皮克斯这样的影视后期巨头,当年为了展现动画中的毛发纹理,需要“肝”几个月才能搞定物理建模和光追渲染的种种细节。如今看看Sora一键生成的高清片段,那真是一口老血喷出来。
上次ChatGPT已经让编剧工会集体罢工了,很想知道好莱坞的美工和后期程序员们会不会再次揭竿而起。
我毫不怀疑Sora会对未来的工作和生活产生巨大的影响,尤其是当它与元宇宙和AR结合起来。尽管Sora并不具有创造世界的真正智能,但其对世界的无限拟像,已经足够把大部分人玩得团团转了。
比起抖音上美颜开到最大的小姐姐,给每个人定制的Sora视频 + Apple Vision Pro的装备,可以带来好一万倍的梦幻体验,是真正的造梦机器。和影像有关的一切产业都将被重塑,未来能享受的娱乐生活将变得无比激动,像美剧《西部世界》里那样疯狂。
但Sora只是照着人的期望值绘出了最可能的那个“梦境”,而真实世界往往不按照你觉得最合理的样子运行。Sora带来的既是一个美梦,也是一个陷阱。
如果戴上AR眼镜就可以获得Sora为你量身定制的故事,你还会出门旅行吗?毕竟Sora可以给你360度展现地球上从未存在的美景。进一步思考,如果每个人都能活在专属自己的影像空间里,而这一切的边际成本接近于零,那什么才是现实?在这种情况下,现实反而是会被拒绝的存在,因为那里有太多的不确定性和变化,更不符合人的期望。
Sora可能并没有我们想象的那么神奇和智慧,但人确实足够愚蠢。很快我们就能看到有人用Sora来对老年人进行视频诈骗了,而这仅仅是个开始。
但这并非Sora的错,而是人的错。在《哈利波特》第一部中有一面厄里斯魔镜 (The Mirror of Erised),站在镜子前的人会发现,自己的一切渴望都会在镜中展现并满足——但仅仅在镜中。
而世界上最幸福的人,在镜子里看见的就是自己的模样。  
*本文系凤凰网评论部特约原创稿件,仅代表作者立场。

由于微信改版,公众号文章不再完整显示头条封面,一不小心,很容易错过我们的更新,甚至有可能再也看不到我们的推送了。

如果您还希望能经常看到我们的文章,建议给凤凰网财经添加一个“星标”哦。


    👇【 热门视频推荐 】👇

凤凰网财经官方微信 ID:finance_ifeng
喜欢此文,欢迎转发和点在看支持凤财
点击在看 持续关注↓↓↓

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
第一爱(DEI)对大学亚裔学生占比的影响惶恐!!澳洲华人最“担心上位”的那个男人,怕是真要上了…….回国治鸡眼中国一招“打拉结合”,美国恐怕是招架不住了Nazi Bomber WW2/Jewish American fighter pilot David Holden“母亲和儿子被吹下楼,我强迫自己冷静下来”​OpenAI的Sora会砸掉谁的饭碗?比起哄娃睡着,通勤爹妈真正的老大难恐怕是“哄自己睡着”......茹斯汀·特里耶:女性应该有自己的房间,哪怕是一个角落外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生被吹爆的美国天才夏令营,有多少家长在当韭菜?谢赛宁紧急辟谣:我和OpenAI的Sora模型无关!禁止AI“捞金”,4400万美元,还钱!马斯克起诉OpenAI,这恐怕是AI史上最重要的一场官司……终于到了说再见的时候……此次一别,怕是再也不见了!OpenAI出手后,GPT-4真的不懒了?网友不买账:只靠打补丁恐怕无济于事!华人常逛的SOHO出事!光天化日之下 16岁少年头部中枪身亡韩国顶男冲爆的「朋克鞋」,为何之前只有女码?广州突发!龙卷风带闪电、鸡蛋大的冰雹……厂房被吹翻,有人受伤,这些人员要尽快撤离!如何防御?有这些要点→被吹上天的三本书,按头安利给每个小学生,越早看到、后面学习越轻松2023年火爆的音乐节,为什么今年突然不香了?豪华阵容,豆瓣8.6,但过誉了痛揍机器人,吸金10亿!最“暴躁”老板,为何总被吹爆?被吹上天的健康食品,可能越吃越伤身!学会这一招,给娃挑零食更省力丈夫是羊入狼群还是狼入羊群?对话深势科技张林峰:北大90后独角兽公司,要做微观世界的Sora?普京为何突然撤换绍伊古?这恐怕是最真实的原因这些名家讲的课,以后恐怕是听不到了6个被吹上天的健康建议, 害惨中老年人!“​三人被吹下楼”小区:开发商为拿项目,曾安排大佬到异地私会佳人GPT-3水平的Sora 就强大到不敢给普通人用?可我也不知道把它用在哪儿【求职战报】全球金融交易平台Deutsche Börse Systems销售运营面试邀约!刘润:OpenAI全新发布的Sora,到底意味着什么?美国经济战巨型龙卷风狂扫美中部,建筑秒为平地奇迹!男孩被吹飞7公尺幸存年入百亿!被官媒吹爆的”大玩具",让广东人赚翻了
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。