Redian新闻
>
刘润:OpenAI全新发布的Sora,到底意味着什么?

刘润:OpenAI全新发布的Sora,到底意味着什么?

财经


作者 / 刘润

编辑 / 二蔓    版面 / 黄静

这是刘润公众号第2159篇原创文章


1、2024年2月16日凌晨(美国时间2月15日),OpenAI发布了“文生视频”(text-to-video)的工具,Sora整个世界再次被震撼了。人类用无数种语言,在全球的社交媒体上惊呼:现实,不存在了。
2、那么,Sora到底是什么?
3、这是一段咒语(Prompt):
A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
翻译成中文(by ChatGPT)就是:
一位时尚的女士穿着黑色皮夹克、长红裙和黑色靴子,手拿黑色手袋,在东京一条灯光温暖、霓虹灯闪烁、带有动感城市标志的街道上自信而随意地行走。她戴着太阳镜,涂着红色口红。街道潮湿而有反光效果,色彩缤纷的灯光仿佛在地面上创造了镜面效果。许多行人在街上来往。
4、文生视频。文有了。现在,看视频。

5、看完之后,什么感觉?是不是感觉:这……不可能是AI生成的吧?你看她脸上,雀斑和瑕疵那么明显,不像是假的;镜头移动时,水里的倒影也在移动,不像是假的;旁边一起走的那些人,每个人心中有自己的故事,不像是假的;更重要的是,她的墨镜里还有街景的映射,不像是假的。
6、以前不相信是真的。现在不相信是假的。
7、OpenAI知道你会这么想,所以在官网留了一句话:
所有本页面上的视频都是直接由Sora生成,未经修改。
8、Sora的能耐,还不仅仅是“文生视频”。他还能把两个视频,连在一起,实现无缝过渡。比如这个,从现实的乡村,无缝过渡到虚幻的城市。

9、这样的视频,还有很多。Sora还能做很多很多其它事。你可能也已经看到了不少。我就不发了。网上到处都是。
10、比起这些震撼视频,其实我更想知道的是,Sora的出现,对人工智能的整体发展,到底意味着什么?于是,我专门找来OpenAI官方公布的Sora的技术文档,仔细看了一遍。
11、看完之后我发现,这份技术文档,比那些不可思议的视频,更让人震撼。
12、这篇技术文档,没有泄露太多Sora的技术细节。但还是介绍了它的基本原理。
13、简单来说,Sora通过学习视频,来理解现实世界的动态变化,并用计算机视觉技术模拟这些变化,从而创造出新的视觉内容。换句话说,Sora学习的不仅仅是视频,也不仅仅是视频里的画面、像素点,在学习视频里面那个世界的“物理规律”。
14、听上去,很抽象。我解释一下。
15、比如,你咬一口食物,食物应该出现一个咬痕。这是“物理规律”。如果咬完之后,食物还是完整的,那就不符合“物理规律”。
16、大部分的视频软件,并不理解“物理规律”。他们处理的对象,只是画面。而不是画面里的食物和人。但是Sora,似乎理解。当Sora学习人咬食物的视频时,它记住的,不仅是食物和嘴在一起的“具体画面”,还有“咬就会有痕”这个“物理规律”。以后生成视频时,一旦有“咬”这个动作,Sora就会知道,下面应该出现一个咬痕了。
17、比如,下面这段。
18、用Sora生成的视频,并不总是能“咬就会有痕”。它“有时”也会出错。但这已经很厉害,很可怕了。因为“先记忆,再预测”,这种理解世界的方式,是人类理解世界的方式。这种方式有个名字,叫:世界模型。
19、什么是,世界模型?我举个例子。
20、你的“记忆”中,知道一杯咖啡的重量。所以当你想拿起一杯咖啡时,大脑准确“预测”了应该用多大的力。于是,杯子被顺利拿起来。你都没意识到。但如果,杯子里碰巧没有咖啡呢?你就会用很大的力,去拿很轻的杯子。你的手,立刻能感觉到不对。然后,你的“记忆”里会加上一条:杯子也有可能是空的。于是,下次再“预测”,就不会错了。你做的事情越多,大脑里就会形成越复杂的世界模型,用于更准确地预测这个世界的反应。这就是人类与世界交互的方式:世界模型。
21、关于世界模型,如果感兴趣,我建议你读一本书,叫《千脑智能》。
22、回到Sora。Sora的技术文档里有一句话:
Our results suggest that scaling video generation models is a promising path towards building general purpose simulators of the physical world.
翻译成中文就是:
我们的结果表明,扩展视频生成模型是向着构建通用物理世界模拟器迈进的有希望的路径。
23、什么意思?意思就是说,OpenAI最终想做的,其实不是一个“文生视频”的工具,而是一个通用的“物理世界模拟器”。也就是世界模型,为真实世界建模。
24、而Sora,只是验证了,这条道路可行的一个里程碑。
25、如果从“视频”中,可以开始学习物理的规律了,那么,未来可以不可以从“摄像头”里学习呢?如果也可以的话,那么,给AI装一双“眼睛”,让他满世界跑,会发生什么?如果也可以的话,那么,把全世界的公共摄像头,都开放给OpenAI,会发生什么?
26、Sora的出现,可能意味着,通用人工智能(AGI),正在加速到来。
27、这才是OpenAI,真正想做的事情。
28、所以,这时你就能理解,为什么Sam Altman要筹集7万亿美金,重塑全球AI芯片的基础设施了。7万亿,相当于全球GDP的10%,能买2.5个微软,4个英伟达,或者11.5个特斯拉。为什么?因为,通往通用人工智能的道路上,需要大量、大量、大量的算力。
29、Sora来了,通用人工智能还会远吗?
30、这个世界正在发生着难以想象的变化。看似很远,但又瞬间近在眼前。
31、最后,要感谢Sam Altman,选择初六宣布此事。
32、不然,我们整个春节,都要用来见证历史了。
*个人观点,仅供参考。

推荐阅读:

《好喝,从来都不是奶茶的核心竞争力》

搞明白自己的业务,才能更好地管理》

   流程的存在,不是为了制造各种麻烦,而是为了解决3种问题》

品牌推广 培训合作 | 商业咨询 | 润米商城 | 转载开白

请在公众号后台回复  合作 

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
2023虽然过的不尽人意但是也要总结一下!特朗普与拜登决战将意味着什么?比特币现货ETF突然获批,游戏规则变了!到底意味着什么?关于朱令铊中毒的一点讨论广州楼市不限购,对我们意味着什么?人类首次植入脑机接口芯片,这意味着什么?养老金并轨倒计时,到底意味着什么?嫉妒的心灵不美丽《再见,布里诺斯艾利斯》两首《万家灯火》活动|吴越x索南才让x苏七七:文本对于小说家意味着什么?马云失去支付宝控制权!意味着什么?市值之王易主!微软超越苹果,意味着什么?特朗普首战告捷!赢得艾奥瓦意味着什么?GPT Store 意味着什么?对话王耀庆、林雨申、马苏|“热搜”对演员来说到底意味着什么?2024年,对房东来说意味着什么?这几点事关收益与风险!香港法院向中国恒大发出清盘令!意味着什么?供应商怎么办?恒大被强制清盘,意味着什么?中植申请破产清算,到底意味着什么?卷王入局,小米对中国汽车意味着什么?App Store 变天!苹果史上首次开放第三方下载意味着什么?特朗普第二个任期对美国的商业和经济意味着什么?微软市值超越苹果,意味着什么?2023年中国出生902万人意味着什么?股债比2倍意味着什么?公募最新预判……扯白||吴京谢楠:“大丈夫主义”婚姻到底意味着什么?广州苏州放开限购意味着什么?特朗普首战获胜,意味着什么?瑞萨收购Transphorm,对GaN行业意味着什么?央视曝光医院全链条腐败意味着什么?婚姻,对我们来说,究竟意味着什么?中等收入群体扩大至8亿人,意味着什么?硅谷恐慌:Open AI发布全新视频模型Sora!现实,不存在了新旧赛道掰手腕!煤炭大佬超越"宁王",意味着什么?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。