Redian新闻
>
Sora世界模型 与 OpenAI宫斗戏 - AI到底有多强大?

Sora世界模型 与 OpenAI宫斗戏 - AI到底有多强大?

职场


就在大约一个月之前,人工智能界又一次被OpenAI搅得天翻地覆。


这次并不是因为Sam Altman或者别的领导层又又又在闹什么宫斗大戏,而是2月16日凌晨,在没有任何预兆和消息透露的情况下,OpenAI 突然发布了自己的首个文生视频模型:Sora。


图片来源于OpenAI


Sora的诞生,别说是人工智能界,连同一些与科技联系紧密的影视圈都彻夜无眠。不仅现阶段文生视频AI的技术极限得到了大幅刷新,生成式AI在视频领域的地位也将要被人刮目相待。


Sora确实是太可怕了。


只要给出一段文字,Sora就能生成出长达60秒的精美逼真的视频。无论是多镜头切换还是一镜到底都可以轻松驾驭,同时还能保持对物理世界的合理认知和角色视觉风格的一致性。


无论是女子走在繁华的东京街头:


Promt节选:A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black lether jacket, long red dress and black boots...


还是创造出在咖啡杯里乘风破浪的海盗船:


Promt:Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.


从跟随视角拍摄越野车行驶在悬崖峭壁:


Promt节选:: The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope...


到模拟drone广角拍摄的海边城堡:


Promt节选:A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black lether jacket, long red dress and black boots...


除了模拟相机POV或者运镜变换的能力超群,Sora生成微距拍摄的人类或是动物细节也毫无瑕疵,充分体现了模型对生物结构的正确理解:


Promt节选: Extreme close up of a 24 year old woman’s eye blinking, standing in Marrakech during magic hour, cinematic film shot in 70mm, depth of field, vivid colors, cinematic


Promt节选:A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in.



所以为什么Sora这么强大?


从Sora的技术文档中可以发现,Sora是一个diffusion model,它是利用深度学习技术来逐步从一种无序状态(如静态噪声)转变为有序状态(如清晰图像或视频)的一种技术。


Sora基于DALL·E和GPT模型的先前研究成果,采用了DALL·E 3中的recaptioning技术,这涉及为视觉训练数据生成高度描述性的文字。因此,该模型能够更忠实地遵循用户在生成视频中的文本指令。并且通过这些技术细节,Sora扩展了图像和视频生成模型的能力,使其能够更准确、更创造性地响应用户的文本指令,生成符合预期的高质量视频内容。



当然,目前的Sora绝非完美无缺,目前Sora还是会存在生成的视频不合理的问题,主要是由于对世界缺乏足够的物理认知而闹出笑话。


比如说生成了倒着在跑步机上运动的男人,并且跑步姿势不符合人体规律。


Promt节选:Prompt: Step-printing scene of a person running, cinematic film shot in 35mm.


或者是考古学家从沙子中挖出一把诡异悬浮的塑料椅。


Promt节选:Prompt: Archeologists discover a generic plastic chair in the desert, excavating and dusting it with great care.


OpenAI团队表示Sora目前正在接受红队测试,用以评估关键领域的潜在危害或者风险,同时也给视觉艺术家、设计师和电影制作人提供了少数访问权限以便获得他们的反馈,用以继续推进模型的研发。并且团队还在进行模型伦理侧的对抗性测试,比如错误信息、仇恨内容、偏见内容等。


OpenAI称,自己提前分享关于Sora的研究进展,旨在开始和OpenAI以外的人进行合作并且获取他们的反馈,同时也让公众了解即将问世的AI将会有多么强大的能力。


从官方发布的视频中呈现的冰山一角,令人难以想象具备了完备功能的Sora将会取代多少科技或者影视行业的工作。


Sora已经超越了一个文字生成视频的模型,而是已经体现出了一种”世界模型(World Simulator)“的雏形——通过有限的context,对真实的物理世界进行建模和理解,让模型在生成内容的时候已经有了一些对世界的”基础“认知。这些认知有的时候不会被明确表达出来,但是却是AI视频生成更加流畅且符合逻辑的基石。并且世界模型的概念一旦稳固,将有可能大幅度降低视频模型的训练成本。


仿佛从此以后,现实和虚幻的界限真的开始模糊了。


你能分辨这是实景拍摄还是AI生成吗?




在这一石激起千层浪的此时此刻,不禁有人想起来自从去年OpenAI宫斗事件以Sam回归落下帷幕以后,就陷入了沉默的Ilya Sutskever。OpenAI的首席科学家。



熟知OpenAI和AI界从业者都知道Ilya在行业内不可撼动的地位。


当时在OpenAI的领导层大宫斗中,就是以Ilya为首对Sam过于激进的发展理念产生了质疑。Ilya认为Sam没有考虑到如此快速推进AI发展所带来的潜在危险。更有传闻说他在模型的训练过程中”看见了什么“,并且担心AI将来会发展不受控制的境地,伤害人类的利益。


这就是他当时联合董事会一起罢免了Sam的原因。因为他觉得“Sam离开是让OpenAI不偏离初衷的最好方式。”


埃隆马斯克说:Ilya是个十分有道德感的人,他一定看到了什么。


然而OpenAI接下来一系列的戏剧性反应,包括700名以上员工请辞等等让他最终还是妥协了,Sam重回CEO的职位。


即便Sam在重新回到职位上之后仍旧表达了对Ilya的尊重以及”零恶意“,并希望二人能够继续合作下去。Ilya也得以继续留在OpenAI公司,但是他在那以后就仿佛隐身了一样,在近期OpenAI连续发布新产品的喧嚣欢腾中毫无踪迹。


细心的人发现,OpenAI在官网上发布的关于Sora的信息中,无论是这个项目的研发团队,还是在最后的致谢名单中,Ilya的名字从未出现过。



一同沉寂的,还有他那2023年12月以后就再也没有更新的X账号。


2023年12月14日,OpenAI 发布了超级对齐项目的最新研究论文:使用 GPT-2 级别的小模型来监督 GPT-4 级别的大模型。同时,OpenAI 宣布与 Eric Schmidt 合作,启动了一项 1000 万美元的资助计划支持技术研究,以确保超人类人工智能系统的一致性和安全性。


这就是Ilya上一次X账号更新的全部内容。


但或许也是因为Ilya的态度,让一些人在看到Sora或是将来更新版本的GPT模型的发布时,不会盲目跟风狂欢,而是陷入更深的思考。


Ilya究竟看到了什么?


如果AI有一天变得非常、非常强大,人类将再也无法理解他们,到了那个时候,人类该何去何从?


我们该怎样保证那些机器对人类是不具有恶意的,而是像父母关心孩子那样,像人类此时此刻推进着AI的进步那样,帮助人类进步呢?


在人工智能通过海量数据学习人类的同时,人类也应该不断学习,加强自己对人工智能乃至当今科技的理解,才能最大程度的预防潜在的“失控”场面。


Techie在3月31号周日为大家带来北美数据岗最新内推资源和面经分享,直播现场接收简历内推。


这也是和北美科技业内人士畅聊人工智能、深度学习、科技求职等火热话题的好机会。


3.31 美西 5 PM PST / 美东 8 PM EST 

Techie与大家不见不散


Techie的数据科学集训营和编程算法集训营小班课也依旧火热招生中



如有任何问题,欢迎扫描下图二维码,添加课程导师汪淼老师进行进一步咨询。


Techie,有温度的科技职业发展平台。



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
省委书记司机的能量,到底有多大?中国如何复刻Sora,华人团队长文解构!996 OpenAI研究员:Sora是视频GPT-2时刻机器人,才是AI世界模型的星辰大海【老键曲库】一组男声名曲翻唱 - 自成一格首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作市区South Loop房源SL15 | 不收中介费/South Loop黄金位置/LEED认证逼退外机的J20,到底有多强?LeCun怒斥Sora是世界模型,自回归LLM太简化了市区South Loop房源SL12 | 不收中介费/South Loop黄金地段/密歇根湖畔精品豪华公寓3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑刘润:OpenAI全新发布的Sora,到底意味着什么?hé bàng?hé bèng?Anthropic找到了打败OpenAI的方法:自己也成为OpenAIOpenAI掌门人最新演讲内容要点:下一代AI模型更强大,不需担心超级智能OpenAI甩出AI模型Sora,做视频的我又要失业了……外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生《阴阳鱼》连载第11章:时间如刀,空间如砧板,而你我都不过是鱼肉加州将迎来巨无霸Costco!原计划全球最大,它到底有多大?两轮游日本 - 我的所见,所闻和所想 富士山答曰:愿君多坐会 此境最相思这些网贷利息到底有多高?它们到底是如何骗你去贷款的?今天刷屏的 OpenAI Sora 模型,是怎么实现 1分钟一镜到底的?揭秘最强视频生成模型 Sora,OpenAI 是怎么实现 1 分钟一镜到底的?把第二语言英语说得像母语一样不用再等 OpenAI ,全球首个 Open-Sora 全面开源!从文字模型到世界模型!Meta新研究让AI Agent理解物理世界【那些年,那些玉树临风的男人们】先秦-商鞅-变这可不是美国的小“瓜”,那么它到底有多大?传微软OpenAI领投人形机器人;OpenAI一键调用GPTs功能上线;年度大模型评测榜单公布丨AIGC大事日报一锤降维!解密OpenAI超级视频模型Sora技术报告,虚拟世界涌现了经常挨打的孩子,和没挨过打的孩子,长大后的差距到底有多大?从没被击落过的F-16战机到底有多强大?人大 Sora 思辩:Sora 到底懂不懂物理世界?老师,医生和医生之间到底有什么区别,怎么差距可以这么大?浓人,nèng死淡人离世界模型更近一步!Meta开源OpenEQA,评估AI Agent情景理解能力
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。