Redian新闻
>
LeCun怒斥Sora是世界模型,自回归LLM太简化了

LeCun怒斥Sora是世界模型,自回归LLM太简化了

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | 机器之心
编辑 | 陈萍
LeCun 对「世界模型」给出了最新定义。
最近几天,Sora 成为了全世界关注的焦点。与之相关的一切,都被放大到极致。
Sora 如此出圈,不仅在于它能输出高质量的视频,更在于 OpenAI 将其定义为一个「世界模拟器」(world simulators)。
英伟达高级研究科学家 Jim Fan 甚至断言:「Sora 是一个数据驱动的物理引擎」,「是一个可学习的模拟器,或『世界模型』」。
「Sora 是世界模型」这种观点,让一直将「世界模型」作为研究重心的图灵奖得主 Yann LeCun 有些坐不住了。在 LeCun 看来,仅仅根据 prompt 生成逼真视频并不能代表一个模型理解了物理世界,生成视频的过程与基于世界模型的因果预测完全不同。
图源:https://twitter.com/ylecun/status/1758740106955952191
虽然 Sora 的发布让整个 AI 界为之疯狂,但 LeCun 并不看好。他不止一次的公开表达过对自回归和 LLM 的批评,而自回归模型是包括 Sora 等在内的 GPT 系列 LLM 模型所依赖的学习范式,也就是说,从 ChatGPT 到 Sora,OpenAI 都是采用的自回归生成式路线。
然而 LeCun 多次唱衰这种技术路线,他曾表达过一些不满,比如「从现在起 5 年内,没有哪个头脑正常的人会使用自回归模型。」「自回归生成模型弱爆了!(Auto-Regressive Generative Models suck!)」「LLM 对世界的理解非常肤浅。」等言论。
世界模型和自回归 LLM 到底该如何定义?身为全球知名的 AI 研究学者,LeCun 自然不是一位全然的批评家,最近,他给出了世界模型的新定义。在他看来,自回归生成模型仅仅是世界模型的一种简化的特殊情况。与大家在互联网上看到的动不动就是长篇大论的科普不同,LeCun 以一种简单直白的方式给出了世界模型的定义。
图源:https://twitter.com/ylecun/status/1759933365241921817
对于给定的:
  • 观察值 x (t);
  • 对世界状态的先前估计 s (t);
  • 动作建议 a (t);
  • 潜在变量建议 z (t)。
世界模型需要计算出:
  • 表征:h (t) = Enc (x (t));
  • 给出预测:s (t+1) = Pred ( h (t), s (t), z (t), a (t) )。
其中,
  • Enc () 是一个编码器(我们可以理解为一个可训练的确定性函数,例如神经网络);
  • Pred () 是一个隐藏状态预测器(也是一个可训练的确定性函数);
  • 潜在变量 z (t) 代表未知信息,可以准确预测将来会发生什么。z (t) 变量必须从一个分布中进行采样,或者在一组中变化。它参数化了(或分布)一系列可能的预测。换句话说,变量 z (t) 定义了一个可能性空间,我们根据这个空间来预测未来可能发生的情况。
诀窍是通过观察三元组 (x (t),a (t),x (t+1)) 来训练整个模型,同时防止 Encoder 坍缩。
自回归生成模型(例如 LLM,Sora 就是这种路线)是一种简化的特殊情况,原因在于:
1. Encoder 是恒等函数:h (t) = x (t);
2. 状态是过去输入的窗口;
3. 没有动作变量 a (t);
4. x (t) 是离散的;
5. 预测器计算 x (t+1) 结果的分布,并使用潜在 z (t) 从该分布中选择一个值。
方程简化为:
s (t) = [x (t),x (t-1),...x (t-k)]
x (t+1) = Pred ( s (t), z (t), a (t) )
在这种情况下不存在坍缩问题。
这可能就是 LeCun 极力反对 Sora 是世界模型这种说法的一个重要原因 —— 它只是世界模型中一种简化的特殊情况。
不过话说回来,Jim Fan 又在 LeCun 的这条推文下方留言,他坚持道:「Sora 本质上是一种无操作(no-op)的世界模型。你可以设置世界的初始状态,在潜在空间中运行模拟,并被动地观察会发生什么。现在没有办法进行积极干预。」
至于 Sora 到底是不是世界模型我们暂且不议,混淆大家多时的「世界模型」的定义,现在终于被 LeCun 讲明白了。

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 Debug模型越大,性能越好?苹果自回归视觉模型AIM:没错ConvNet与Transformer谁更强?Meta评测4个领先视觉模型,LeCun转赞Hinton、LeCun、Bengio三巨头,马维英、陈海波等华人入选,2023 ACM Fellow公布机器人,才是AI世界模型的星辰大海马毅LeCun谢赛宁曝出多模态LLM重大缺陷!开创性研究显著增强视觉理解能力用 1000 行 C 代码手搓了一个大模型,Mac 即可运行,特斯拉前AI总监爆火科普 LLM2023 LLM技术报告—— LLM的工具和平台LeCun 自曝拒绝谷歌研究主管offer!只想专心做研究外企社招丨Dräger德尔格,行业全球领导者,15薪,六险一金,多样福利,偏爱留学生从20亿数据中学习物理世界,基于Transformer的通用世界模型成功挑战视频生成近距离看米兰男装周:古驰,普拉达,芬迪,珀琅汐,Brunello Cucinelli,JW AndersonSora世界模型 与 OpenAI宫斗戏 - AI到底有多强大?嫉妒的心灵不美丽大规模视觉模型新突破!70亿参数!Apple新作AIM:自回归图像模型关于朱令铊中毒的一点讨论3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑Levi's起诉Brunello Cucinelli侵犯“矩形口袋标签”商标权Yann LeCun:生成模型不适合处理视频,AI得在抽象空间中进行预测LLM会写代码≠推理+规划!AAAI主席揭秘:代码数据质量太高|LeCun力赞Hinton、LeCun、Bengio、清华马维英等人当选2023 ACM Fellow!LeCun转发!大连理工卢湖川、贾旭团队提出可插入图像/视频/3D生成的StableIdentityCode Llama 70B霸榜3连发,练习5个月击败GPT-4!小扎LeCun亲自官宣上新两首《万家灯火》吉他摇滚、电子音乐都能搞定,Meta开源音频生成新模型MAGNeT,非自回归7倍提速提示词专场:从调整提示改善与LLMs的沟通,到利用LLMs优化提示效果今日arXiv最热NLP大模型论文:伯克利&DeepMind联合研究,RaLMSpec让检索增强LLM速度提升2-7倍!2023虽然过的不尽人意但是也要总结一下!轻量级模型,重量级性能,TinyLlama、LiteLlama小模型火起来了首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作今日Arxiv最热NLP大模型论文:清华大学让大语言模型自动并行自回归解码,速度提升高达4倍!《再见,布里诺斯艾利斯》ICLR 2024 | 高分工作!Uni3D:3D基础大模型,刷新多个SOTA!从文字模型到世界模型!Meta新研究让AI Agent理解物理世界离世界模型更近一步!Meta开源OpenEQA,评估AI Agent情景理解能力
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。