Redian新闻
>
刚炮轰完GPT模式,杨立昆推出首个“世界模型”

刚炮轰完GPT模式,杨立昆推出首个“世界模型”

公众号新闻

突破传统视觉模型桎梏,AI向人类水平迈进了一步。
编译 |  ZeR0
编辑 |  漠影
智东西6月14日报道,今日凌晨,Meta宣布推出首个“类人(human-like)”AI模型I-JEPA。这是第一个基于Meta首席AI科学家杨立昆(Yann LeCun)愿景关键组成部分的AI模型,据称能比现有模型更准确地分析和完成未完成的图像。
在上周举办的背景智源大会上,杨立昆在发表致辞演讲时斗志昂扬地驳斥了GPT的逻辑,说自回归模型没有规划、推理的能力,单纯根据概率生成自回归的大语言模型从本质上根本解决不了幻觉、错误的问题,并给出了他认为的正确答案——世界模型
杨立昆去年提出了一种新的架构,旨在克服当今最先进的AI系统的关键限制。他的愿景是创造出能够学习世界如何运作的内部模型的机器,这样它们就可以更快地学习,计划如何完成复杂的任务,并随时适应不熟悉的情况。
基于LeCun愿景关键组成部分,今日发布的图像联合嵌入预测架构(I-JEPA),通过创建外部世界的内部模型来学习,该模型比较图像的抽象表示(而不是比较像素本身)。
I-JEPA在多个计算机视觉任务上提供了强大的性能,并且比其他广泛使用的计算机视觉模型的计算效率高得多。I-JEPA学习的表示也可以用于许多不同的应用程序,而不需要进行大量的微调。
例如,Meta研究人员在72小时内使用16个A100 GPU训练了一个拥有6.32亿个参数的视觉Transformer模型,并且它在ImageNet上实现了最先进的少样本分类性能,每个类只有12个标记示例,其他方法通常需要2到10倍以上的GPU时,并在使用相同数量的数据进行训练时获得更低的错误率。
I-JEPA相关论文将在下周的CVPR 2023上发表,训练代码和模型检查点的源代码已开放。



论文地址:

https://arxiv.org/pdf/2301.08243.pdf

项目地址:

https://github.com/facebookresearch/ijepa


Meta AI博客文章全文编译如下:

01.
通过自监督学习获取常识性知识


Meta在I-JEPA(以及更普遍的联合嵌入预测架构(JEPA)模型)上的工作基于这样一个事实:人类通过被动地观察世界来学习大量关于世界的背景知识。
据推测,这种常识性信息是实现智能行为的关键,例如样本高效获取新概念、基础和计划。
AI研究人员试图设计学习算法,捕捉有关世界的常识背景知识,然后将其编码为算法以后可以访问的数字表示。
为了提高效率,系统必须以自监督的方式学习这些表征——也就是说,直接从图像或声音等未标记的数据中学习,而不是从人工组装的标记数据集中学习。
在较高的层次上,JEPA旨在通过相同输入的其他部分的表示来预测输入部分(如图像或文本)的表示。因为它不涉及将图像的多个视图/增强表示折叠到单个点,所以希望JEPA能够避免与另一种广泛使用的称为基于不变性的预训练的方法相关的偏差和问题。
与此同时,通过在高抽象水平上预测表征,而不是直接预测像素值,Meta希望直接学习有用的表征,同时避免生成方法的局限性,这是大型语言模型的基础,最近已经产生了如此多令人兴奋的进展。
相比之下,生成式架构通过删除或扭曲模型输入的部分来学习,例如删除照片的一部分或隐藏文本段落中的一些单词。然后,他们尝试预测损坏或丢失的像素或单词。
然而,生成式AI方法的一个显著缺点是,模型试图填补每一点缺失的信息,即使世界本身是不可预测的。因此,生成式AI方法可能容易犯一些人们永远不会犯的错误,因为它们过于关注不相关的细节,而不是捕捉高层次的可预测概念,例如生成式AI模型很难准确地生成人手。(他们经常会添加额外的数字或犯其他明显的错误。)

▲自监督学习的通用架构,其中系统学习捕捉其输入之间的关系。目标是为不兼容的输入分配一个高能量,并为兼容的输入分配一个低能量。(a) 联合嵌入(不变)体系结构学习为兼容输入x、y输出相似嵌入,为不兼容输入输出不同嵌入。(b) 生成式架构学习从兼容信号x直接重构信号y,使用以附加(可能是潜在的)变量z为条件的解码器网络来促进重构。(c) 联合嵌入预测架构学习从兼容信号x中预测信号y的嵌入,使用以附加(可能是潜在的)变量z为条件的预测网络来促进预测。


02.
迈向具有广泛功能的
联合嵌入预测架构的第一步


I-JEPA背后的想法是用一种更接近于人们一般理解的抽象表示来预测缺失的信息。
与在像素/标记空间进行预测的生成方法相比,I-JEPA使用抽象的预测目标,可以消除不必要的像素级细节,从而使模型学习更多的语义特征。引导I-JEPA生成语义表示的另一个核心设计选择是提出的多块屏蔽策略。
具体来说,Meta研究人员证明了使用信息(空间分布)上下文预测包含语义信息(具有足够大的规模)的大型块的重要性。

▲I-JEPA使用单个上下文块来预测来自同一图像的各种目标块的表示。上下文编码器是一个视觉Transformer(ViT),它只处理可见的上下文补丁。预测器是一个狭窄的ViT,它接受上下文编码器的输出,并根据目标的位置标记(以颜色显示)来预测目标块在特定位置的表示。目标表示对应于目标编码器的输出,其权重通过上下文编码器权重的指数移动平均值在每次迭代中更新。

I-JEPA中的预测器可以看作是一个原始的(受限制的)世界模型,它能够从部分可观察的环境中对静态图像中的空间不确定性进行建模。更重要的是,这个世界模型是语义的,因为它预测图像中未见区域的高级信息,而不是像素级的细节。

▲说明了预测器是如何学习对世界的语义建模的。对于每个图像,蓝色框外的部分被编码并作为上下文提供给预测器。预测器输出它在蓝色框内的区域中所期望的表示。为了可视化预测,我们训练了一个生成模型,该模型生成由预测器输出表示的内容的草图,并且我们在蓝色框中显示了一个示例输出。显然,预测器能够识别应该填充哪些部分的语义(狗的头顶、鸟的腿、狼的腿、建筑物的另一边)。

为了理解模型捕获的是什么,Meta训练了一个随机解码器,它将I-JEPA预测的表示映射回像素空间,当在蓝色框内进行预测时,它显示了模型的输出。这种定性评估表明,该模型正确地捕捉了位置的不确定性,并产生了具有正确姿势的高级物体部件(例如,狗的头,狼的前腿)。
简而言之,I-JEPA能够学习对象部件的高级表示,而不会丢弃它们在图像中的局部位置信息。

03.
更高的效率和强大的性能


I-JEPA预训练的计算效率也很高。它不涉及与应用更多计算密集型数据增强来生成多个视图相关的任何开销。目标编码器只需处理图像的一个视图,并且上下文编码器只需处理上下文块。
根据经验,Meta发现I-JEPA无需使用人工制作的视图增强即可学习强大的现成语义表示(参见下图)。它在ImageNet-1K线性探测和半监督评估上也优于像素和标记重建方法。

▲ImageNet-1k上的线性评估性能作为GPU预训练小时数的函数。

I-JEPA还与以前依赖于语义任务上手工制作的数据增强的预训练方法相竞争。与这些方法相比,I-JEPA在物体计数和深度预测等低级视觉任务上取得了更好的性能。
通过使用更简单的模型和更少的刚性归纳偏差,I-JEPA适用于更广泛的任务集。

▲低镜头分类精度:在ImageNet-1k上使用1%的标签进行半监督评估(每个类大约12个标记图像)。


04.
结语:人工智能向人类水平迈进了一步


I-JEPA展示了学习竞争性现成图像表示的架构的潜力,而不需要通过手工制作的图像转换编码额外的知识。
推进JEPAs从更丰富的模式中学习更一般的世界模型将是特别有趣的,例如,使人们能够从短上下文中对视频中的未来事件做出长期的空间和时间预测,并根据音频或文本提示调节这些预测。
Meta研究人员期待着将JEPA方法扩展到其他领域,如图像-文本配对数据和视频数据。
未来,JEPA模型可能会在视频理解等任务上有令人兴奋的应用。这是应用和扩展自监督方法来学习世界一般模型的重要一步。





微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AI通灵!类ChatGPT模型解码大脑信息,准确率高达82%CVPR 2023 | LeCun世界模型首个研究!自监督视觉像人一样学习和推理!唱歌,写作和大外宣Meta造芯!正式入场大模型军备竞赛:推出首个AI加速器MTIAChrome 将引入无边界模式无需RLHF就能对齐人类,性能比肩ChatGPT!华人团队提出袋熊Wombat模型Meta首席AI科学家杨立昆:ChatGPT还没有狗聪明LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归槍,小费,什么老板!用语言建模世界:UC伯克利多模态世界模型利用语言预测未来英伟达H100杀疯了:11分钟训完GPT-3,霸榜8项测试,集群性能逼近线性增长商汤版ChatGPT来袭,中国激战千亿“大模型”下一代语言模型范式LAM崛起!AutoGPT模式席卷LLM,三大组件全面综述:规划、记忆和工具LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?前哨速览:Roblox推出17岁模式,黑客发现特斯拉的「马斯克模式」OpenAI CEO首次在中国演讲,杨立昆反击5年内GPT将被抛弃图灵奖得主杨立昆:GPT模式五年就不会有人用了,世界模型才是AGI未来火山引擎推出大模型平台;云知声提交上市申请;联通推出首个运营商大模型丨AIGC大事日报类GPT模型训练提速26.5%,清华朱军等人用INT4算法加速神经网络训练接入Llama 2等33个大模型,上线Prompt模板,百度智能云千帆大模型平台重磅升级大型语言模型技术公开课上线4讲!直播讲解ChatGPT开源平替、类GPT4低成本定制以及GPT4Tools为老公代笔的女人却成为了大作家刘亚洲开启亡党亡国亡军的滚滚洪流7 Papers & Radios | LeCun世界模型首次尝试;Meta开源文本音乐生成模型拼多多被曝临时确定五一放假三天,淘宝用户信息疑泄漏,GPT推出联网模式,欧盟达成《人工智能法》协议,这就是今天的其他大新闻!杨立昆:生成式AI还不如狗聪明;谷歌建议员工不要将机密内容输入Bard;王小川公司发布开源大模型| AI一周资讯DeepSpeed ZeRO++:降低4倍网络通信,显著提高大模型及类ChatGPT模型训练效率杨立昆:生成式AI还不如狗聪明;微软市值达2.59万亿美元;AI创企3个月融资约87亿美元丨AIGC大事日报大模型不是未来?你需要学习下图灵奖得主Yann LeCun选择的「世界模型」LeCun世界模型首项研究来了:自监督视觉,像人一样学习和推理,已开源精算红楼【原创】 ----- 年近五旬入歧途如何更好地蒸馏ChatGPT模型能力:Lion闭源大型语言模型的对抗性蒸馏模型原理及实验工作介绍MIT华人博士共同一作:用概率程序建模,破解世界模型!英伟达H100用11分钟训完GPT-3!PyTorch创始人:不要只看时间Llama2等30+模型接入千帆大模型平台,推理成本降50%!还有超全Prompt模板开放体验
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。