Redian新闻
>
Meta开源I-JEPA,“类人” AI 模型

Meta开源I-JEPA,“类人” AI 模型

公众号新闻
出品 | OSC开源社区(ID:oschina2013)
Meta 宣布推出一个全新的 AI 模型 Image Joint Embedding Predictive Architecture (I-JEPA),可通过对图像的自我监督学习来学习世界的抽象表征,实现比现有模型更准确地分析和完成未完成的图像。目前相关的训练代码和模型已开源,I-JEPA 论文则计划在下周的 CVPR 2023 上发表。
根据介绍,I-JEPA 结合了 Meta 首席 AI 科学家 Yann LeCun 所提倡的类人推理方式,帮助避免 AI 生成图像常见的一些错误,比如多出的手指。I-JEPA 在多项计算机视觉任务上表现出色,且计算效率比其他广泛使用的计算机视觉模型高得多。
I-JEPA 学习的表征也可以用于许多不同的应用程序,而无需进行大量微调。例如,项目团队在 72 小时内使用 16 个 A100 GPU 训练了一个 632M 参数的视觉转换器模型,I-JEPA 在 ImageNet 上的 low-shot 分类中性能表现最优,每个类只有 12 个标记示例。其他方法通常需要 2 到 10 倍的 GPU 时间,并且在用相同数量的数据进行训练时错误率更高。
I-JEPA 背后的想法是以更类似于人类一般理解的抽象表示来预测缺失的信息。I-JEPA 使用抽象的预测目标,潜在地消除了不必要的 pixel-level 细节,从而使模型学习更多语义特征。另一个引导 I-JEPA 产生语义表征的核心设计选择是多块掩码策略。具体来说,项目团队证明了使用信息丰富的(空间分布的)上下文来预测包含语义信息(具有足够大的规模)的大块的重要性。
I-JEPA 中的预测器可以看作是一个原始的(和受限的)世界模型,它能够从部分可观察的上下文中模拟静态图像中的空间不确定性。更重要的是,这个世界模型是语义的,因为它预测图像中不可见区域的高级信息,而不是 pixel-level 细节。
为了解模型捕获的内容,团队还训练了一个随机解码器,将 I-JEPA 预测的表征映射回像素空间。这种定性评估表明该模型正确地捕获了位置不确定性并生成了具有正确姿势的高级对象部分(例如,狗的头、狼的前腿)。简而言之,I-JEPA 能够学习对象部分的高级表示,而不会丢弃它们在图像中的局部位置信息。
更多详情可查看官方博客:https://ai.facebook.com/blog/yann-lecun-ai-model-i-jepa/


END


微软Edge正在偷窥你



这里有最新开源资讯、软件更新、技术干货等内容

点这里 ↓↓↓ 记得 关注✔ 标星⭐ 哦

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
7 Papers & Radios | OpenAI用GPT-4解释GPT-2;Meta开源多感官基础模型并非Meta开发!名为MetaGPT的AI模型近日开源比Transformer快4成!Meta发布全新Megabyte模型,解决算力损耗硬伤Java近期新闻:JDK 21的JEP、Spring Cloud AWS 3.0以及OptaPlanner转移至Timefold贺万全公陵园落成【人来疯】The Shanghai Museum Keeping Memories Of Jewish Refugees Alive蒸馏也能Step-by-Step:新方法让小模型也能媲美2000倍体量大模型微软也搞起了开源小模型!利用OpenAI的ChatGPT和GPT-4 训练,实力碾压当前最强开源模型百川开源最强中英文百亿参数模型!超越LLaMA,中国开源大模型开启商用新纪元Meta生成式AI竞赛下一站:让开发者靠开源大模型挣钱!LeCun高徒超详笔记曝光,Meta世界模型首揭秘!首个「类人」模型怎么来的?刘震云中国女性的见识/诚实、忠厚,对朋友讲信义ChatGPT上下文碾压64K开源模型!UC伯克利:开源模型能力严重「虚标」|最新硬核评测曝光《乍暖還寒》 “The Last Station”2/23/10 (為愛啟程)FCN、ReSeg、U-Net、ParseNet、DeepMask…你都掌握了吗?一文总结图像分割必备经典模型(一)法律的“类推”性质LeCun世界模型出场!Meta震撼发布首个「类人」模型,理解世界后补全半张图,自监督学习众望所归Meta开源AI语言模型MusicGen,下一个作曲家很可能就是你DeepLab、DeepLabv3、RefineNet、PSPNet…你都掌握了吗?一文总结图像分割必备经典模型(二)小扎亲自官宣Meta视觉大模型!自监督学习无需微调,多任务效果超OpenCLIP丨开源碾压ChatGPT?Meta开源多语言大模型,可识别4000多种语言、错误率仅为OpenAI产品的一半Meta开源文本生成音乐大模型,我们用《七里香》歌词试了下Meta为什么要发布开源Llama 2大模型;2027上市,Meta AR眼镜放弃MicroLED技术Meta开源多感官AI模型;“ChatGPT之父”推出世界币App;传出门问问赴港IPO丨AIGC大事日报上古小说《朝歌》6:横祸坐拥多个TOP级开源项目,不搞“竞争性开源”,蚂蚁在玩一种很新的开源像人类一样“会聊天”!亚马逊的智能音箱将加入“类ChatGPT”功能7 Papers & Radios | LeCun世界模型首次尝试;Meta开源文本音乐生成模型Meta 开源多语言大模型,可识别 4000 多种语言、错误率仅为 OpenAI 产品的一半法律中的“类型”Meta开源大模型:支持4000+语言识别,1100+种语音文本转换重磅!Meta开源DINOv2视觉大模型!无需微调,效果惊人!开源 AI 辅助编程工具 AutoDev 现已上架 Jetbrains 插件市场由一场大战塑造的现代世界,也将毁于一场“类似的战争”
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。