Meta开源I-JEPA，“类人” AI 模型

2023-06-16 11:06

出品 | OSC开源社区（ID：oschina2013)

Meta 宣布推出一个全新的 AI 模型 Image Joint Embedding Predictive Architecture (I-JEPA)，可通过对图像的自我监督学习来学习世界的抽象表征，实现比现有模型更准确地分析和完成未完成的图像。目前相关的训练代码和模型已开源，I-JEPA 论文则计划在下周的 CVPR 2023 上发表。

根据介绍，I-JEPA 结合了 Meta 首席 AI 科学家 Yann LeCun 所提倡的类人推理方式，帮助避免 AI 生成图像常见的一些错误，比如多出的手指。I-JEPA 在多项计算机视觉任务上表现出色，且计算效率比其他广泛使用的计算机视觉模型高得多。

I-JEPA 学习的表征也可以用于许多不同的应用程序，而无需进行大量微调。例如，项目团队在 72 小时内使用 16 个 A100 GPU 训练了一个 632M 参数的视觉转换器模型，I-JEPA 在 ImageNet 上的 low-shot 分类中性能表现最优，每个类只有 12 个标记示例。其他方法通常需要 2 到 10 倍的 GPU 时间，并且在用相同数量的数据进行训练时错误率更高。

I-JEPA 背后的想法是以更类似于人类一般理解的抽象表示来预测缺失的信息。I-JEPA 使用抽象的预测目标，潜在地消除了不必要的 pixel-level 细节，从而使模型学习更多语义特征。另一个引导 I-JEPA 产生语义表征的核心设计选择是多块掩码策略。具体来说，项目团队证明了使用信息丰富的（空间分布的）上下文来预测包含语义信息（具有足够大的规模）的大块的重要性。