今日arXiv最热CV大模型论文：国产开源视觉大模型InternVL 1.5发布，赶超GPT-4V水准

公众号新闻

2024-05-13 04:05

夕小瑶科技说原创
作者 | 墨墨

2023年9月，OpenAI发布了多模态大模型GPT-4V，开启了多模态研究热潮。短短8个月时间内，闭源模型如Gemini系列, Qwen-VL-Max，开源模型如Mini-Gemini, LLaVA-NeXT百花齐放。

然而，在多模态大模型领域，闭源和开源模型依然存在着明显的鸿沟。

开源模型能否在性能上和闭源模型并肩？

又要如何才能做到这一点？

来自上海人工智能实验室、商汤科技研究院、清华大学等的研究者们发布了他们的答案——开源多模态大模型InternVL 1.5。

在18项主流基准中，InternVL 1.5在其中8项中达到sota！实验结果表明，InternVL 1.5已经有了与领先的闭源模型相媲美的水准。

论文标题：How Far Are We to GPT-4V? Closing the Gap to Commercial Multimodal Models with Open-Source Suites

论文链接：https://arxiv.org/pdf/2404.16821

模型演示：https://internvl.opengvlab.com/

为什么闭源和开源多模态大模型会存在差距？

研究者们首先对目前开源与闭源（专有商用）的多模态大模型（MLLM）展开了调研。他们发现，两者的差距主要体现在三个方面：

（1）图像分辨率：专有商用模型通常采用动态分辨率方法，保留原始纵横比，以方便详细的场景和文档理解。相比之下，开源模型通常以固定分辨率进行训练，如336×336 和 448×448，导致能力相对于商用同行有相当大的差距。

（2）参数规模：近期专有商用的MLLM通常规模不少于 1000 亿参数，而开源模型通常采用 3 亿参数的视觉基础模型 (VFM)，该模型与 70 亿或 130 亿个 LLM 集成。

（3）多语言能力：专有商用模型通常利用广泛的多语言数据集进行训练，从而提高其在不同语言上的性能。然而，开源模型主要利用英语数据，依赖于其他语言的LLM的零样本（Zero-shot）能力，例如 LLaVA-NeXT。这会导致其在非英语场景理解和 OCR 任务中的性能不佳。

为了弥补这些差距，针对上述三个问题，InternVL 1.5集成了三项重大改进，增强了模型的性能和可用性，如下图所示。

（1）动态高分辨率：我们采用动态高分辨率策略，将图像分割成 448×448 的图块，根据图像的长宽比和分辨率，图块数量从 1 到 40（即 4K 分辨率）不等。为了捕获全局上下文，我们还添加了缩略图视图。

（2）强视觉编码器：我们为大规模视觉基础模型 InternViT-6B 探索了一种持续学习策略，提高了其视觉理解能力，并使其可以在不同的LLM中迁移和重用。另外，使用 InternLM2-20B 作为语言基础模型，提供强大的初始语言处理能力。

（3）高质量的双语数据集：我们精心收集了高质量的双语数据集，涵盖常见场景、文档图像，并用英文和中文问答对对其进行标注，显着提高了 OCR 和中文相关任务的性能。

模型细节

下面我们将对上述三项改进做简单的展开。

整体架构

首先是整体架构方面，InternVL 1.5采用与流行的MLLM类似的ViT-MLP-LLM架构，通过 MLP 结合预先训练的 InternViT-6B 与 InternLM2-20B。在这里，我们采用简单的 Pixel Shuffle 将 visual tokens 的数量减少到四分之一。

动态高分辨率

我们采用动态高分辨率训练方法，可以有效地适应输入图像的不同分辨率和长宽比。该方法利用将图像分割成图块的灵活性，增强模型处理详细视觉信息的能力，同时适应不同的图像分辨率。

该方法主要由两个步骤组成：

（1）动态纵横比匹配。如下图所示，为了在处理过程中保持自然的宽高比，我们从一组预定义的宽高比（共35种）中动态匹配最佳的宽高比。由于计算资源有限，我们在训练期间最多允许 12 个图块。

（2）图像分割和缩略图。一旦确定了适当的宽高比，图像的大小就会调整为相应的分辨率。例如，800×1300 图像将调整为 896×1344。然后将调整大小的图像分为 448×448 的图块。除了图块之外，我们还包含整个图像的缩略图以捕获全局上下文，该缩略图缩小至 448×448。因此，在训练过程中，visual tokens的数量范围为 256 到 3,328。在测试过程中，图块数量最多可以增加到 40 个，从而产生 10,496 个visual tokens。

强视觉编码器

在选择更强的视觉编码器方面，我们对 InternViT-6B 模型进行了持续预训练。

我们发现倒数第四层的特征对于多模态任务表现最好，因此我们直接丢弃最后三层的权重，将 InternViT-6B 从48层减少到45层。然后，我们将 InternViT-6B 的分辨率从224提高到448，并将其与 Nous-Hermes-2-Yi-34B 集成。利用图像字幕组合和 OCR 数据集，模型的视觉编码器和 MLP 都被激活进行训练。

基于上述过程，我们得到了新的模型 InternViT-6B-448px-V1.2。

InternVL 1.5 的训练基于 InternViT-6B-448px-V1.2 进行。在本次更新中，训练图像的分辨率从固定的 448×448 扩展到动态 448×448，其中基本图块尺寸为 448×448，图块数量从1到12。此外，我们增强了预训练数据集的数据规模、质量和多样性，从而使我们的1.5版本具有强大的鲁棒性、OCR能力和高分辨率处理能力。

值得注意的是，尽管 InternVL 1.5 中的 LLM 从 Nous-Hermes-2-Yi-34B 更改为InternLM2-20B，InternViT 与新的 LLM 保持了良好的兼容性和可移植性。这表明 InternViT-6B 在 MLLM 预训练阶段学到的视觉特征具有广泛的适用性，并且与特定的 LLM 没有紧密联系。