LAMM：多模态指令微调数据集、框架、评测基准

2024-01-15 12:01

最近，大型语言模型（LLM）因其在实现通用人工智能智能体（AI Agent）方面的出色表现而备受瞩目。蓬勃发展的开源 LLM 社区极大地推动了通过自然语言处理实现人机对话交互的代理系统的发展。

但是，人类与世界的互动不仅仅局限于文本，视觉等其他模态也同样重要。针对多模态大语言模型（MLLM），如 GPT-4V 和 Bard 等模型和应用，已经展示了它们在处理视觉信息方面的有效性。不过，这些研究的透明度不足以学术研究的需求。

来自上海人工智能实验室的学者推出该领域中最早的开源尝试之一，名为 LAMM（Language-Assisted Multi-Modal）。该项目提供了一个包含数据集、框架和基准的语言辅助多模态指导微调的开源平台。我们的目标是将 LAMM 发展成一个不断迭代和更新的生态系统，专注于训练和评估 MLLM，并进一步支持 MLLM 赋能 AI Agent 的平台和框架。

论文地址：

https://arxiv.org/pdf/2306.06687.pdf

项目地址：

https://openlamm.github.io

代码地址：

https://www.github.com/OpenGVLab/LAMM

LAMM 模型的多模态能力部分展示如下：

1. 阅读球场瞬息万变的动作

2. 强大的识别能力和知识检索能力

3. 敏锐的观察力

4. 三维空间导航

Dataset

作为第一批开源的多模态指令微调数据集，LLaVA-Instruct-150K、MiniGPT4 等工作采用了一种独特的方法，即使用 Bounding Box 作为图片替代输入 GPT4 API 生成和图片匹配的指令数据。同样，InstructionBLIP 通过模板重组现有的图像文本数据集，将其转换成对话形式。

然而，这些方法存在一些限制。首先，仅使用图片标签和边界框来表达图像信息是不够的，因为这些方法不能充分捕捉到图像的全部细节和复杂性。其次，预设的文本模板过于简单，可能导致模型过度拟合特定形式的数据。最后，这些方法仅限于图片模态，没有包含其他类型的模态，这限制了它们在多模态学习领域的应用范围。

我们进一步扩展了多模态指令数据集的生成方法，并包括了图片、点云等模态。LAMM 数据集可以分为三部分：基于图片内容的对话、基于通用知识的对话、基于视觉任务的对话。

除了标签和 bounding box，我们进一步引入物体属性、场景图等信息，然后调用 GPT API 生成多轮日常对话和单轮详细描述数据。

为了拓展多模态大模型对于感知等视觉任务的能力，我们进一步引入了分类、检测、视觉问答等任务，用模板将已有数据集重组为对话数据。

对于通用知识，我们将图片类别作为关键词调用 Wikidata 中的详细解释，作为上下文输入 GPT API，生成基于客观知识的对话数据。

LAMM 数据集一共包含了 180K 图片-指令数据对以及 10K 点云-指令数据对分别用于训练 2D 模型和 3D 模型。

Benchmark

虽然多模态指令微调技术已经实现了多模态交互能力，但面向多模态大型语言模型的评估仍是一个相对未开发的领域。为了填补这一空白，LAMM 项目提出了一个新的多维评估框架，该框架基于现有的视觉任务，并已对 LLaVA、MiniGPT4 等模型进行了零样本迁移评估。这种评估方法从更细粒度的感知层面对现有的多模态大型模型进行了测试。

此外，我们还开发了 ChEF 框架，进一步完善了对多模态大型语言模型的评价体系。这不仅包括扩展评估数据集和任务，还包括引入了 in-context learning 和 chain-of-thought 等测试模式。这些测试模式的加入使得评估机制变得更加全面和可靠。