腾讯AI Lab发布多模态指令调优语言模型，支持图像、视频等四种不同模态

2023-07-12 05:07

近期，来自腾讯 AI Lab、都柏林城市大学和莫纳什大学的研究人员发布了名为 Macaw-LLM 的研究成果。这项技术将大型语言模型与不同模态对齐和绑定，以实现跨模态指令跟随的能力。Macaw-LLM 能够执行复杂任务，如生成详细的图像描述、根据视频编写故事，以及回答与音频相关的问题。它可以同时接收多模态输入，并自然地组合它们的语义。

项目主页：

https://github.com/lyuchenyang/Macaw-LLM

论文链接：

https://arxiv.org/abs/2306.09093

视频链接：

https://www.youtube.com/watch?v=O7ZO0a8geM0

在这项工作中，我们提出了一种名为 Macaw-LLM 的多模态指令调优语言模型。它集成了图像、视频、音频和文本等四种不同的模态于一个模型之中。我们提出了一种新的对齐方法，将多模态特征与语言模型的嵌入进行对齐，从而产生与语言模型文本特征更接近的对齐特征，并能够自然地注入到语言模型的输入序列中。

为了解决当前多模态数据集主要强调特定任务类型的限制，我们还创建了 Macaw-LLM 指令数据集。该数据集涵盖了各种不同类型的指令任务，并结合了多种数据模态，使其更加多样化，更适合用于多模态指令调优语言模型。

方法

如图所示，Macaw-LLM 包含以下三个主要模块：

模态模块：现有的语言模型主要专注于处理文本信息。为了融合视觉和音频等额外的模态数据，我们在 Macaw-LLM 中集成了额外的模态编码器。这样的增强使得 Macaw-LLM 能够有效处理多个模态。
对齐模块：由于每个模态编码器是独立训练的，不同模态的学习表示可能不直接兼容。为了解决这个问题，我们提出了对齐模块，将不同模态的表示统一起来，实现多模态信息的有效整合。
认知模块：在 Macaw-LLM 中，我们利用预训练的语言模型作为我们的认知模块，它构成了 Macaw-LLM 的基础。值得注意的是，认知模块也充当了我们方法中的文本模态编码器。

模态模块

现有的语言模型在处理文本信息方面非常强大，但通常仅限于文本信息的处理。在本节中，我们将描述如何对不同模态的信息进行编码。

视觉模态编码器：OpenAI 提出的 CLIP 模型通过直接从与图像相关的未处理文本数据中学习，实现了更广泛的监督。在 Macaw-LLM 中，我们利用了 CLIP-ViT-B/16 的能力来编码视觉信息，包括图像和视频帧。
音频模态编码器：OpenAI 提出了名为 Whisper 的多语言语音识别模型，该模型在大规模音频数据集上进行弱监督训练。在 Macaw-LLM 中，我们利用了 Whisper-base 的强大能力来编码音频信号，从而从音频数据中提取有意义的表示。
文本模态编码器：语言模型通常在大规模文本语料库上进行预训练，因此指令调优的语言模型可以自然地处理文本信息。在这项工作中，我们将 LLaMA-7B 作为 Macaw-LLM 的基础。

对齐模块

模态编码器通常是分别训练的，这可能导致不同编码器生成的表示存在潜在差异。因此，将这些独立表示在一个共同的空间中进行对齐变得至关重要。在本节中，我们将概述我们用于对齐这些表示的方法。

利用 Transformer 中的 attention 机制，Macaw-LLM 的模态对齐分为以下几个步骤：

1. 编码：通过使用预训练模型 CLIP 和 Whisper，我们首先对多模态特征进行编码；

2. 转换：为了减少计算成本和前缀中的 token 数量，我们采用一维卷积层来压缩多模态特征的长度为一个较小且固定的值。随后，我们使用线性层来调整特征的隐藏大小，使其与 LLMs 的 embedding 的大小一致。

3. 对齐：每个模态编码器都是独立训练的，导致不同模态之间具有不同的表示。为了建立一个共同的表示空间，有必要对这些表示进行模态间的对齐。在本工作中，我们将转换后的视觉和音频模态表示视为 LLM（认知模块）的 “soft token”，因此我们提出使用注意力机制将视觉和音频表示与文本 embedding 空间进行对齐。

4. 集成：我们将对齐后的多模态 soft tokens 拼接到文本指令的 embedding 之前。

一站式微调

以往的多模态实践通常采用两步训练的方法，第一步专注于训练投射层以将多模态特征与文本特征对齐，而第二步则涉及对 LLMs 进行一般指令微调。相比之下，我们的方法通过采用一站式指令微调方法，直接微调所有模型参数，简化了适应过程，确保了模态之间的一致对齐，并消除了多步微调过程中可能出现的错误传播风险。

Macaw-LLM指令数据集

目前的多模态数据集主要强调特定任务类型，导致任务多样性有限。此外，这些数据集中的目标文本往往与人类编写的文本风格缺乏适当的对齐，使得在此类数据上微调的模型难以有效地遵循人类指为了解决这些限制，我们利用了当前 LLMs（如GPT-3.5-Turbo）出色的生成能力来构建我们的指令数据集。

如图所示，为了生成该数据集，我们以图像或视频的标题形式作为提示。为了优化生成过程并提高效率，我们一次性生成 10 个指令-响应对。对于图像标题数据，我们使用了 MS COCO 数据集。该数据集包含 328,000 张带有标题的图像。我们从该数据集中随机选择了 10,000 张图像及其相应的标题来创建我们的数据集。我们还从 Charades 和 AVSD 两个数据集中整合了视频标题数据。这些数据集共包含 9,848 个带有标题的视频，我们将其用于创建我们的视频数据集。

我们最终基于 COCO 图像标题获得约 69,000 个样本，以及基于 Charades 和 AVSD 视频标题获得约 50,000 个样本。

我们当前的数据集侧重于单轮对话，但我们意识到包括多轮对话和扩展数据集以涵盖更广泛的多模态内容的重要性。为了解决这个问题，我们正在积极将多轮对话纳入和丰富数据集，以增强其丰富性。

生成样例

图像：

视频：

视频+音频：

总结

在本文中，我们提出了 Macaw-LLM，一种多模态指令调优的 LLM，支持四种不同的模态：图像、视频、音频和文本。除了标准的模态模块和认知模块，我们提出了一种新颖的方法，将不同模态编码器生成的表示对齐到一个共享空间中。与以往方法不同，我们的方法将表示对齐和指令调优合并为一步，减少了多步微调过程中潜在的错误传播。此外，我们使用 GPT-3.5-Turbo 构建了一个大规模的多模态 Macaw-LLM 指令数据集。

不可否认，我们的工作目前存在一些缺陷，例如仅支持单轮对话、缺乏对 Macaw-LLM 的全面评估，以及可能存在的幻觉（hallucination）问题。我们将在未来的工作中努力解决这些问题。

更多阅读