视觉特征在语言空间中如何分布？武大、上海交大提出统一多模态自回归建模框架

2024-03-27 04:03

©PaperWeekly 原创 · 作者 | 彭天硕

单位 | 武汉大学本科生

研究方向 | 多模态理解与生成

大型语言模型（LLMs）通过在大规模未注释文本语料库上执行自回归建模方法，展现出强大的感知和推理能力。然而，将自回归建模扩展到多模态场景以构建大型多模态模型（LMMs）时，存在一个很大的困难，即图像信息在 LMM 中被处理为连续的视觉嵌入，无法获得离散的监督标签用于进行分类损失计算。

在本文中，研究者首次成功地进行了采用统一目标的多模态自回归建模，并且进一步探讨了 LLMs 内部语义空间中视觉特征的分布以及使用文本嵌入来表示视觉信息的可能性。

论文题目：

Multi-modal Auto-regressive Modeling via Visual Words

论文地址：

https://export.arxiv.org/abs/2403.07720

代码地址：

https://github.com/pengts/VW-LMM

Hugging Face库：

https://huggingface.co/MYTH-Lab/VW-LMM-Vicuna-7b

https://huggingface.co/MYTH-Lab/VW-LMM-Mistral-7b

https://huggingface.co/MYTH-Lab/VW-LMM-Vicuna-pif-7b

动机

得益于在大规模未标记文本上执行自回归建模方法，大型语言模型（LLMs）能够从自然语言语料库中学习通用的语义信息和强大的推理能力。然而，对于将自回归建模扩展到多模态场景而言，存在一个很大的困难，即图像信息在 LMM 中被处理为连续的视觉嵌入，无法获得离散的监督标签用于分类损失计算。

▲ 图1：不同LMM方法对比

如图 1（a）所示，作为一种妥协的解决方案，主流的 LMM 选择仅计算多模态交织序列中的语言部分的损失，将视觉信息视作上下文提示。这种不公平对待缺乏利用 LLM 的推理能力学习不同模态信息的过程，严重限制了 LMM 的潜力。

图 1（b）展示的一类方法提出在训练阶段使用回归任务来预测下一个视觉特征的值，但其视觉和语言组件的不一致优化目标不利于统一的多模态自回归建模。

为了解决这一挑战，研究者提出了 VW-LMM（visual word large multi-modal model）。VW-LMM 引入了视觉词（visual words）的概念，用于构建视觉特征在LMM内部语义空间中的分布，为视觉建模（visual modeling）提供了监督信息。

如图 1（c）所示，借助视觉词，VW-LMM 可以在不进行任何特定架构修改的情况下，实现统一的多模态自回归建模训练。

方法

2.1 整体结构

▲ 图2：模型整体结构

如图 2 所示，VW-LMM 的架构包括五个组件：一个视觉编码器（visual encoder），一个多模态解码器（multi-modal decoder），一个用于视觉-语言投影的适配器（adapter），一个用于多模态建模的多模态建模头（multi-modal modeling head，下称 MM head），以及与之对应的用于视觉建模的 VM head。

嵌入层（embedding）可以被看作是多模态解码器的一部分。研究者使用预训练的 LLM 及其 LM head 初始化 VW-LMM 中的多模态解码器和 MM head。

2.2 多模态学习方法（multi-modal learning）

为了将 LLM 的强大的文本感知和推理能力扩展到处理多模态输入，现有多模态学习方法通常使用适配器结构将预训练的视觉主干编码的视觉特征投影至 LLM 的语义空间，并与文本嵌入一起构建多模态输入序列。

对于文本指令 text 和对应的图像 image，LMM 的输入构造如下：

▲ 图3：多模态输入序列构造

其中表示 LLM 的词嵌入层（embedding layer），VE 表示视觉编码器（visual encoder），AD 表示适配器（adapter）。

假定 LLM 包含两个主要部件：大型解码器和语言建模头 LM head，LMM 对多模态序列中语言部分的建模损失计算如下：

▲ 图4：语言建模损失

其中是 LM head 的参数，集合表示期望学习的文本输出对应的索引。

该损失也是主流 LMM 训练使用的唯一损失。

2.3 视觉词（visual words）

为了进一步加强视觉特征与文本嵌入之间的相关性，VW-LMM 使用 VM head 将视觉特征映射到模型词汇表上的概率分布，研究者称之为“视觉词”。对于给定的视觉特征，对应的视觉词表示如下：

▲ 图5：视觉词计算方式

其中是 VM head 的参数。

VW-LMM 对多模态序列中语言部分的建模损失表示为：

▲ 图6：VW-LMM的语言建模损失

其中是 MM head 的参数，表示多模态解码器。

VW-LMM 对多模态序列中视觉部分的建模损失表示为：

▲ 图7：VW-LMM的视觉建模损失

集合表示多模态序列中视觉信息对应的索引。

最终的优化目标为多模态建模损失：

▲ 图8：VW-LMM的优化目标

2.4 伪图像特征（pseudo image features）

为了进一步探索视觉特征在 LMM 语义空间中的表现形式，研究者提出利用视觉词和词嵌入层来构建伪图像特征：

▲ 图9：伪图像特征的构造

其中表示 LMM 内部的词嵌入，表示点积操作。

通过使用代替，研究者在实验中探究了视觉词对视觉特征的表示情况。

实验

3.1 定量实验

▲ 表1：定量实验

VW-LMM 在 5 个视觉问答（visual question answering）和 4 个基准测试工具（benchmark toolkit）上取得比相同规模的模型更优秀的视觉-语言理解能力，凭借 7B 参数量赶超 13B 甚至更大规模的模型。更多结果在论文中提供。

3.2 消融实验

▲ 表2：消融实验

消融实验证明了通过视觉词实现统一的多模态自回归建模方法的有效性。

使用伪图像特征的模型仍然表现出有竞争力的视觉-语言理解能力，验证了使用视觉词构造视觉特征在 LMM 语义空间中分布的有效性。

3.3 定性实验

▲ 图10：定性实验

对于图像中的每个图块，研究者选择其对应视觉词中概率最高的标记在图10中进行展示。结果表明，视觉词成功地实现了视觉特征向文本语义空间的转换。详细分析在论文中提供。

总结

本研究首次实现了具有统一目标的多模态自回归建模，通过视觉词表示视觉特征在 LMM 内部语义空间的分布，从而构建了用于视觉建模的监督标签。此外，研究者还通过实验验证了视觉词对视觉信息的表示以及使用文本嵌入表示视觉信息的可行性。

结果表明，视觉词成功实现了视觉空间到语言空间的语义转换，并有效地增强了模型的视觉-语言理解能力。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：[email protected]

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章