AAAI 2023 | 多模态对话的SPRING来了！无需标注就能做多模态问答预训练

2023-02-12 12:02

©PaperWeekly 原创 · 作者 | 龙宇星

单位 | 北京邮电大学

引言

在复杂场景中，简单的指代描述（如“黑色夹克”）常常会造成相似物品间的歧义，此时我们倾向于使用详细的视觉属性和涉及背景物体的相对方位关系（如“最左边落地衣架上有竖直条纹的黑色夹克”）来无歧义地指代场景中的具体物品。

当构建复杂场景的多模态对话助理时，我们希望它们也能够在回复中清晰准确地指代物品，这对于多模态对话助理的视觉属性理解能力，相对方位关系多跳推理能力，以及视觉属性与方位关系对齐能力都提出了很高的要求。现有多模态对话助理都没有提出有针对性的解决方案，它们只是简单地将物品视觉属性作为文本输入或将编码后的物品边界框与视觉属性拼接作为图像输入，这使得它们生成响应中物品指代十分模糊，无法准确描述视觉属性和涉及多跳的相对位置关系。

为了解决这一问题，我们提出了递增布局图（Incremental Layout Graph）和多模态问答（Multimodal Question Answering）预训练任务。我们从对话历史中抽取物品的视觉属性和方位信息来生成每一张场景图像对应的布局图，这些布局图以物品信息为节点，方位关系为边，可随新信息的加入而不断扩增。凭借递增布局图和自然语言模板即可无需人工标注，快速生成大量不同类型的多模态问答对（Question Answering Pair）用于多模态问答预训练。

我们把经过预训练得到多模态对话助理称为 SPRING，在具有代表性的复杂购物场景多模态对话数据集 SIMMC 2.0 和 SIMMC 1.0 响应生成任务，SPRING 在所有评价指标上都大幅度超过现有表现最佳的模型。

论文题目：

SPRING: Situated Conversational Agent Pretrained with Multimodal Questions from Incremental Layout Graph

论文链接：

https://arxiv.org/abs/2301.01949

代码链接：

https://github.com/LYX0501/SPRING

方法

首先，我们构造多模态对话助理 SPRING，它以基于编码器-解码器结构的单流视觉语言模型作为主干，由堆叠的 Transformer 层组成。SPRING 的视觉输入是经过编码的场景图像块，文本输入为经过编码的子词序列，它通过自回归方式生成响应。

然后，我们设计预训练方法来训练 SPRING 对于视觉属性和方位信息的理解和生成能力。我们的预训练方法由两部分构成，第一部分是递增布局图生成算法，第二部分是多模态问答预训练任务，下面我们分别详细介绍这两部分内容。

我们发现对话历史中存在大量视觉属性和相对方位关系描述，这些描述比数据集标注更加详细准确。更重要的是对话历史和待生成的响应之间存在物体共指（Co-Reference），即待生成响应中含有对话历史中提及的物体，这意味着可以无需人工标注，仅利用对话历史中详细指代来进一步训练模型从而提升响应质量。

为此我们设计了递增布局图生成算法，从对话历史中抽取物体的视觉属性和方位信息，为每一张场景图像生成布局图来刻画场景物体，下图展示递增布局图的生成过程。

如图左侧所示，我们根据语言语法特点设计针对视觉属性和方位描述的正则化表达式，利用这些表达式可以从对话历史中抽取到天然对齐的数字资产视觉属性（如“pink t-shirt”）和方位描述（如“in the top row on the back display wall”）。正则化表达式中 article，positional preposition 和 punctuation 来自牛津字典，color，asset type 和 background item 来自数据集领域知识。

我们还设计提取背景物体和方位关系的正则化表达式，从方位描述中进一步抽取背景物体（如“top row”与“back display wall”）和方位关系（如“in”与“on”）。

通过抽取到的视觉属性可以在结构化数据中查询物体 ID 和边界框信息，并以物体（包括数字资产和背景物体）作为节点，方位关系作为边形成如图中间部分所示的布局子图，关于同一场景的布局子图可以构成最右侧的完整布局图。每一张布局图都涵盖了场景图像中物体的视觉属性和相对位置关系，并可以随新加入的布局子图而不断递增。

获得所有布局图以后，我们设计了视觉问答和方位问答两大类，共六种问答自然语言模板。模板内容如下表所示，“[*]”为待填充的槽值，它们包括视觉属性，数字资产 ID，方位信息和数字资产边界框坐标。为了填充自然语言问答模板，我们在布局图上以数字资产节点为起点进行游走，通过所经过的节点和边获取填充信息。

我们定义 Q(·) 为填充问题模板的函数，A 为问题所对应的答案，Type 为视觉属性类型，ID 为数字资产 ID，I 为场景图像，BBox 为数字资产边界框坐标，t_sr 为方位关系，t_va 为视觉属性，t_bi 为背景物体，并分别介绍六种不同类型的多模态问答预训练任务。

纯视觉问答（PVQA）：该任务的目的是帮助多模态对话助理建立物体 ID 和对应视觉属性之间的联系，问答对可通过布局图中数字资产节点的 ID 和视觉属性来填充 Pure Visual QA 模板生成。PVQA 任务的优化目标为

区域引导的视觉问答（RVQA）：该任务旨在提升多模态对话助理根据边界框定位物体并理解视觉属性的能力，问答对可通过布局图中数字资产节点的 ID，视觉属性和边界框坐标来填充 Region-Guided Visual QA 模板生成。RVQA 任务的优化目标为

位置引导的视觉问答（PoVQA）：该任务的目的是提升多模态对话助理根据自然语言形式的方位描述定位物体并理解视觉属性的能力，问答对可通过布局图中数字资产节点的 ID 和视觉属性以及相连的背景物体节点和边来填充 Position-Guide Visual QA 模板生成。PoVQA 任务的优化目标为

纯方位问答（PSQA）：该任务旨在帮助多模态对话助理建立物体 ID 和对应方位关系之间的联系，问答对可通过布局图中数字资产节点的 ID 以及相连的背景物体节点和边来填充 Pure Spatial QA 模板生成。PSQA 任务的优化目标为

区域引导的方位问答（RSQA）：该任务的目的是提升多模态对话助理根据边界框定位物体并描述物体相对方位关系的能力，问答对可通过布局图中数字资产节点的 ID，边界框坐标以及相连的背景物体节点和边来填充 Region-Guided Spatial QA 模板生成。RSQA 任务的优化目标为

视觉属性引导的方位问答（VSQA）：该任务旨在提升多模态对话助理根据视觉属性描述物体具体方位的能力，与多模态对话下游任务的形式最为接近，问答对可通过布局图中数字资产节点的 ID，视觉属性以及相连的背景物体节点和边来填充 Visual Attribute-Guided Spatial QA 模板生成。VSQA 的优化目标为

根据填充模板时在布局图上跨越的节点数量，可以自动为每个问答对生成难度标签（如跨越两个节点则难度标签为“2”）。不同类型预训练任务的输入和输出如下图所示，黄色方框中的数字即为问答对的难度标签。

遵循课程学习的思想，我们在预训练前期采用难度较低的多模态问答对来训练多模态对话助理，随着预训练的进行，不断提升多模态问答对的难度要求。基于课程学习的多模态问答预训练，不仅收敛速度更快，更使得预训练的效果得到进一步提升。

实验

我们在复杂场景下的多模态对话数据集 SIMMC1.0 和 SIMMC 2.0 响应生成任务上展开评测实验。在包括 BLEU-4，METEOR，ROUGE，CIDEr 在内的七个广泛使用的自动化评价指标上，通过我们预训练方法得到的 SPRING 多模态对话助理大幅超越原来的 SOTA 模型。

我们进一步人工筛选出 SIMMC 1.0 和 SIMMC 2.0 数据集中待生成响应含有视觉属性或方位信息的数据作为 Visual 子集和 Spatial 子集，来验证我们方法所带来的提升确实源于对话助理对于视觉属性和方位信息做出了更好地响应。

我们选择场景更为复杂的 SIMMC 2.0 数据集和对应的 Visual 子集以及 Spatial 子集对我们的多模态问答预训练任务进行消融实验，BLEU-4 分数评测结果如下左表所示。通过分析表格中的实验结果可以清晰的观察到，我们设计的视觉问答预训练任务和方位问答预训练任务分别有效提升了多模态对话助理对于视觉属性和方位信息的响应能力，以课程学习思想作为预训练数据的分配策略进一步提升了预训练的效果。

我们在 SIMMC 2.0 数据集上对原 SOTA 模型 DialVinVL，GLIMMeR 以及 SPRING 进行了人工评测，评测从 Fluency，Relevance，Correctness 以及 Informativeness 四个方面展开，按照 1~5 进行评分。

从上右侧图我们可以观察到，SPRING 在四个人工评测维度都相比于原 SOTA 模型具有更好的表现，特别是在 Correctness 和 Informativeness 两个方面提升显著，这进一步说明我们设计的预训练方法有效性。

未来展望

目前我们提出的多模态问答预训练任务主要针对视觉属性和方位描述这两个方面的问题，其实多模态对话还存在许多其他的难点（如指代消解，物体重叠等等），未来研究者可以根据这些难点设计更多不同类型的多模态问答预训练任务，还可以在多模态问答对的生成方法上做出进一步探索，尝试利用 LLM 来抽取信息生成问答对。我们相信摆脱数据标注限制的多模态问答预训练方法蕴藏着非凡的潜力和生机，可以为多模态对话研究带来一片春天！

更多阅读