WSDM 2023 | 基于实体对齐的文图检索优化算法

2022-12-10 15:12

©作者 | 王小丹

单位 | 复旦大学知识工场实验室

研究方向 | 多模态图谱构建、图文检索

图文检索是一项具有挑战性的跨模态任务，引起了人们的广泛关注。传统方法无法打破不同模态之间的障碍。视觉语言预训练模型（VLP）基于海量图文数据，大大提高了图文检索性能。尽管如此，基于 VLP 模型的方法仍然容易产生无法在跨模态数据上对齐实体的检索结果。并且在预训练阶段解决该问题的方法不仅昂贵，且欠缺应用性。

因此，我们提出了一种轻量级的实用方法 AGREE，基于 VLP 模型，仅在微调和重排序阶段对齐图像-文本实体，以优化图文检索策略的性能。我们利用外部知识和工具构建额外的细粒度图像-文本对，并微调训练中通过对比学习和实体级 mask 建模来强调跨模式的实体对齐。我们同时提出了两种重排序策略，其中一种是专为零样本场景设计的。

在多个中文和英文数据集上，及多个 VLP 模型的大量实验表明，我们的方法在几乎所有的设置下都能获得最先进的结果。目前该工作已被 WSDM-2023 主会接收。

研究背景

图文检索任务可以输入文本作为查询内容以进行图像检索，也可以输入图像作为查询内容以进行文本检索。在 VLP 模型执行下游图文检索任务时，希望在输入特定文本时，模型能够准确预测出该特定文本对应的图像文本样本对中的图像；同时，希望在输入特定图像时，模型能够准确预测出该特定图像对应的图像文本对中的文本。

如图 1 所示，左侧“查询”列和中间“真实数据”列所包括的图像-文本对，是用于进行 VLP 模型预训练时所使用的样本对。但图 1 所示的三个例子中，都发生了由于实体没有对齐而导致的错误预测。

▲ 图1 在COCO-CN数据集微调后3个不匹配的图文检索案例

在第一个例子中，文本查询中的“菠萝”没有出现在预测图像中。同样，在第二个例子中，模型只关注“蔬菜”和“盘子”的匹配，而忽略了查询中的另一个重要实体“紫菜包饭”。另外，对盘子的数量也有误判。在第三个例子中，预测文本不包含在查询图像中可以明显观察到的“苹果”和“蛋糕”。

为了改善 VLP 的图文检索性能，最近的一些工作，如 ROSITA，ERNIE-ViL 分别从图像和文本中构建场景图，然后将它们对齐，其他一些工作利用外部知识，如 OSCAR 外部目标检测器或多语言数据集 UC2，以改进细粒度跨模态匹配。尽管他们同样取得了成功，然而 VLP 模型的预训练成本极高，并且难以获取的预训练数据集也使得现有方法的实用性不高。

因此，考虑到 VLP 模型极高的预训练成本，本文提出了一种在无需重训 VLP 模型的情况下，仅仅通过微调，甚至在零样本场景下通过重排序而实现图像-文本实体的细粒度对齐，由此优化图文检索对策性能。具体地，可以在微调中通过对比学习和实体级掩模建模强调跨模式的实体对齐，并可以通过外部知识的引入进一步提升性能。可以通过重排序策略进一步改善图文检索结果。

方法部分

我们通过图 2 的流程图来展示 AGREE，包含微调和重排序两部分内容。

▲ 图2 AGREE的总体框架

框架中的具体步骤包括：

Step1：我们从文本中识别出文本实体，从图像中识别出视觉实体，然后通过预训练的 VLP 模型的编码器将它们与原始文本和图像一起进行编码。

Step2：在微调阶段，我们设计了三个不同的模块来学习跨模态实体之间的对齐:

a. 视觉实体-图像对齐（VEA）：通过整理 Visual Genome 的数据作为多模态知识库（MMKB），从中获取额外的视觉实体-图像对，通过对比学习和图像实体级区域掩模建模来学习视觉实体标签与其对应的细粒度图像之间的对齐。

b. 文本实体-图像对齐（TEA）：通过每个文本中包含文本实体及其可视化属性（如颜色和数字）来构建句子，之后通过对比学习和文本实体掩模建模来学习句子与其对应的图像之间的对齐。

c. 文本-图像实体对齐（TIA）：强调了跨模态实体对齐的重要性，通过随机掩模建模图像或文本中的实体，让模型对跨模态对齐实体的缺失更加敏感。

Step3：基于结果的重排序阶段，该阶段设计了两个不同的模块来细化 top-𝑘 排名结果:

a. 文本-图像双向重排序（TBR）：采用 top-𝑘(𝑘=20) 的检索结果进行反向图像-文本检索，其反向检索的结果排名随后被用于重新计算排名，进行重新排序。

b. 文本实体指导的重新排序（EGR）：专门为零样本场景下设计的重排序结果，它采用 top-𝑘 检索结果来计算来自图像和文本的实体之间的相似性，然后考虑相似性来细化排序结果。

其中，AGREE 的微调框架的架构如图 3 所示：

▲ 图3 AGREE微调框架的架构

视觉实体编码器的输入从 Visual Genome 中选择的实体图像。文本实体编码器的输入包含来自使用实体链接的文本的实体，以及来自 Visual Genome 的标签实体，具体的实体内容取决于不同的对齐任务。图片右上角的框指示了每个模块的视觉和文本输入。

如框架所示，基于跨模态实体对齐的方法计算了全局相似度和实体相似度，并之后对其进行融合，作为统一的训练目标。实体相似度是指基于 VEA、TEA 和 TIA 三个模块的跨模态实体比对，强调图像和文本之间的相似性。

其中，VEA 将从外部多模态知识库中获得的对应图像作为实体标签的输入，通过 VEM 和 MVC 两个子模块输出视觉图像与其标签之间的相似性。TEA 由 TEE 和 MEC 两个子模块组成，接收以文本实体和图像为输入的文本，输出文本实体与图像之间的相似度。TIA 也接受带有实体的原始图像和文本，但学习计算图像和文本实体之间的相似距离。

AGREE 具体模块的技术介绍：

2.1 微调阶段

1）视觉实体-图像对齐（Visual Entity-Image Alignment，VEA）模块

与严重依赖对象检测模型用于细粒度交互的现有 VLP 模型不同，AGREE 简单地将检测到的标签用作媒介并重建一个 MMKB，用于视觉知识以与其视觉图像对齐。我们选择 Visual Genome 来作为外部增强的知识库，并设计简单的启发式规则过滤图像来建立该 object-image 库。在微调过程中，为批次内 𝑁 幅图像所带有的 𝑘 个实体收集视觉标签集，并从MMKB 中找出与实体的关联图像。

VEA 遵循图文对比学习的范式，通过两个任务来学习每个视觉实体的实体-图像对齐，分别为 VEM（视觉实体匹配 Visual Entity Matching）和 MVC（掩码视觉对象一致性对齐 Masking Visual Object Consitency Alignment）。

用于优化每个标签文本对其关联图像的匹配，使用提示“a photo contains {entity}”的方法，优化视觉对象的标签文本与其图像的匹配；包括用于表征带有掩码实体的标签文本的 embedding 与其关联图像的 embedding 的相似度与不带有掩码实体的标签文本的 embedding 与其关联图像的 embedding 的相似度差异的损失函数。

我们利用实体标签提示与原始图像以及标签提示与带有掩码实体的图像之间计算的相似度分数的差异，最小化式（4）中视觉对象一致性学习的边际排序损失。用于表示带掩码实体区域的图像和文本之间的相似性。期望原始图像和对象标签的得分更高，以更多地强调那些缺失的视觉实体。

2）文本实体-图像对齐（Textual Entity-Image Alignment，TEA）模块

我们关注到，相比于简明的文本说明，图像总能包含更多的冗余信息，因此在此重新考虑视觉和文本信息的不对称性，并特别注意文本中的实体级信息以与相应的图像对齐。在 TEA 模块包含 TEE（文本实体强调的对齐 Textual Entity-Image Alignment）和 MEC（掩码实体一致性对齐 Mask Entity Consitency Alignment 两个子模块。

TEE 首先强调文本中的实体级信息，通过优化表征图像 embedding 与实体 prompt 的 embedding 的相似度与同 batch 中其他图像的 embedding 与实体 prompt 的 embedding 的相似度差异的损失函数（对应于如下中的）。

MEC 通过掩码文本实体 token，进一步将图像与文本实体一致地对齐。这里我们并不像大多数模型那样给出准确的词汇表并对实体进行分类，而是采用一种更轻量的方式来学习关于文本实体的统一跨模态表示。我们重新计算原始图像与带有掩码实体的文本之间的相似度，期望图像与被破坏句子之间的相似度小于原始文本与图像之间的相似度。如式（6）所示。

3）文本-图像实体对齐（Textual-Image Entity Alignment, TIA）模块

为了进一步弥合模态之间的差距并补偿异构信息之间的无序词汇表造成的对齐缺陷，可以利用预训练的视觉基础模型作为锚点来针对检测到的文本实体识别图像中每个实体的区域。随后对图像中的基准实体进行掩码，以最大化原始图像与带掩码区域图像之间的差异。

因为在 VEA 模块中，已经学习了视觉侧的实体-图像对齐。因此在 TIA 中，我们只关注文本中实体和图像的一致性。

2.2 重排序阶段

▲ 图4 表明图像和文本的不一致的例子：文本描述总是简洁而重要的，而图像通常包含丰富的实体

1）文本图像双向重排序（Text-Image Bidirectional Re-ranking，TBR）模块

如图 4 所示，丰富的视觉信息和简洁的文本知识之间的冗余不一致可能导致仅通过一种模态的部分信息做出错误的决策，对于没有细粒度交互的 VLP 模型来说尤是如此。因此，TBR 策略用于补偿图文不一致性，该策略通过反向检索将来自互补模态的互信息引入作为额外的监督信号，且仅依赖于跨模态样本本身。

具体而言，可以将具有最高相似性的文本样本

视为图像的互惠近邻互近邻（reciprocal neighbors），并从候选池中反向检索与每个文本最相似的图像。在这里，使用排名位置而不是相似度得分。然后图像的前 k 个候选图像用新计算的位置重新排序为

以代表。

文本到图像的检索也是如此。这种简单但有效的自监督方式只是重新访问排名位置，不需要额外的数据，但在一定程度上保证了视觉和文本信息的对齐。

2）实体指导的重排序（Textual Entity-Guided Re-ranking，EGR）模块

在零样本场景下，AGREE 将 TEA 模块策略转换为用于重排序的实体对齐分数，以进一步提高具有细粒度实体级交互的 VLP 模型的性能。按照相同的程序，一方面将提取的文本实体转换为基于 prompt 的文本，并计算针对图像的文本实体对齐分数计算

。

另一方面，将文本中的实体替换为 [MASK] 以获取文本实体一致性评分为

。实体引导的重排序分数由和的组合计算得出。

实验部分

3.1 微调和零样本实验

为了证明 AGREE 对跨模态检索任务的改进，我们使用中英文数据集（中文：COCO-CN，Flickr30k，MUGE；英文：Flickr30k）在中英文预训练的 CLIP 模型上分别进行了实验。

▲ 表1 在Flickr30k数据集上的微调结果

▲ 表2 在COCO-CN数据集上的微调结果

1）微调实验：如表 1 和表 2 所示，微调阶段的实验展示了 AGREE 在微调场景下中英文数据集上效果，与最先进的采用预训练的方法进行对比，取得了具有竞争力的结果。

我们可以从结果中探索跨模态实体在跨模态检索中的贡献。与仅使用全局相似性对 Wukong 和 CLIP 等大规模 VLP 模型对比，AGREE 在 COCO-CN 上表现出较大的改进，且显著高于 FILIP 中使用 patch-token 细粒度对比学习框架的 VLP 模型的微调结果，从而进一步证明了基于实体的策略的有效性。

对于英文数据集，我们在 Flickr30k 上的结果也获得了很大的提升。可以发现我们的改进主要体现在 R-1 的结果上，无论中文还是英文数据集。在对大量数据进行预训练的 VLP 模型具有较强拟合能力的前提下，AGREE 的改进主要在于优化重排序结果。将正确结果的排序移到更靠前的位置从而提高平均召回率。之后也将有进一步的实证分析来说明这一点。

2）零样本实验：我们零样本场景下测试了 AGREE 中重新排序策略的有效性，并在表 3 中显示了两个模块（EGR 或 TBR）及其组合的实验结果。在不同数据集和图像编码器上的实验结果表明，图像到文本和文本到图像的 MR 均可提升 3%，其中在 R-1 上的提升更为显著，平均提升约 5%。对于只包含文本到图像检索任务的数据集 MUGE，图像到文本的逆向检索也取得了明显的性能提升。

而且，大多数的实验结果表明，文本到图像的增强效果比图像到文本的增强效果更加明显，这进一步印证了我们对于图文信息的丰富程度不一致的观察。通过图像到文本的逆向检索结果，AGREE 对图像的描述更丰富、更具体，可以更好地辅助文本找到更合适的图像。

▲ 表3 在中文数据集上零样本场景的实验结果，预训练模型权重来自于Wukong

3.2 少样本场景下的实验

我们验证了在少样本场景下 AGREE 的影响。如表 4 所示，我们将 COCO-CN 的训练集随机分为 5%、15%、25% 和 50%，并在同样的测试集全集上进行实验。对于每种数据量，进行 3 个实验并报告它们的平均值。实验结果表明，在数据量较小时，AGREE 微调（简化为 FT）的性能提升显著（例如，当训练数据量为 5% 时，R-1 的性能提升约 1.6%）。

在同时采用微调和重排序的优化策略后，较小数据量的 MR 得分可以达到甚至超过使用原始微调方法在较大数据量下的结果（例如，AGREE 框架下 25% 的数据的结果约等于 50% 数据的基线方法）。我们认为这是一个令人兴奋的结果，说明 AGREE 提供了一种有效的微调方法。在微调过程中关注实体级信息的对齐，可以大大减少训练数据的依赖性。这样一来，我们甚至可以用更少的数据获得更好的结果。

▲ 表4 COCO-CN数据集在不同训练数据量下的少样本实验结果

3.3 实证分析

在图 5 和图 6 中，我们通过 COCO-CN 数据集中 text-to-image 和 image-to-text 检索的几个例子，来更直观地说明了 AGREE 的有效性，揭示了对齐跨模态实体对提高图文检索性能的重要性（真实值在图中被用红线框起）。以 text-to-image 为例，采用 AGREE 得到的前 5 个图像显然包含更多与查询对应的实体，因此正确的样本排名更高。

例如，对于文本 query“pineapple, bananas and oranges in a glass plate”，原有 baseline 的 top-1 图像中不包含重要实体“pineapple”。而显然 AGREE 有助于重新建立实体之间的这种对应关系，解决了 VLP 模型中缺少实体级的细粒度交互问题。

对于 image-to-text 第一行中的例子，AGREE 框架使得图像与图像中具有实体的文本（包括“a plate of pizza”，“bottles”，“pots”）匹配得更准确。因此可以看到，AGREE 更加关注图像和文本中多个实体的一致性，从而优化排序结果。