EACL 2023 | 图像文本检索：自适应特征聚合与训练目标

2023-03-07 12:03

©PaperWeekly 原创 · 作者 | 张梓键

单位 | 同济大学

研究方向 | 自然语言处理

图文匹配（Image-Text Matching）是指通过模型学习图像和文字的特征表征方式，计算得出图片和文字的语义相关性。其中最重要的方法是视觉语义嵌入（Visual-Semantic Embedding, VSE），旨在学习相关视觉和语义实例彼此接近的嵌入空间。

此项技术应用在信息化生活的方方面面，如百度 [1] 推出的图片搜索功能，为跨模态信息检索提供便利；小红书 [2] 中应用此技术优化封面图像，使得笔记的吸引力大大增加；大众点评 [3] 中保证图文的高相关性，帮助消费者遴选高优质信息等等。这些无不为我们的生活带来了诸多便利，因此，本文旨在研究图文匹配中自适应的特征聚合、训练目标方法，从而进一步提升实际应用效果。

视觉语义嵌入（VSE）方法以其高效的检索速度、精准的跨模态检索能力而著称，通常训练过程具有以下步骤：

特征抽取：图像和文本特征首先由各自独立的视觉和文本编码器提取；

特征映射：将特征投影到联合嵌入空间中，使其具备语义可比性；

相似性计算：计算相似性值以度量图像和文本嵌入间的语义关联程度；

优化目标：为优化过程选择合适的训练目标以拟合模型使其具备强大的能力；

其中，特征抽取和相似性计算的方式较为固定。前者强依赖于计算机视觉（Computer Vision, CV）和自然语言处理（Natural Language Processing, NLP）领域的进步与发展，而后者则通常采用余弦距离（Cosine Similarity）度量语义相似程度。因此，为了提升 VSE 模型的效果，本文将改进的重点放在了提升特征映射以及优化目标上，为方便后续研究者使用，本文代码已公开。

本文在 VSE 框架的基础上，提出了两个优化方法，自适应特征聚合方法（Adaptive Pooling）和自适应优化目标（Adaptive Objective），因为其自适应性，所以可以“即插即用”的迁移到相似的框架中帮助模型得到的更好的表现能力。

论文标题：

Improving Visual-Semantic Embedding with Adaptive Pooling and Optimization Objective

论文链接：

https://arxiv.org/abs/2210.02206

代码链接：

https://github.com/96-Zachary/vse_2ad

模型

1.1 自适应特征聚合

自适应特征聚合，顾名思义是将特征矩阵抽象成特征向量。常用的方法是池化操作（Pooling），然而一般的池化方法（Mean/Max/K-Max）无法同时适配视觉特征和文本特征，而找到最优的特征组合往往需要大量的时间，且在不同数据分布下这种组合往往是不同的。基于此问题，本文提出了一种自适应的 Pooling 策略，从 token-level 和 Embedding-level 两个维度分别计算，并最终融合在一起。

Token-level Pooling：首先，无论是 Mean—Pooling、Max—Pooling 还是 KMax—Pooling，都可以认为是一种先将值按照特征维度进行排序，随后分配静态的权重来抽取特征向量。以 Max-Pooling 为例，他的权重中最大值对应了 1，其余均为 0。

本文也延续此“排序-权重分配”的策略进行自适应特征聚合，其中将权重的确定过程交给模型自动化学习，使用一层全连接网络。实验发现，仅考虑 Token-level Pooling 得到的权重与 Mean—Pooling/KMax—Pooling 分布很相似，因此，从更多元化和普适的角度出发需要考虑更多维的设计；

Embedding-Level Pooling：按照输入粒度进行 Softmax 的 weight-sum，使得特征矩阵中更加显著的特征值被赋予更多的权重，此过程不涉及参数学习过程；

融合：使用 Balance 模块将上述两个维度的学习结果进行融合，同时使用正则保证图像和文本的抽象特征能映射到相似空间。

1.2 自适应优化目标

自适应优化目标，顾名思义是为模型在不同的训练阶段找到最合适的优化目标。首先我们需要一套评判模型阶段性能力的标准，其次我们需要根据不同的阶段为模型设计不同的优化目标。

表征学习中常常使用 Aligment 和 Uniformity 来评判模型能力，其中，Aligment 用来判断相似样本间的聚合程度，Uniformity 则用来反映不同样本映射到表征空间的分散程度（理想情况下不同样本表征应尽量分散，从而体现其差异化）。通过此两标准，我们可以设计一个范围为 [0,1] 的比率值，其中，值为 1 时模型效果最差，越接近 0 表示模型效果越好。

VSE 模型常构造三元训练目标，原点（anchor）、与之对应的正样本（positive）以及与之对应的负样本（negative）。基于度量模型得到的比率值，我们为模型不同训练阶段选择不同数量的负样本，当模型训练伊始、表现较差时，为模型选择更多的负样本可以帮助模型拟合，快速提升区分样本差异的能力；当模型训练逐渐熟练、表现较好时，为模型选择最难的一个或几个负样本（Hard Negative Samples）则能帮助模型区分细致化差异，提升模型能力。

本文最终的损失函数选择 InfoNCE，因为其具备抽象多个正负样本的能力。由此，模型能在训练的不同阶段选择不同的负样本数（由于按照与 anchor 的相似性降序，难分辨的样本更容易被选到），从而能自适应的选择优化目标，帮助模型习得更好的表征能力。

实验结果

本文在两个公开数据集上进行实验来验证模型的准确性和速度，分别是 MS-COCO 和 Flickr30K（最常用的图文检索数据集）。

实验中，我们对不同的图文编码器进行组合以验证本文所提方法的鲁棒性，前文有提到过 VSE 模型的效果依赖于 CV 和 NLP 领域的发展。文本/图像编码器组合分别是：BiGRU/Faster-RCNN、BiGRU/Vit、BERT/Faster-RCNN、BERT/Vit。评测指标选择 Recall@K，其中 K=1,5,10 以及对以上指标的加和形式的 RSUM。

通过实验结果可以发现，无论在何种图文编码器组合下，VSE 框架下使用本文提出的两个自适应模块后都能进一步提升模型效果，且集成模型的效果能有更进一步的提升。