AAAI 2024 | 视觉定位标注难？浙大赵天成博士团队提出零样本定位新SOTA模型GroundVLP

2024-01-02 04:01

视觉定位（visual grounding）要求根据自然语言 query 定位图像中相应的物体或区域，其标注费时费力，现有的有监督数据总计仅约 22 万条，严重限制了有监督视觉定位模型在通用领域数据上的泛化能力。

为了解决视觉定位任务上数据稀疏的困局，浙大团队开创性地提出利用在海量数据上预训练的视觉-语言模型（vision-language models，简称 VLP）与开放词汇目标检测模型（open-vocabulary object detector，简称 OVD），以零样本推理的形式实现在通用领域的上的视觉定位。

该方案名为 GroundVLP，精巧地融合了 VLP 模型输出的 GradCAM 分数与开放词汇目标检测模型输出的检测框，无需训练、泛化性能佳，在多个领域的视觉定位基准数据集上都取得了最佳的零样本推理性能，接近甚至超过在标注数据上训练的有监督模型的效果。

日前，该论文被人工智能国际顶会 AAAI 2024 录用。本文将详细解读这一优秀研究工作的动机、技术方案与应用效果。

论文题目：

GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language Pre-training and Open-Vocabulary Object Detection

论文链接：

https://arxiv.org/abs/2312.15043

收录会议：

AAAI 2024

动机：视觉定位标注难？以有余补不足

视觉定位（visual grounding）是重要的视频-语言理解任务，要求根据自然语言输入定位图片中相关的物体与区域，包括两类子任务：

指代表达理解（refering expressin comprehension，简称 REC）：根据文本指代描述在图片中定位相应的单个物体；
短语定位（phrase grounding）：在图片中定位输入句子中的每个实体。

已有的视觉定位研究大多在特定任务的有监督数据集上进行模型训练和评估，但由于视觉定位需要精确地理解物体的相互关系和属性，标注起来费时费力，现有的可用数据加起来只有约 22 万条，和动辄数千万甚至数十亿的图文对数据和目标检测数据相比十分贫瘠。原文列出了视觉定位数据与图文对、目标检测可用数据的数量对比：

▲ 三类数据的常见数据集和总量级对比

这种数据丰富程度的天壤之别也自然映射到了模型能力上，过去的研究中，在有限的视觉定位数据上训练的 visual grounding 模型对未见过的分布泛化能力差、应用领域受限。

而在海量数据上预训练的 CLIP [1]、ALBEF [2]、BLIP [3] 等视觉-语言预训练模型（vision-language models，简称 VLP）具备强大的零样本图文匹配能力，不需要微调即可很好地应用到新的领域上，同样在海量数据上训练的 Dectic [4] 等开放词汇目标检测器（open-vocabulary object detector，简称 OVD）也具备出色的零样本泛化能力。

直观地来看，VLP 擅长匹配整张图片和整个描述图片的句子，OVD 则从图片中提取局部对应的实体（检测框）并给出单词级别的描述，而 visual grounding 要做的是根据短语级别的描述，从整张图片中框出对应的实体，该任务与图文匹配、OVD 高度相关。

本研究即采取迁移学习中“以有余补不足”的思路，希望将 VLP 和 OVD 预训练模型从海量数据上学习到的泛化能力，以无需训练的方式迁移到 visual grounding 这一数据贫瘠的相关任务上来。

如果把标注数据比作水资源，visual grounding 的研究正在贫瘠的沙漠中挣扎，而图文对数据和目标检测数据丰沛如大洋之水，滋养了强大的 VLP 和 OVD 预训练模型。

方案：GradCAM分数与目标检测框的精巧融合

2.1 利用VLP模型输出的GradCAM分数

首先介绍本研究利用预训练图文匹配模型时使用的基本工具 GradCAM（Gradient-Based Class Activation Mapping）[5]。它是衡量输入数据或某个中间特征对最终任务损失影响程度的工具，设某个输入或中间特征里的元素为，最终任务损失为，则的梯度为，的 GradCAM 分数为（为点乘），直观地看，就是改变一个极小量时的变化量（本身乘以对的梯度）。

Visual grounding 问题中，我们要用的是图文匹配模型（本文用的是 ALBEF [2] 或 VinVL [6]）里某段输入文本对图文匹配损失的影响程度。

设某个文本 token 对某个视觉 token 在某个中间层的注意力分数（softmax 归一化后）为，则该文本 token 和该视觉 token 的关联程度可以认为是的 GradCAM 分数，正号表示只截取正值（作者选择将负值置零，表示只考虑正面影响）。由于实际上模型一般使用多头注意力，标准写法为，其中表示沿注意力头的数目这个维度取平均。

那么要衡量一个句子或短语对图像中一个区域的匹配程度，将上述的值在文本维度做 pooling（文本侧选取部分关键 token 对应值取平均），即可得到整句话与每个视觉 token 对应的匹配度分数，因为每个视觉 token 都可以对应到输入图像的一个区域，因此经过该次处理，我们就可以量化出一个句子或短语与图像中某个区域的匹配程度高低。

值得注意的是，由于文本部分可能存在 a／the／and 这样不对应具体图像区域的虚词，作者提出用词性标注工具解析出文本部分每个词的词性标签，只有名词、形容词、动词、专有名词和数词容易被可视化的词性才会被考虑到值的计算中（文中称为 Visual-Word Attention Aggregation）。

比如 “black and white cat” 这个输入中，“black”、“white”、“cat” 被保留下来，而 “and” 被过滤掉。此外，在 REC 子任务中，[CLS] token 的对应值也被纳入值的计算中。

2.2 利用OVD模型得到候选物体框与置信度分数

Visual grounding 要求根据输入的文本定位对应的图像区域，我们已经有了上述的 GradCAM 工具衡量文本和图像区域的匹配程度，那么只要有一些候选的图像区域，根据 GradCAM 分数排序就可以得到定位结果。

这时候我们就要用到Dectic [6] 这样的 open-vocaburalry object detector（OVD）来生产候选的 object prposals。由于 OVD 会生成大量各种类别的 proposals，我们需要将候选空间限定到 query 对应的类别中，本文采取了两种方式抽取类别信息：

使用数据集中标签对应的类别（方便评测，但离现实设定较远）；
将语法解析工具抽取出的名词短语作为类别信息（有噪声，但更符合现实需求）。

这样一来，如下图所示，我们通过 OVD 生成候选的 boudning box 和对应的置信度分数（图的下部分），每个 bounding box 可以和输入文本计算 GradCAM 分数，接下来要考虑的是如何融合二者对 bounding boxs 进行排序，得到最终的定位结果。

▲ GroundVLP的总体流程

2.3 融合预测得到定位结果

最后，对每个 candidate bounding box，将 OVD 的置信度分数和 VLP 得出的 GradCAM 分数相乘，再除以一个 bounding box 大小的正则项得到最后用于排序的分数：

其中为 bouding box 的大小，为超参数。对每个自然语言 query 对应的 candidate bounding box，取值最大的作为定位结果。

效果：零样本新王者，接近或超过有监督模型上限

作者分别在 REC 子任务的 RefCOCO、RefCOCO+、RefCocog 数据集和 phrase grounding 子任务上的 Flickr30k 数据集上做了实验，REC 的评测指标为 top1 accuracy，phrase grounding 的指标为 Recall@1 与 Recall@5。

主实验中，VLP 模型为 ALBEF-14M（14M 图文对预训练数据，约 210M 参数量）或 VinVL-Large（约 8.85M text-tag-image 三元组预训练数据，约 350M 参数量）。

从下表可以看出，在 REC 的三个测试集上，使用自动预测的实体类别信息的 GroundVLP 就刷新了零样本设定下的 SOTA，当 VinVL 作为提取 GradCAM 分数的基础模型时，RefCOCO 和 RefCOCO+ 的 test A 上都增长了约 20 个百分点，接近没有视觉-语言预训练的有监督模型，在 RefCOCOg 的测试集上甚至超过了非预训练的有监督模型，显示出 GroundVLP 强大的零样本泛化能力。

虽然离监督数据上微调的视觉-语言预训练模型 UNITEXT 还有一定差距，GroudnVLP 作为零样本的通用模型已经足够惊艳，他成功地将 VLP 和 OVD 预训练学习到的知识迁移到了数据稀疏的视觉定位任务上来，大大提升了视觉定位模型在通用领域的零样本泛化能力。

▲ REC子任务上的评测结果

在 phrase grounding 子任务上，GroundVLP 同样表现不俗，取得了最佳的零样本推理效果。

▲ Phrase grounding子任务上的评测结果

结语与思考

GroundVLP 设计了精巧的推理机制，成功地将在大规模图文对与目标检测数据上预训练的 VLP 和 OVD 模型组合在一起用于视觉定位，未进行任何参数训练就破解了视觉定位领域稀疏的困局，为实现领域通用的视觉定位基础模型迈出了坚实一步。

笔者在这里想进行一点补充，针对视觉定位标注数据稀疏其实还有一条由微软半年前发布的 Kosmo2 [7] 指出的模式——使用 OVD 模型自动生成弱监督的grounding 数据（Kosmo2 做了一个叫 GRIT，数量级大约为 100M 的 groudning 弱监督预训练数据集），将 bounding box 坐标转化为自然语言 token，在其上训练大语言模型用于视觉定位。

和 GroundVLP 相比，Kosmo2 的这条路需要的资源消耗更大（大规模弱监督预训练数据的生成和大模型的训练都需要大量的计算资源，Kosmo2 的总参数量也远大于 GroundVLP），但让人惊喜的是 GroundVLP 在 REC 子任务上的性能甚至优于 Kosmo2：同样为零样本推理，RefCOCO 的 testA 上为 69.21 对 57.42，RefCOCO+ 的 testA 上为 70.56 对 50.73，RefCOCOg 的 test 上为 68.98 对 61.65（Kosmos2 的结果来自其技术报告 [7]）。

这启示我们，ALBEF、VinVL 这样的视觉-语言基础模型虽然没有显式在涉及局部对齐的目标上训练，但其中间表示蕴含着丰富的局部对齐信息以完成视觉定位这样的细粒度任务，GroundVLP 已经指出了计算 GradCAM 分数这一巧妙的零样本利用方式，期待未来涌现更多这样的妙思。

参考文献

[1] Radford, Alec, et al. "Learning transferable visual models from natural language supervision." International conference on machine learning. PMLR, 2021.

[2] Li, Junnan, et al. "Align before fuse: Vision and language representation learning with momentum distillation." Advances in neural information processing systems 34 (2021): 9694-9705.

[3] Li, Junnan, et al. "Blip: Bootstrapping language-image pre-training for unified vision-language understanding and generation." International Conference on Machine Learning. PMLR, 2022.

[4] Zhou, Xingyi, et al. "Detecting twenty-thousand classes using image-level supervision." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022.

[5] Selvaraju, Ramprasaath R., et al. "Grad-cam: Visual explanations from deep networks via gradient-based localization." Proceedings of the IEEE international conference on computer vision. 2017.

[6] Zhang, Pengchuan, et al. "Vinvl: Revisiting visual representations in vision-language models." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021.

[7] Peng, Zhiliang, et al. "Kosmos-2: Grounding Multimodal Large Language Models to the World." arXiv preprint arXiv:2306.14824 (2023).

更多阅读