西安交大发表鲁棒视觉问答综述，揭秘AI视觉问答的“超强大脑”丨IEEE TPAMI

2024-04-26 10:04

2024年2月，西安交通大学智能网络与网络安全教育部重点实验室与陕西省大数据知识工程实验室（跨媒体知识融合与工程应用研究所）师生，在人工智能顶级期刊IEEE TPAMI（影响因子：23.6）上发表题为“Robust Visual Question Answering: Datasets, Methods, and Future Challenges”（鲁棒视觉问答：数据集、方法与挑战）的综述论文，对鲁棒视觉问答方法与测评数据集进行了深入探讨与梳理，并对该方向下一步的关注重点进行了凝练与总结。

文章作者依次为：马杰（助理教授）、王平辉（教授）、孔德辰（硕士生）、王泽伟（硕士生）、刘均（教授）、裴红斌（助理教授）、赵俊舟（副教授）。

视觉问答任务简要介绍

模态（Modality）是由德国物理学家Helmholtz提出的一种生物学概念，即生物依靠感官与经验接收信息的通道，如人类具有视觉、听觉、触觉、味觉及嗅觉。多模态交互与推理指人通过声音、肢体语言、信息载体（文本、图像、音频、视频）、环境等多种通道与计算机进行交流，从而充分模拟人与人之间的交互与推理方式。

近年来，如何使计算机具有类人的多模态信息处理能力以实现复杂推理决策成为研究热点，受到研究学者的广泛关注。例如：

1）2022年9月，中国工程院院士潘云鹤在世界人工智能大会上指出，人工智能发展的第四阶段是将数据和多模态智能、多模态知识表达相结合；

2）“多模态”入选《达摩院2023十大科技趋势》。

视觉问答（Visual question answering）任务作为多模态推理效果验证的任务之一，旨在构建能够根据图像准确回答自然语言问题的智能系统。其目标是将人工智能中的计算机视觉和自然语言处理两大领域相结合，使计算机获得像人类一样“看”和“读”的能力。

该任务具有广泛的应用前景，例如为视障人士提供周围世界信息、在没有元数据的情况下辅助图像检索、增强智能虚拟助手的功能、实现视觉推荐系统以及为自动驾驶做出贡献等。

视觉问答：依据图像回答自然语言问题[1]

[1]Antol S, Agrawal A, Lu J, et al. Vqa: Visual question answering[C]//Proceedings of the IEEE international conference on computer vision. 2015: 2425-2433.

然而，一些研究发现，视觉问答模型倾向于记忆训练数据中的统计规律或偏置，而不是基于图像来预测答案。

例如，训练集中对于“what sports”这类问题最频繁的答案是“tennis”，因此模型记住了问题中的关键词“what sports”与“tennis”之间的联系，导致模型面对所有包含“what sports”的问题都会倾向于选择“tennis”。

这导致这些方法在具有与训练集相似答案分布（In-Distribution，ID）的测试场景中表现良好，但在具有不同甚至相反答案分布（Out-Of-Distribution，OOD）的测试情况下表现不佳。

视觉问答模型的偏置现象

为了应对上述问题，学界涌现了大量关于鲁棒视觉问答的研究，特别是关注偏置消除和鲁棒性评估。但该领域缺乏系统而全面的综述性工作，西安交通大学发表的鲁棒视觉问答综述，填补了这一空缺。

鲁棒视觉问答：

数据集、方法与挑战

视觉问答需要人工智能模型在给定图像和自然语言问题的情况下提供准确的自然语言答案。然而，研究结果表明视觉问答方法倾向于记忆训练数据中存在的偏置，而不是正确地学习到如何基于图像信息回答问题。因此，这些方法通常在分布内数据上表现良好，但在分布外数据上表现不佳。

近年来学界已经提出了各种数据集和去偏方法，分别用于评估和增强视觉问答的鲁棒性。本文是首个针对这一新兴领域的全面性综述。

首先，本文从分布内和分布外的角度概述了数据集的构建过程，并介绍了这些数据集所采用的评估指标；其次，本文对现有鲁棒视觉问答模型进行分类，并总结了各个模型的流程、鲁棒性、技术特征等；此外，本文分析讨论了代表性的视觉语言预训练模型在视觉问答上的鲁棒性；最后，通过对现有文献的详尽研究和实验分析，本文从各种角度讨论了鲁棒视觉问答未来研究的关键领域。

数据集和评价指标

论文将视觉问答数据集分为ID和OOD两类。ID数据集的测试集和训练集的分布一致，而OOD数据集的测试集和训练集的分布往往不一致。

ID数据集中最具代表性的是VQA v1/v2，其中每个问题的答案集合包含十个由人类给出的答案。为了平衡答案的分布以减少偏置的影响，在VQA v2中相似的图片和问题可能有完全不同的答案。此外，TDIUC、GQA、COVR、CRIC等ID数据集针对图像来源的分布单一、问题复杂度与多元化程度过低等问题进行了改进。

OOD数据集则以VQA-CP v1/v2为代表，其标志性特点是将VQA v1/v2的测试集和验证集进行重新分配以保证测试集与测试集分布显著不同。GQA-OOD则将GQA数据集的问题根据答案频次分为head和tail两类，以便分别对模型的分布内表现和分布外表现进行验证。VQA-Rephraings、VQA CE、VQA-VS、AVQA、AdVQA等数据集则在语言偏置、多模态偏置、数据集构建模式等方面进行了探索。

由于视觉问答数据集的广泛使用，目前最流行的模型评价指标也是视觉问答数据集采用的指标Open-Ended Accuracy，其被定义为预测答案在答案集合中的个数除以3，然后取其结果与1的较小值，以平衡正确答案的多样性与准确性。