Redian新闻
>
西安交大发表鲁棒视觉问答综述,揭秘AI视觉问答的“超强大脑”丨IEEE TPAMI

西安交大发表鲁棒视觉问答综述,揭秘AI视觉问答的“超强大脑”丨IEEE TPAMI

公众号新闻

2024年2月,西安交通大学智能网络与网络安全教育部重点实验室与陕西省大数据知识工程实验室(跨媒体知识融合与工程应用研究所)师生,在人工智能顶级期刊IEEE TPAMI(影响因子:23.6)上发表题为“Robust Visual Question Answering: Datasets, Methods, and Future Challenges”(鲁棒视觉问答:数据集、方法与挑战)的综述论文,对鲁棒视觉问答方法与测评数据集进行了深入探讨与梳理,并对该方向下一步的关注重点进行了凝练与总结。

文章作者依次为:马杰(助理教授)、王平辉(教授)、孔德辰(硕士生)、王泽伟(硕士生)、刘均(教授)、裴红斌(助理教授)、赵俊舟(副教授)。



1

视觉问答任务简要介绍

模态(Modality)是由德国物理学家Helmholtz提出的一种生物学概念,即生物依靠感官与经验接收信息的通道,如人类具有视觉、听觉、触觉、味觉及嗅觉。多模态交互与推理指人通过声音、肢体语言、信息载体(文本、图像、音频、视频)、环境等多种通道与计算机进行交流,从而充分模拟人与人之间的交互与推理方式。

近年来,如何使计算机具有类人的多模态信息处理能力以实现复杂推理决策成为研究热点,受到研究学者的广泛关注。例如:

1)2022年9月,中国工程院院士潘云鹤在世界人工智能大会上指出,人工智能发展的第四阶段是将数据和多模态智能、多模态知识表达相结合;

2)“多模态”入选《达摩院2023十大科技趋势》。

视觉问答(Visual question answering)任务作为多模态推理效果验证的任务之一,旨在构建能够根据图像准确回答自然语言问题的智能系统。其目标是将人工智能中的计算机视觉和自然语言处理两大领域相结合,使计算机获得像人类一样“看”和“读”的能力。

该任务具有广泛的应用前景,例如为视障人士提供周围世界信息、在没有元数据的情况下辅助图像检索、增强智能虚拟助手的功能、实现视觉推荐系统以及为自动驾驶做出贡献等。

视觉问答:依据图像回答自然语言问题[1]

[1]Antol S, Agrawal A, Lu J, et al. Vqa: Visual question answering[C]//Proceedings of the IEEE international conference on computer vision. 2015: 2425-2433.

然而,一些研究发现,视觉问答模型倾向于记忆训练数据中的统计规律或偏置,而不是基于图像来预测答案。

例如,训练集中对于“what sports”这类问题最频繁的答案是“tennis”,因此模型记住了问题中的关键词“what sports”与“tennis”之间的联系,导致模型面对所有包含“what sports”的问题都会倾向于选择“tennis”。

这导致这些方法在具有与训练集相似答案分布(In-Distribution,ID)的测试场景中表现良好,但在具有不同甚至相反答案分布(Out-Of-Distribution,OOD)的测试情况下表现不佳。

视觉问答模型的偏置现象

为了应对上述问题,学界涌现了大量关于鲁棒视觉问答的研究,特别是关注偏置消除和鲁棒性评估。但该领域缺乏系统而全面的综述性工作,西安交通大学发表的鲁棒视觉问答综述,填补了这一空缺。



2

鲁棒视觉问答:

数据集、方法与挑战

视觉问答需要人工智能模型在给定图像和自然语言问题的情况下提供准确的自然语言答案。然而,研究结果表明视觉问答方法倾向于记忆训练数据中存在的偏置,而不是正确地学习到如何基于图像信息回答问题。因此,这些方法通常在分布内数据上表现良好,但在分布外数据上表现不佳。

近年来学界已经提出了各种数据集和去偏方法,分别用于评估和增强视觉问答的鲁棒性。本文是首个针对这一新兴领域的全面性综述。

首先,本文从分布内和分布外的角度概述了数据集的构建过程,并介绍了这些数据集所采用的评估指标;其次,本文对现有鲁棒视觉问答模型进行分类,并总结了各个模型的流程、鲁棒性、技术特征等;此外,本文分析讨论了代表性的视觉语言预训练模型在视觉问答上的鲁棒性;最后,通过对现有文献的详尽研究和实验分析,本文从各种角度讨论了鲁棒视觉问答未来研究的关键领域。

数据集和评价指标

论文将视觉问答数据集分为ID和OOD两类。ID数据集的测试集和训练集的分布一致,而OOD数据集的测试集和训练集的分布往往不一致。

ID数据集中最具代表性的是VQA v1/v2,其中每个问题的答案集合包含十个由人类给出的答案。为了平衡答案的分布以减少偏置的影响,在VQA  v2中相似的图片和问题可能有完全不同的答案。此外,TDIUC、GQA、COVR、CRIC等ID数据集针对图像来源的分布单一、问题复杂度与多元化程度过低等问题进行了改进。

OOD数据集则以VQA-CP v1/v2为代表,其标志性特点是将VQA v1/v2的测试集和验证集进行重新分配以保证测试集与测试集分布显著不同。GQA-OOD则将GQA数据集的问题根据答案频次分为head和tail两类,以便分别对模型的分布内表现和分布外表现进行验证。VQA-Rephraings、VQA CE、VQA-VS、AVQA、AdVQA等数据集则在语言偏置、多模态偏置、数据集构建模式等方面进行了探索。

由于视觉问答数据集的广泛使用,目前最流行的模型评价指标也是视觉问答数据集采用的指标Open-Ended Accuracy,其被定义为预测答案在答案集合中的个数除以3,然后取其结果与1的较小值,以平衡正确答案的多样性与准确性。

视觉问答常用数据集

去偏方法

论文将去偏方法分为四类:集成学习、数据增强、对比学习和答案重排。

集成学习将具有偏置的分支模型和普通视觉问答模型相结合,从而使分支模型捕捉到偏置并提升普通模型的鲁棒性。

数据增强通常为原始数据集中的每个样本生成额外的增强问题答案对,以平衡训练数据的分布或减轻数据偏差。

对比学习将视觉问答问题映射为一个向量空间,基于数据增强生成正负样本对,使得向量空间中相似样本互相靠近而不相似样本互相远离。

答案重排在普通视觉问答模型给出预测答案的基础上按照一定的重排方法对预测答案进行重新排序,以达到减轻模型偏置的目的。

论文提供了从2017-2023年间四类方法共计68种鲁棒视觉问答模型的数据,并详细介绍了每种模型的典型代表。

鲁棒视觉问答方法整理

视觉语言模型的鲁棒性

由于近些年来视觉-语言预训练技术的兴起,视觉语言模型(Vision-language model)在多模态领域逐渐成为主流,并在多种下游任务上取得了SoTA。

但视觉语言模型在鲁棒视觉问答方面的表现缺乏研究,因此论文梳理了视觉语言模型应用于鲁棒视觉问答任务时的设置与性能表现,将视觉语言模型分为单流(single-stream)和(dual-stream)两类,选取ViLT、BLIP等典型模型进行介绍。

同时在VQA-CP数据集上补充了BLIP和BEiT-3模型的实验,并结合已有实验结果,发现参数量更大的模型,通常表现出更强的鲁棒性,同时将视觉问答建模为生成式任务的模型比建模为判别式任务的模型具有更强的鲁棒性。

视觉语言模型分类

主流视觉语言模型在鲁棒视觉问答任务上的表现

现状分析与未来研究

论文从数据集质量、评估指标有效性等多个方面对鲁棒视觉问答的现状进行深入探讨,提出目前鲁棒视觉问答领域存在数据集中的答案标注缺乏一致性,评价指标衡量维度不够全面,现有去偏方法仅仅在某些OOD数据集上有效,并不具有真正的鲁棒性等问题。

并指明未来研究方向在于构建大规模、多分布、多样性的数据集,提出多种场景下泛用的评价指标,提升视觉问答模型和视觉语言预训练模型在真实场景下的鲁棒性。

更多内容,点击下方关注:

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
美国硬抢!“超级大国”变“超级大盗”西方塑造尤莉亚形象 为后普京时代准备新总统“大脑”启动!“玲龙一号”迎重要进展【诚邀投稿】2024 IEEE国际电能转换系统与控制会议(IEEE IEECSC 2024)顶刊TPAMI 2024!黄高团队提出EfficientTrain++:高效视觉骨干训练方法今日arXiv最热大模型论文:浙江大学:如何减轻视觉大模型中的幻觉问题破茧成蝶:赋能精准诊疗的“利刃”NGS,揭秘临床下一代测序的自动化与常规​249篇文献!北邮发布文本到图像Diffusion可控生成最新综述,已开源!ChatGPT登录iPhone!Siri引入“最强大脑”,能看图能识字,iOS 18必升!贝佐斯重回世界首富!当普林斯顿男遇上南加大女,恋爱脑才是“最强大脑”?综述170篇「自监督学习」推荐算法,港大发布SSL4Rec:代码、资料库全面开源!印象笔记唐毅:AI如何升级你的“第二大脑”|中国AIGC产业峰会曹德旺投资百亿的大学突然换帅!前西安交大校长王树国上任,一周前师生夹道送别“特朗普来西安了”?西安网警通报【2024夏令营】游美·西安人文探索营,兵马俑、西安博物院、大唐西市、永兴坊...沉浸式探访十三朝古都权力和财富的传承张立群同志任西安交通大学校长, 王树国卸任; 物理学百年难题被破解 | 学界速递ICLR 2024 | 量化和增强模态偏好影响下的多模态鲁棒性简单通用:视觉基础网络最高3倍无损训练加速,清华EfficientTrain++入选TPAMI 2024老龄大脑的救星?Cell Metabol | 揭秘谷氨酸tRNA片段在机体大脑衰老和阿尔兹海默病发生中所扮演的关键角色squid代理http和https方式上网的操作记录金中河西3人,南师江宁9人!西安交大少年班放榜知乎AI革命:智能搜索与实时问答的融合玻色量子发布量子计算“超强大脑”;OceanBase 4.3推出列式存储引擎,可实现秒级实时分析丨AIGC日报英伟达市值超2.6万亿美元,揭秘黄仁勋的“疯狂”管理;谷歌、OpenAI打价格战;微软AI PC“叫阵”苹果 | 一周国际财经南加,南加!不会用ChatGPT的医生会被淘汰?!1小时完成综述,30s读完一篇文献,太牛了!大模型在开放智能体场景中能意识到风险威胁吗?上海交大发布R-Judge安全评测字节大模型关键8人首次曝光!中科大北航西安交大校友,还有9000+被引数大佬一谈恋爱就上头,大脑为何能变成“恋爱脑”?王树国卸任!西安交大,迎来院士校长一谈恋爱就上头?大脑是如何变成“恋爱脑”的长篇小说《谷雨立夏间》69 林中初吻视觉特征在语言空间中如何分布?武大、上海交大提出统一多模态自回归建模框架一定要送他人喜欢而不是我们自己喜欢的东西作为礼物记住这一点就行了
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。