Redian新闻
>
西安交大发表鲁棒视觉问答综述,揭秘AI视觉问答的“超强大脑”丨IEEE TPAMI

西安交大发表鲁棒视觉问答综述,揭秘AI视觉问答的“超强大脑”丨IEEE TPAMI

公众号新闻

2024年2月,西安交通大学智能网络与网络安全教育部重点实验室与陕西省大数据知识工程实验室(跨媒体知识融合与工程应用研究所)师生,在人工智能顶级期刊IEEE TPAMI(影响因子:23.6)上发表题为“Robust Visual Question Answering: Datasets, Methods, and Future Challenges”(鲁棒视觉问答:数据集、方法与挑战)的综述论文,对鲁棒视觉问答方法与测评数据集进行了深入探讨与梳理,并对该方向下一步的关注重点进行了凝练与总结。

文章作者依次为:马杰(助理教授)、王平辉(教授)、孔德辰(硕士生)、王泽伟(硕士生)、刘均(教授)、裴红斌(助理教授)、赵俊舟(副教授)。



1

视觉问答任务简要介绍

模态(Modality)是由德国物理学家Helmholtz提出的一种生物学概念,即生物依靠感官与经验接收信息的通道,如人类具有视觉、听觉、触觉、味觉及嗅觉。多模态交互与推理指人通过声音、肢体语言、信息载体(文本、图像、音频、视频)、环境等多种通道与计算机进行交流,从而充分模拟人与人之间的交互与推理方式。

近年来,如何使计算机具有类人的多模态信息处理能力以实现复杂推理决策成为研究热点,受到研究学者的广泛关注。例如:

1)2022年9月,中国工程院院士潘云鹤在世界人工智能大会上指出,人工智能发展的第四阶段是将数据和多模态智能、多模态知识表达相结合;

2)“多模态”入选《达摩院2023十大科技趋势》。

视觉问答(Visual question answering)任务作为多模态推理效果验证的任务之一,旨在构建能够根据图像准确回答自然语言问题的智能系统。其目标是将人工智能中的计算机视觉和自然语言处理两大领域相结合,使计算机获得像人类一样“看”和“读”的能力。

该任务具有广泛的应用前景,例如为视障人士提供周围世界信息、在没有元数据的情况下辅助图像检索、增强智能虚拟助手的功能、实现视觉推荐系统以及为自动驾驶做出贡献等。

视觉问答:依据图像回答自然语言问题[1]

[1]Antol S, Agrawal A, Lu J, et al. Vqa: Visual question answering[C]//Proceedings of the IEEE international conference on computer vision. 2015: 2425-2433.

然而,一些研究发现,视觉问答模型倾向于记忆训练数据中的统计规律或偏置,而不是基于图像来预测答案。

例如,训练集中对于“what sports”这类问题最频繁的答案是“tennis”,因此模型记住了问题中的关键词“what sports”与“tennis”之间的联系,导致模型面对所有包含“what sports”的问题都会倾向于选择“tennis”。

这导致这些方法在具有与训练集相似答案分布(In-Distribution,ID)的测试场景中表现良好,但在具有不同甚至相反答案分布(Out-Of-Distribution,OOD)的测试情况下表现不佳。

视觉问答模型的偏置现象

为了应对上述问题,学界涌现了大量关于鲁棒视觉问答的研究,特别是关注偏置消除和鲁棒性评估。但该领域缺乏系统而全面的综述性工作,西安交通大学发表的鲁棒视觉问答综述,填补了这一空缺。



2

鲁棒视觉问答:

数据集、方法与挑战

视觉问答需要人工智能模型在给定图像和自然语言问题的情况下提供准确的自然语言答案。然而,研究结果表明视觉问答方法倾向于记忆训练数据中存在的偏置,而不是正确地学习到如何基于图像信息回答问题。因此,这些方法通常在分布内数据上表现良好,但在分布外数据上表现不佳。

近年来学界已经提出了各种数据集和去偏方法,分别用于评估和增强视觉问答的鲁棒性。本文是首个针对这一新兴领域的全面性综述。

首先,本文从分布内和分布外的角度概述了数据集的构建过程,并介绍了这些数据集所采用的评估指标;其次,本文对现有鲁棒视觉问答模型进行分类,并总结了各个模型的流程、鲁棒性、技术特征等;此外,本文分析讨论了代表性的视觉语言预训练模型在视觉问答上的鲁棒性;最后,通过对现有文献的详尽研究和实验分析,本文从各种角度讨论了鲁棒视觉问答未来研究的关键领域。

数据集和评价指标

论文将视觉问答数据集分为ID和OOD两类。ID数据集的测试集和训练集的分布一致,而OOD数据集的测试集和训练集的分布往往不一致。

ID数据集中最具代表性的是VQA v1/v2,其中每个问题的答案集合包含十个由人类给出的答案。为了平衡答案的分布以减少偏置的影响,在VQA  v2中相似的图片和问题可能有完全不同的答案。此外,TDIUC、GQA、COVR、CRIC等ID数据集针对图像来源的分布单一、问题复杂度与多元化程度过低等问题进行了改进。

OOD数据集则以VQA-CP v1/v2为代表,其标志性特点是将VQA v1/v2的测试集和验证集进行重新分配以保证测试集与测试集分布显著不同。GQA-OOD则将GQA数据集的问题根据答案频次分为head和tail两类,以便分别对模型的分布内表现和分布外表现进行验证。VQA-Rephraings、VQA CE、VQA-VS、AVQA、AdVQA等数据集则在语言偏置、多模态偏置、数据集构建模式等方面进行了探索。

由于视觉问答数据集的广泛使用,目前最流行的模型评价指标也是视觉问答数据集采用的指标Open-Ended Accuracy,其被定义为预测答案在答案集合中的个数除以3,然后取其结果与1的较小值,以平衡正确答案的多样性与准确性。

视觉问答常用数据集

去偏方法

论文将去偏方法分为四类:集成学习、数据增强、对比学习和答案重排。

集成学习将具有偏置的分支模型和普通视觉问答模型相结合,从而使分支模型捕捉到偏置并提升普通模型的鲁棒性。

数据增强通常为原始数据集中的每个样本生成额外的增强问题答案对,以平衡训练数据的分布或减轻数据偏差。

对比学习将视觉问答问题映射为一个向量空间,基于数据增强生成正负样本对,使得向量空间中相似样本互相靠近而不相似样本互相远离。

答案重排在普通视觉问答模型给出预测答案的基础上按照一定的重排方法对预测答案进行重新排序,以达到减轻模型偏置的目的。

论文提供了从2017-2023年间四类方法共计68种鲁棒视觉问答模型的数据,并详细介绍了每种模型的典型代表。

鲁棒视觉问答方法整理

视觉语言模型的鲁棒性

由于近些年来视觉-语言预训练技术的兴起,视觉语言模型(Vision-language model)在多模态领域逐渐成为主流,并在多种下游任务上取得了SoTA。

但视觉语言模型在鲁棒视觉问答方面的表现缺乏研究,因此论文梳理了视觉语言模型应用于鲁棒视觉问答任务时的设置与性能表现,将视觉语言模型分为单流(single-stream)和(dual-stream)两类,选取ViLT、BLIP等典型模型进行介绍。

同时在VQA-CP数据集上补充了BLIP和BEiT-3模型的实验,并结合已有实验结果,发现参数量更大的模型,通常表现出更强的鲁棒性,同时将视觉问答建模为生成式任务的模型比建模为判别式任务的模型具有更强的鲁棒性。

视觉语言模型分类

主流视觉语言模型在鲁棒视觉问答任务上的表现

现状分析与未来研究

论文从数据集质量、评估指标有效性等多个方面对鲁棒视觉问答的现状进行深入探讨,提出目前鲁棒视觉问答领域存在数据集中的答案标注缺乏一致性,评价指标衡量维度不够全面,现有去偏方法仅仅在某些OOD数据集上有效,并不具有真正的鲁棒性等问题。

并指明未来研究方向在于构建大规模、多分布、多样性的数据集,提出多种场景下泛用的评价指标,提升视觉问答模型和视觉语言预训练模型在真实场景下的鲁棒性。

更多内容,点击下方关注:

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
重磅!美国藤校前招生官来新西兰了!连去5城,揭秘过考必备小妙招!美国硬抢!“超级大国”变“超级大盗”强奸谋杀肢解17男子,揭秘美国“怪物”连环杀人狂的恐怖故事“哈耶普斯麻”顶流顾问齐聚上海,揭秘SAS、包玉刚牛娃档案!周冠宇创造历史,谷爱凌、雷军来观赛!我在上海看F1,揭秘究竟有多火?金中河西3人,南师江宁9人!西安交大少年班放榜玻色量子发布量子计算“超强大脑”;OceanBase 4.3推出列式存储引擎,可实现秒级实时分析丨AIGC日报“特朗普来西安了”?西安网警通报西方塑造尤莉亚形象 为后普京时代准备新总统破茧成蝶:赋能精准诊疗的“利刃”NGS,揭秘临床下一代测序的自动化与常规大模型在开放智能体场景中能意识到风险威胁吗?上海交大发布R-Judge安全评测印象笔记唐毅:AI如何升级你的“第二大脑”|中国AIGC产业峰会王树国卸任!西安交大,迎来院士校长​249篇文献!北邮发布文本到图像Diffusion可控生成最新综述,已开源!不会用ChatGPT的医生会被淘汰?!1小时完成综述,30s读完一篇文献,太牛了!英国最短命首相,揭秘女王最后会面明晚8点|康奈尔大学录取案例复盘,揭秘她靠什么核心要素成功撩动招生官?一定要送他人喜欢而不是我们自己喜欢的东西作为礼物记住这一点就行了知乎AI革命:智能搜索与实时问答的融合明晚8点,揭秘如何使用所在高中资源规划美本申请|人大附ICC篇从 0 到 1,揭秘中国首个 AI 音乐 SOTA 模型曹德旺投资百亿的大学突然换帅!前西安交大校长王树国上任,一周前师生夹道送别贝佐斯重回世界首富!当普林斯顿男遇上南加大女,恋爱脑才是“最强大脑”?转发|倒计时3天!MIT-CHIEF年度峰会|《最强大脑》罗伯特·戴西蒙 -- 医疗健康板块嘉宾揭晓视觉特征在语言空间中如何分布?武大、上海交大提出统一多模态自回归建模框架今晚8点,揭秘如何使用所在高中资源规划美本申请|人大附ICC篇教父李一舟背后的教父,揭秘龚文祥的AI发家秘史一代比一代聪明是真的!最新研究显示:1970年出生人的大脑体积比1930年出生的增加了6.6%,人类大脑正在变大!今晚8点,揭秘如何使用所在高中资源规划美本申请|北京中学篇权力和财富的传承张立群同志任西安交通大学校长, 王树国卸任; 物理学百年难题被破解 | 学界速递长篇小说《谷雨立夏间》69 林中初吻squid代理http和https方式上网的操作记录破译大脑密码!Nat Neurosci|绘制出首张全面RNA异构体图谱,揭示神经多样性与疾病奥秘南加,南加!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。