Redian新闻
>
多模态大模型的幻觉问题与评估

多模态大模型的幻觉问题与评估

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | RUC AI Box
作者|李依凡
机构|中国人民大学
研究方向|自然语言处理
多模态大模型能够根据图片内容与用户展开对话,完成复杂任务,但可能对图像中的物体产生幻觉。本文探讨并评估了目前多模态大模型的幻觉问题。实验发现目前的多模态大模型存在较严重的幻觉问题,并且该问题可能受多模态指令数据集中物体分布的影响。本文还介绍了一种更稳定、灵活的物体幻觉评测方式POPE。文章也同步发布在 AI Box 知乎专栏(知乎搜索 AI Box 专栏),欢迎大家在知乎专栏的文章下方评论留言,交流探讨!
论文题目:Evaluating Object Hallucination in Large Vision-Language Models
论文链接:https://arxiv.org/abs/2305.10355
论文代码:https://github.com/RUCAIBox/POPE

引言

大型语言模型在自然语言处理领域取得了革命性的进展,其成功也推动了多模态领域的发展。最近,诸如MiniGPT-4, LLaVA等多模态大模型 (Large Vision-Laguage Models, LVLMs) 向我们展示了令人印象深刻的多模态对话能力。给定一张图片,这些模型可以回答用户提出的关于图片的各种问题。从较为基本的物体识别或者图片描述,到更具挑战性的根据图片写广告,作诗,LVLMs的回答都像模像样。然而我们发现,LVLMs虽然在较为复杂的图像问答问题上表现出色,却难以正确回答一些看似更简单的问题,例如判断图像中是否存在某物体。在 image captioning 领域,这种模型生成了图像中不存在的物体的现象被称为物体幻觉 (Object Hallucination)。
本文通过定量实验测评了已有LVLMs的物体幻觉程度,并分析了其指令数据集的分布对幻觉的影响。此外我们还发现传统的物体幻觉评测方法在评测LVLMs时存在一定的局限性,并提出了一种基于轮询的物体探测评测方法 (Polling-based Object Probing Evaluation, POPE)。实验结果表明 POPE 具有更好的稳定性,并且能够扩展到未标注数据集上。

基于指令的评测

我们首先使用CHAIR指标在MSCOCO数据集上测试了最近的一些LVLMs。

评测设置

评测指标

CHAIR (Caption Hallucination Assessment with Image Relevance ) (Rohrbach et al., 2018) 是一种用于评估 image captioning 任务中物体幻觉的常用指标。给定图像中的真实物体,CHAIR计算出出现在模型生成的图像描述中但不在图像中的物体的比例。其两个变体CHAIR_I和CHAIR_S分别在对象实例级别和句子级别评估幻觉程度。具体计算公式为:

数据集

我们从MSCOCO数据集的验证集中随机选取了的2000张图像和人工标注的图像描述作为我们的评估数据集。在计算CHAIR指标时,我们遵循原论文的设置,仅考虑MSCOCO分割挑战中出现的80个物体。我们还使用了同义词列表,将生成的图像描述中的同义词映射到MSCOCO物体,避免将它们误判为幻觉物体。

模型

我们评估了5个最近提出的LVLMs,即MiniGPT-4,LLaVA,Mulimodal-GPT,mPLUG-Owl以及InstructBLIP。下表展示并比较了这些模型的结构和训练策略。
我们使用了如下指令来让模型生成对图像的描述:
  • Instruction 1: Generate a short caption of the image.
  • Instruction 2: Provide a brief description of the given image.
另外,我们还引用了一些较小的视觉-语言预训练模型 (VLPMs) 在MSCOCO上的物体幻觉结果,包括 OSCAR,VinVL,BLIP和OFA。

评测结果

评测结果如上表所示。结果显示大部分 LVLMs 的物体幻觉问题反而比规模更小的 VLPMs 更严重。其中 InstructBLIP 的幻觉问题最轻微,这可能是由于其多模态指令从已有的数据集中收集,并且长度较短有关。而其他 LVLMs 大多借助 LLMs 来生成多模态指令,通过这种方式生成的指令往往包含更丰富的信息并且更长,但可能本身就含有幻觉信息。
此外,我们还发现这种基于指令的评测方式在评测 LVLMs 时存在一定的局限性。首先是稳定性问题,虽然我们设计的两条指令具有相近的语义,但模型根据这两条指令生成的图像描述的幻觉严重程度确存在很大差异。另外在不同指令下,模型的性能排名也可能发生改变(例如LLaVA和Multimodal-GPT的在CHAIR_I上的结果)。最后,CHAIR 在计算结果时需要判断图像描述中的物体是否出现在物体中,而图像的生成结果并不会局限于 MSCOCO 中的80种物体,因此需要人工设计同义词的映射规则,可能导致对幻觉的遗漏或者误判。


指令数据集对幻觉的影响

LVLMs 和 VLPMs 在训练过程上的主要区别在于 LVLMs 经历了多模态指令微调。鉴于 VLPMs 的物体幻觉问题明显好于 LVLMs,我们猜测多模态指令微调这个步骤可能是影响幻觉严重程度的主要原因。通过实验,我们发现 LVLMs 确实更容易对在多模态指令数据集中频繁出现/共现的物体产生幻觉。

频繁出现物体的影响

由于大部分多模态指令数据是在 MSCOCO 的基础上构造的,它们也可能继承了其中不平衡的物体分布,即部分物体频繁在数据中出现。因此在这些数据上微调后,LVLMs也可能倾向于生成这些物体。为了验证这一猜想,我们首先绘制了物体出现频率和幻觉频率的柱状图,如下图(a)所示。该图的横轴上的物体是在 MSCOCO 中出现频率最高的物体,并且频率从左到右依次降低。我们收集了MiniGPT-4, LLaVA, Multimodal-GPT和mPLUG-Owl在这些物体上的幻觉频率。从图中可以看出,幻觉频率基本从左到右依次降低,和物体出现频率的变化较为一致。因此 LVLMs 确实容易在频繁出现的物体上产生幻觉。

为了进一步定量分析这种现象,我们计算了频繁出现物体和所有幻觉物体之间的 Hit ratio@k ,以衡量它们间的一致性,其公式为:

其中是所有图像的总数,Hallucinated()表示在第张图中幻觉物体的个数,是幻觉物体中属于 MSCOCO 出现频率前k个的物体个数,从而能够反映频繁出现的物体占幻觉物体的比例。结果如下表左栏所示,几乎所有的 LVLMs 都在0.5左右,因此多模态指令数据集中高频出现的物体确实更容易出现幻觉。

频繁共现物体的影响

除了频繁出现的物体,数据集中一些频繁共现的物体组也可能影响幻觉问题(例如电脑,鼠标,键盘)。当图像中存在这些组中的某个物体时,模型可能会在组内其他物体上产生幻觉。我们使用了相似的实验验证该猜想,分析了和'dining table'频繁共现物体的幻觉情况。前图(b)中,物体的共现频率和幻觉频率也有较一致的变化规律。定量分析方面,我们定义
其中是共现的参考物体(即本次实验中的'dining table'),是幻觉物体中前个和高频共现的物体个数。结果展示在上表右栏中,可以发现大部分 LVLMs 的该项指标依然较高。因此频繁共现的物体组也会影响 LVLMs 的幻觉。

POPE

鉴于目前对 LVLMs 的物体幻觉评测方法存在诸多局限性,我们提出了POPE。

概述

如上图所示,POPE 将幻觉评估转换为让模型回答一系列关于物体是否存在于图像中的判断题(例如'Is there a car in the image?')。具体而言,给定一个图像数据集和每张图像包含的物体标注,POPE将构造一系列由图像,问题和回答组成的三元组,可形式化表示为:

其中x表示图像,o_i是待测试的物体,既可以是图像中真实存在的物体,也可以是自定义的不存在于图像中的物体q(o_i)是测试物体o_i的问题,a_i是对该问题的回答('Yes' 或 'No')。
实验细节方面,我们将图像中真实存在的物体和不存在的物体之间的比例设置为1:1,并且使用二分类任务常用的 Accuracy, Recall, Precision 和 F1 Score 作为评测指标。此外为了更好的分析模型行为,我们还记录了模型回答 'Yes' 的比例。
关于图像中未出现物体的选择,我们受此前关于多模态指令数据对幻觉影响的分析启发设计了三种采样策略:
  • Random sampling:随机选取不在图像中的物体
  • Popular sampling: 优先选取出现频率较高的物体
  • Adversarial sampling: 优先选取和图像中物体频繁共现的物体

评测结果

实验结果如上图所示,各模型的表现和此前的 CHAIR 指标基本一致,即 InstructBLIP 表现较好,而 mPLUG-Owl, LLaVA 和 Multimodal-GPT 幻觉较严重。可以注意到根据 F1-Score 判断,三种采样方式下的 POPE 的难度有所不同,体现为 Adversarial > Popular > Random,这也进一步验证了我们此前的分析,即多模态指令数据集中的频繁出现/共现物体更容易产生幻觉。此外我们还观察到部分 LVLMs 倾向于对所有的问题都回答 'Yes'。
为了测试 POPE 的稳定性,我们还设计了另外3中问题模板,并在InstructBLIP上进行了测试,同时计算了其均值和标准差,结果如上表所示。可以看出 POPE 在使用不同问题模板的情况下各项指标变化幅度不大,较为稳定。

无标注数据集评测

通过和 SEEM 等自动分割工具结合,POPE 也可以被拓展到无标注的图像数据集上用于测试。为了验证 POPE 在无标注数据集上的性能,我们用 SEEM 标注了 MSCOCO, A-OKVQA 和 GQA 三个数据集中的各500张图片,并沿用此前的方法构造了三种 POPE。我们测试了 LLaVA,MiniGPT-4 和 InstructBLIP 的表现,并且还测试了幻觉较轻的 BLIP 作为参照。MSCOCO 上的实验结果如下表所示。
实验结果显示使用 SEEM 构建的 POPE 依然具有相同的难度趋势 (Adversarial > Popular > Random),在大部分指标上也和使用人工标注构建的 POPE较为一致。我们也注意到部分指标上二者存在一定差异,例如 MiniGPT-4 在 Adversarial 采样下的 F1 Score。我们认为这是由于 SEEM 的分割结果相较于 MSCOCO 中的人工标注粒度更细,模型做出判断的难度更大,导致结果相对较低。

幻觉与VQA性能的关系

为了进一步研究幻觉问题和 LVLMs 性能之间的关系,我们在 A-OKVQA 和 GQA 上测试了部分 LVLMs 的性能。由于 LVLMs 的回答大都属于较长的开放式回答,我们难以继续使用传统的 VQA 评测方法。为此我们借助了 ChatGPT 来辅助测评,我们提供给 ChatGPT 的 prompt 如下:
  • “You are an examiner who can judge whether a student’s answer matches the correct answers. Next, I will provide you with the correct answer and a student’s answer. Please judge whether the student’s answer matches the correct answers.”
测评结果如下表所示。InstructBLIP 在幻觉和 VQA 任务中都取得了最好的表现,而 MiniGPT-4 和 LLaVA 在二者上的结果趋势并不一致。我们认为这些差异和 LVLMs 的使用的指令形式有关,例如 MiniGPT-4 的指令是较简单的图像描述任务,而 LLaVA 的指令包含更多较复杂的对话或推理任务,使其更擅长处理 VQA 任务。总之,上述结果说明在评估现有 LVLMs 的性能时,幻觉和 VQA 性能都需要被考虑。

总结

我们测试了多个LVLMs在物体幻觉问题上的表现。我们通过实验发现,视觉指令数据集中的物体分布会影响LVLMs的物体幻觉。此外,我们还发现现有的幻觉评估方法可能受到输入指令影响,从而导致评估结果不够可靠。为此我们提出了一种基于轮询的物体探测评估方法,称为POPE。实验结果表明,我们提出的POPE方法在评估LVLMs的对象幻觉问题上更为有效。

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
曝OpenAI大模型新进展!将推出多模态大模型,新项目Gobi筹备中关于医学多模态大模型,你需要来学习这些最新研究多模态大模型进展及应用 | 8月10日TF116报名天工大模型登顶多模态榜单!解决幻觉、跨语言两大难题开源多模态大模型哪家强?TOP12榜单来了,GitHub揽获2.2k+星能「说」会「画」, VisCPM:SOTA 开源中文多模态大模型GPT-5来了?OpenAI被曝加急训练多模态大模型Gobi,一举狙杀谷歌Gimini!BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」百度招聘多模态大模型实习生(内推)专访生数科技唐家渝:清华系团队拿到近亿融资,用Transformer来做多模态大模型多模态大模型迸发,创业机会和挑战在哪?丨GAIR 2023AI海洋中的海妖之歌:腾讯AI Lab大模型幻觉问题综述中科大&字节提出UniDoc:统一的面向文字场景的多模态大模型清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳在鲜花盛开的季节独家 | 哈工深新跑出一家多模态大模型公司,聂礼强、张民等 AI 大牛加盟专访生数科技唐家渝:清华系团队拿到上亿融资,用Transformer来做多模态大模型多模态大语言模型综述来啦!一文带你理清多模态关键技术多模态大一统、AI智能体将如何引领未来?阿里妈妈与人大高瓴学者探讨大模型趋势实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了致命幻觉问题、开发GPU替代品,大模型还面临这10大挑战多模态大模型的下一站在哪里?新多模态大模型霸榜!支持图文混合输入,不懂知识还能现学多模态大模型向前,机器人领域的新机遇在哪里?破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型多模态大模型能力测评:Bard 是你需要的吗?《白蘭鴿》LaVIN-lite:单张消费级显卡微调多模态大模型从感知到理解-融合语言模型的多模态大模型研究Europe won't stop pretending(欧洲会一直把自己装扮成.)美国档案--苏燊鎏,1911。被拒,证件造假萱草花中文版开源Llama 2同时有了语言、多模态大模型,完全可商用更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」理解指向,说出坐标,Shikra开启多模态大模型参考对话新维度
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。