MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。 社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。转载自 | RUC AI Box作者|李依凡机构|中国人民大学研究方向|自然语言处理多模态大模型能够根据图片内容与用户展开对话,完成复杂任务,但可能对图像中的物体产生幻觉。本文探讨并评估了目前多模态大模型的幻觉问题。实验发现目前的多模态大模型存在较严重的幻觉问题,并且该问题可能受多模态指令数据集中物体分布的影响。本文还介绍了一种更稳定、灵活的物体幻觉评测方式POPE。文章也同步发布在 AI Box 知乎专栏(知乎搜索 AI Box 专栏),欢迎大家在知乎专栏的文章下方评论留言,交流探讨!论文题目:Evaluating Object Hallucination in Large Vision-Language Models论文链接:https://arxiv.org/abs/2305.10355论文代码:https://github.com/RUCAIBox/POPE
如上图所示,POPE 将幻觉评估转换为让模型回答一系列关于物体是否存在于图像中的判断题(例如'Is there a car in the image?')。具体而言,给定一个图像数据集和每张图像包含的物体标注,POPE将构造一系列由图像,问题和回答组成的三元组,可形式化表示为:其中x表示图像,o_i是待测试的物体,既可以是图像中真实存在的物体,也可以是自定义的不存在于图像中的物体q(o_i)是测试物体o_i的问题,a_i是对该问题的回答('Yes' 或 'No')。实验细节方面,我们将图像中真实存在的物体和不存在的物体之间的比例设置为1:1,并且使用二分类任务常用的 Accuracy, Recall, Precision 和 F1 Score 作为评测指标。此外为了更好的分析模型行为,我们还记录了模型回答 'Yes' 的比例。关于图像中未出现物体的选择,我们受此前关于多模态指令数据对幻觉影响的分析启发设计了三种采样策略:
Random sampling:随机选取不在图像中的物体
Popular sampling: 优先选取出现频率较高的物体
Adversarial sampling: 优先选取和图像中物体频繁共现的物体
评测结果
实验结果如上图所示,各模型的表现和此前的 CHAIR 指标基本一致,即 InstructBLIP 表现较好,而 mPLUG-Owl, LLaVA 和 Multimodal-GPT 幻觉较严重。可以注意到根据 F1-Score 判断,三种采样方式下的 POPE 的难度有所不同,体现为 Adversarial > Popular > Random,这也进一步验证了我们此前的分析,即多模态指令数据集中的频繁出现/共现物体更容易产生幻觉。此外我们还观察到部分 LVLMs 倾向于对所有的问题都回答 'Yes'。为了测试 POPE 的稳定性,我们还设计了另外3中问题模板,并在InstructBLIP上进行了测试,同时计算了其均值和标准差,结果如上表所示。可以看出 POPE 在使用不同问题模板的情况下各项指标变化幅度不大,较为稳定。
“You are an examiner who can judge whether
a student’s answer matches the correct answers.
Next, I will provide you with the correct answer
and a student’s answer. Please judge whether the
student’s answer matches the correct answers.”