Redian新闻
>
多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟

多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟

公众号新闻



  新智元报道  

编辑:好困
【新智元导读】最近,来自中科大等机构的研究人员提出了首个多模态修正架构「啄木鸟」,可有效解决MLLM输出幻觉的问题。

视觉幻觉是常见于多模态大语言模型(Multimodal Large Language Models, MLLMs)的一个典型问题。

简单来说就是:模型输出的描述与图片内容不相符。

下图中体现了两种幻觉,红色部分错误地描述了狗的颜色(属性幻觉),蓝色部分描述了图中实际不存在的事物(目标幻觉)。

幻觉对模型的可靠性产生了显著的负面影响,因此引起了许多研究者的重视。

以往的方法主要集中在MLLM本身,通过在训练数据以及架构上进行改进,以重新微调的方式训练一个新的MLLM。

然而,这种方式会造成较大的数据构建和训练开销,且较难推广到各种已有的MLLMs。

近日,来自中科大等机构的研究者们提出了一种免训练的即插即用的通用架构「啄木鸟(Woodpecker)」,通过修正的方式解决MLLM输出幻觉的问题。

论文地址: https://arxiv.org/pdf/2310.16045.pdf

项目地址: https://github.com/BradyFU/Woodpecker

效果展示


具体来说,Woodpecker可以修正各种场景下模型输出的幻觉,并输出检测框作为引证,表明相应的目标确实存在。

例如,面对描述任务,Woodpecker可以修正其中带有幻觉的部分:

对于MLLM难以检测到的小对象,Woodpecker也可以精准修正:

面对MLLM难以解决的复杂的计数场景,Woodpecker同样可以进行解决:

对于目标属性类的幻觉问题,Woopecker处理地也很好:

此外,Woodpecker还提供了Demo供读者测试使用。

如下图所示,上传图片并输入请求,就可以得到修正前以及修正后的模型答复,以及供参考验证的新图片。

方法


Woodpecker的架构如下,它包括五个主要步骤: 关键概念提取、问题构造、视觉知识检验、视觉断言生成以及幻觉修正。

- 关键概念提取

关键概念指的是MLLM的输出中最可能存在幻觉的存在性目标,例如上图描述中的「自行车;垃圾桶;人」。

我们可以Prompt大语言模型来提取出这些关键概念,这些关键概念是后续步骤进行的基础。

- 问题构造

围绕着前一步提取出的关键概念,Prompt大语言模型来提出一些有助于检验图片描述真伪的问题,如「图中有几辆自行车?」、「垃圾桶边上的是什么?」等等。

- 视觉知识检验

使用视觉基础模型对提出的问题进行检验,获得与图片以及描述文本相关的信息。

例如,我们可以利用GroundingDINO来进行目标检测,确定关键目标是否存在以及关键目标的数量。因为像GroundingDINO这类视觉基础模型对图片的感知能力比MLLM本身的感知能力更强。

对于目标颜色等这类属性问题,则可以利用BLIP-2来进行回答。BLIP-2这类传统VQA模型输出答案的长度有限,幻觉问题也更少。

- 视觉断言生成

基于前两步中获得的问题以及对应的视觉信息,合成结构化的「视觉断言」。这些视觉断言可以看做与原有MLLM的回答以及输入图片相关的视觉知识库。

- 幻觉修正

基于前面得到的,使用大语言模型对MLLM的文本输出进行逐一修正,并提供目标对应的检测框信息作为视觉检验的参照。

实验结果


实验选取了几个典型的MLLM作为基线,包括: LLaVA,mPLUG-Owl,Otter,MiniGPT-4。

论文中首先测试了Woodpecker在面对目标幻觉时的修正能力,在POPE验证集的实验结果如下表所示:

结果表明在不同的MLLM上应用Woodpecker修正后,均有不同程度的提升。

在随机设定下,Woodpecker给MiniGPT-4和mPLUG-Owl在准确率指标上分别带来了30.66%和24.33%的提升。

此外,研究者还应用更全面的验证集MME,进一步测试Woodpecker在面对属性幻觉时的修正能力,结果如下表所示:

从表中可见Woodpecker不仅在应对目标幻觉时有效,在修正颜色等属性幻觉时也具有出色的表现。LLaVA的颜色得分从78.33分大幅提升到155分!

经过Woodpecker修正后,四个基线模型在四个测试子集上的总分均超过500分,在总体感知能力上获得了显著提升。

为了更直接地衡量修正表现,更直接的方式是使用开放评测。

不同于以往将图片转译后送入纯文本GPT-4的做法,文章利用OpenAI最近开放的视觉接口,提出使用GPT-4(Vision)对修正前后的图片描述直接对下列两个维度进行打分:

- 准确度:模型的答复相对于图片内容是否准确

- 详细程度:模型答复的细节丰富度

在该实验条件下,实验结果如下表所示:

结果表明经过Woodpecker修正后图片描述的准确性有一定的提升,这说明该框架可以有效修正描述中幻视的部分。

另一方面,Woodpecker修正后引入的定位信息丰富了文本描述,提供了进一步的位置信息,从而提升了细节丰富度。

GPT-4V辅助的评测样例如下图所示:

感兴趣的读者,可以读论文进一步了解更多内容。

参考资料:
https://arxiv.org/pdf/2310.16045.pdf
https://github.com/BradyFU/Woodpecker




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
长文本信息准确率超过ChatGPT,Meta提出降低大模型幻觉新方法NeurIPS 2023 | 浙大等提出C-MCR:连接多模态对比表征,无需配对数据就能学习!微软提出KOSMOS-2.5,能阅读「文本密集图像」的多模态大语言模型多模态物体幻觉下降23%!UNC斯坦福等推出通用修正器LURE:兼容任意LVLM,专攻三大幻觉成因GPT-4完成正确率仅6%!北大等提出首个「多轮、多模态」PPT任务完成基准PPTC“李南央状告海关案”跟进报道(一百零九) ——继续拭目以待「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR|NeurIPS 2023低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?大模型+自动驾驶=?普渡大学等最新《自动驾驶领域多模态大型语言模型》综述【解字】理解多模态大模型迸发,创业机会和挑战在哪?丨GAIR 2023GPT-5来了?OpenAI被曝加急训练多模态大模型Gobi,一举狙杀谷歌Gimini!刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完新多模态大模型霸榜!支持图文混合输入,不懂知识还能现学多模态LLM幻觉问题降低30%!业内首个“啄木鸟”免重训方法诞生|中科大怎么让幻觉降低30%?无需额外知识或训练!中科大等提出OPERA:缓解多模态大模型幻觉问题的基于注意力惩罚与回退策略的解码方法实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了AI海洋中的海妖之歌:腾讯AI Lab大模型幻觉问题综述一个提示,让Llama 2准确率飙至80.3%?Meta提出全新注意力机制S2A,大幅降低模型幻觉思谋进博会首秀:发布全球首个工业多模态大模型,现场与松下、江森自控签署全面战略合作曝OpenAI大模型新进展!将推出多模态大模型,新项目Gobi筹备中百度招聘多模态大模型实习生(内推)大模型幻觉排行榜GPT-4夺冠,英伟达科学家强力打假!Meta版ChatGPT一作发长文鸣冤破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型NeurIPS 2023 | 无需配对数据就能学习!浙大等提出连接多模态对比表征C-MCRCorsica 2023燃情岁月1989(23)阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报春游-话说叠字用语言对齐多模态信息,北大腾讯等提出LanguageBind,刷新多个榜单无痛缓解多模态大模型幻觉!基于注意力惩罚与回退机制的解码方法「OPERA」幻觉降低30%!首个多模态大模型幻觉修正工作Woodpecker
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。