Redian新闻
>
怎么让幻觉降低30%?

怎么让幻觉降低30%?

公众号新闻
  • 论文地址: https://arxiv.org/pdf/2310.16045.pdf
  • 项目地址: https://github.com/BradyFU/Woodpecker
作者:happy
来自:李rumor
->辅导界的小米带你冲刺ACL2024

介绍

视觉幻觉是常见于多模态大语言模型(Multimodal Large Language Models, MLLMs)的一个典型问题,它指的是"模型输出的描述与图片内容不相符"这一现象,如下图所示:

图中体现了两种幻觉,红色部分错误地描述了狗的颜色(属性幻觉),蓝色部分描述了图中实际不存在的事物(目标幻觉)。幻觉对模型的可靠性产生了显著的负面影响,因此引起了许多研究者的重视。

以往的方法主要集中在MLLM本身,通过在训练数据以及架构上进行改进,以重新微调的方式训练一个新的MLLM。这种方式会造成较大的数据构建和训练开销,且较难推广到各种已有的MLLMs。

近日,来自中科大等机构的研究者们提出了一种免训练的即插即用的通用架构 “啄木鸟(Woodpecker)” ,论文:Woodpecker: Hallucination Correction for Multimodal Large Language Models ,通过修正的方式解决MLLM输出幻觉的问题。

Woodpecker可以修正各种场景下模型输出的幻觉,并输出检测框作为引证,表明相应的目标确实存在。

例如,面对描述任务,Woodpecker可以修正其中带有幻觉的部分。

对于MLLM难以检测到的小对象,Woodpecker也可以精准修正:

面对MLLM难以解决的复杂的计数场景,Woodpecker同样可以进行解决:

对于目标属性类的幻觉问题,Woopecker处理地也很好:

我们还提供了Demo供读者测试使用,如下图所示,上传图片并输入请求,就可以得到修正前以及修正后的模型答复,以及供参考验证的新图片。

方法

Woodpecker的架构如下,它包括五个主要步骤:  关键概念提取、问题构造、视觉知识检验、视觉断言生成 以及幻觉修正。

关键概念提取: 关键概念指的是MLLM的输出中最可能存在幻觉的存在性目标,例如上图描述中的“自行车;垃圾桶;人”。我们可以Prompt大语言模型来提取出这些关键概念,这些关键概念是后续步骤进行的基础;

问题构造: 围绕着前一步提取出的关键概念,Prompt大语言模型来提出一些有助于检验图片描述真伪的问题,如“图中有几辆自行车?”、“垃圾桶边上的是什么?”等等;

视觉知识检验: 使用视觉基础模型对提出的问题进行检验,获得与图片以及描述文本相关的信息。例如,我们可以利用GroundingDINO来进行目标检测,确定关键目标是否存在以及关键目标的数量。这里我们认为像GroundingDINO这类视觉基础模型对图片的感知能力比MLLM本身的感知能力更强。对于目标颜色等这类属性问题,我们可以利用BLIP-2来进行回答。BLIP-2这类传统VQA模型输出答案的长度有限,幻觉问题也更少;

视觉断言生成: 基于前两步中获得的问题以及对应的视觉信息,合成结构化的“视觉断言”。这些视觉断言可以看做与原有MLLM的回答以及输入图片相关的视觉知识库;

幻觉修正: 基于前面得到的,使用大语言模型对MLLM的文本输出进行逐一修正,并提供目标对应的检测框信息作为视觉检验的参照。

实验效果

实验选取了几个典型的MLLM作为基线,包括: LLaVA,mPLUG-Owl,Otter,MiniGPT-4 论文中首先测试了Woodpecker在面对目标幻觉时的修正能力,在POPE验证集的实验结果如下表所示:

结果表明在不同的MLLM上应用Woodpecker修正后,均有不同程度的提升。在随机设定下,Woodpecker给MiniGPT-4和mPLUG-Owl和在准确率指标上分别带来了30.66%和24.33%的提升。

此外,研究者还应用更全面的验证集MME,进一步测试Woodpecker在面对属性幻觉时的修正能力,结果如下表所示:

从表中可见Woodpecker不仅在应对目标幻觉时有效,在修正颜色等属性幻觉时也具有出色的表现。LLaVA的颜色得分从78.33分大幅提升到155分!经过Woodpecker修正后,四个基线模型在四个测试子集上的总分均超过500分,在总体感知能力上获得了显著提升。

为了更直接地衡量修正表现,更直接的方式是使用开放评测。不同于以往将图片转译后送入纯文本GPT-4的做法,文章利用OpenAI最近开放的视觉接口,提出使用GPT-4(Vision)对修正前后的图片描述直接对下列两个维度进行打分:

  • 准确度:模型的答复相对于图片内容是否准确
  • 详细程度:模型答复的细节丰富度

在该实验条件下,实验结果如下表所示:

结果表明经过Woodpecker修正后图片描述的准确性有一定的提升,这说明该框架可以有效修正描述中幻视的部分。另一方面,Woodpecker修正后引入的定位信息丰富了文本描述,提供了进一步的位置信息,从而提升了细节丰富度。GPT-4V辅助的评测样例如下图所示:

感兴趣的读者,可以读论文进一步了解更多内容。

  • 论文地址: https://arxiv.org/pdf/2310.16045.pdf
  • 项目地址: https://github.com/BradyFU/Woodpecker


备注:昵称-学校/公司-方向/会议(eg.ACL),进入技术/投稿群


id:DLNLPer,记得备注呦


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
大模型幻觉问题无解?理论证明校准的LM必然会出现幻觉加拿大鹅、MOOSE等大牌羽绒服开仓特卖,最低3折!当心!!!银行偷偷减低了我的CD 利息 APY护肤界的“低调贵妇”!法国卖了30年的黄金双萃精华,凭什么让人念念不忘?周日大降温!阴雨连绵至周三 温度最低30华氏度 纽约市最恶劣房东之一被市府罚款400万这场大学生辩论赛,怎么让400万纯爱战士破防了最低39元!海澜之家专柜新品全打1折!一个提示,让Llama 2准确率飙至80.3%?Meta提出全新注意力机制S2A,大幅降低模型幻觉霜冻警告!芝加哥突然降温 最低36华氏度 整个地区气温与11月相似一手实测腾讯混元大模型:重逻辑降幻觉,鹅厂自家应用已加持生活啊,我该如何打开你腾讯混元大模型亮相:全链路自研,聚焦应用死磕“幻觉”香椿鸡蛋发面饼--不用揉,不用擀,趁热吃外酥内软,凉着吃,同样松软,香椿味更浓。(视频+图文)幻觉降低30%!首个多模态大模型幻觉修正工作WoodpeckerRWE证据闪耀EASD!GLP-1 RA、SGLT2i联合治疗2型糖尿病,肾衰竭风险降低88%,全因死亡风险降低22%!超越ToT,苏黎世理工发布新一代思维图GoT:推理质量提升62%,成本降低31%国产大模型黑马诞生,千亿级拿下双榜第一!知识正确性能力突出,大幅降低LLM幻觉问题长文本信息准确率超过ChatGPT,Meta提出降低大模型幻觉新方法多模态物体幻觉下降23%!UNC斯坦福等推出通用修正器LURE:兼容任意LVLM,专攻三大幻觉成因华文教育席卷全球AHA 中国之声|首个大规模集群随机试验发布,降低血压可显著降低高血压患者的痴呆风险蓝色的蒙古高原多模态LLM幻觉问题降低30%!业内首个“啄木鸟”免重训方法诞生|中科大多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟地产泡沫与繁荣幻觉:写在政策放松之后的第一个周末会员卡最低32万,荒漠“长”出高尔夫球场,无手续营业十余年!榆林再通报:已全面关停AI海洋中的海妖之歌:腾讯AI Lab大模型幻觉问题综述幻觉处理国内最优!530亿参数Baichuan2推理能力飙升100%,首次开放API商用天工大模型登顶多模态榜单!解决幻觉、跨语言两大难题“露营第一股”市值腰斩,牧高笛的品牌升级是一场幻觉吗?终于来了!新浮动费率基金产品出炉,如何浮动?怎么让利?出入境好消息!新加坡和中国30天互免签证,中国外交部宣布降低赴华签证费,各国签证费大大降低!中美直航新航班放里程票了(美东美西都有!),最低38K/60K点数拿下单程/往返行程,还能花式村村通AI造成幻觉?剑桥辞典2023年度字选出:意指「幻觉」繁荣的幻觉:房市放松之后的第一个周末
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。