Redian新闻
>
无需额外知识或训练!中科大等提出OPERA:缓解多模态大模型幻觉问题的基于注意力惩罚与回退策略的解码方法

无需额外知识或训练!中科大等提出OPERA:缓解多模态大模型幻觉问题的基于注意力惩罚与回退策略的解码方法

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【多模态学习】微信交流群

扫码加入CVer知识星球可以最快学习到最新顶会顶刊上的论文ideaCV从入门到精通资料,以及最前沿项目和应用!发论文,强烈推荐!

在CVer微信公众号后台回复:OPERA,即可下载论文pdf和代码链接!快学起来!

论文:https://arxiv.org/abs/2311.17911

代码:https://github.com/shikiw/OPERA

在多模态大模型中,幻觉问题一直是一个备受关注的难题。大多数多模态大模型(Multi-Modal Large Language Models)经常对输入的图像和提示给出错误的回答,尤其在生成较长文本回答时,很容易说出与图像不符的事物,或者错误地判断图像上物体的颜色、数量和位置等。

这里以著名的多模态大模型LLaVA-1.5举个栗子:   

为了缓解多模态大模型的幻觉问题,最近有许多不同的方法陆续被提出。其中一些方法涉及构建额外的训练数据并加入到训练阶段,另一些方法则依赖于外部知识或强大的模型进行辅助,这些方法通常伴随着大量的额外开销。那么是否存在一种方法,可以在不需要额外知识和训练的情况下轻松缓解多模态大模型的幻觉问题呢?

为此,中科大和上海AI Lab的研究者们近日提出了一种名为OPERA的解码方法,该方法基于注意力惩罚与回退策略,成功地在不借助外部知识并不引入额外训练的情况下缓解了多模态大模型的幻觉问题。

研究者们发现了一个引人注目的现象,即在多模态大模型生成幻觉内容时,其自注意力权重往往表现出一种“过度信赖”的趋势。具体而言,当我们对多模态大模型的最后一层自注意力权重进行可视化时,在模型生成幻觉句子之前,很容易观察到一个明显的“柱状”特征。以多模态大模型InstructBLIP为例:   

可以清晰地观察到,在幻觉句子出现之前,存在一个token,其对后续所有token都具有较高的注意力权值。通常情况下,这种现象并不合乎常理,因为从输出的回答来看,这个词并不一定包含丰富的信息。研究者们分析认为,这种现象可能是多模态大模型在生成较长语句时展现的一种“自动总结”本能。类似于人类的行为,当输出内容逐渐增加时,为了降低负担并提高效率,模型可能会进行阶段性的总结,后续的所有回答都可能基于这些总结进行生成。

然而,这种阶段性总结也可能导致之前某些具体信息的丢失,因为后续的token可能由于“过度信赖”这些总结而忽略了先前的信息,从而产生幻觉内容。研究者们将这一现象描述为“partial over-trust”,并发现大型模型的这种阶段性总结可能是导致幻觉问题的一大“元凶”!同时,研究者们进行了数值统计,在不同模型中都观察到了这一现象与幻觉之间的相关性。   

研究者们通过随机采样100张图像,并向不同的多模态大模型提出问题。他们发现在所有出现幻觉回答的情况下,有80%~90%的回答都呈现出了“过度信赖”现象,进一步证实了这一现象与幻觉之间的伴生关系。

方法

为了缓解“过度信赖”现象,研究者们试图通过改变解码策略来减轻幻觉问题的发生。在经典的Beam Search解码方法基础上,他们首先引入了一个额外的惩罚项,对解码过程中每个token的输出概率进行调整,以惩罚出现“过度信赖”的注意力特征。具体而言,他们在自注意力权重图上划分一个局部窗口,对这些权重进行数值放大,同时通过列乘法生成一个得分向量,最终选择其中的最大得分作为惩罚得分。这个惩罚得分的增加表示生成句子中“过度信赖”的特征越为明显,幻觉的可能性越大。最后,这个惩罚得分会影响每个序列的Beam得分,从而使得得分较低的序列最终被淘汰。    

由于“过度信赖”特征存在“滞后性”,即只有在解码过程中输出了若干token后才能观察到这种特征。为了应对这种滞后带来的限制,研究者们提出了“回退-再分配”的策略。具体而言,他们计算了最近几个token的得分向量的最大值下标,并检查该下标连续出现的次数是否超过一定阈值。如果超过阈值,就会将当前序列的解码过程回退到该下标所在token的位置,并重新选择词表中概率次高的词(排除之前已选择的词)。

研究者们结合所提出的“过度信赖”惩罚与“回退-再分配”策略,提出了一个新的多模态大模型解码方法OPERA,极大地缓解了模型的的幻觉现象,尤其是在生成较长回答的时候的幻觉问题。   

实验

研究者们对InstructBLIP、MiniGPT-4、LLaVA-1.5以及Shikra等多种多模态大模型进行了测试,并在不同维度上进行了统计验证。相对于先前的解码方法,他们提出的OPERA解码方法在缓解幻觉方面展现出卓越的性能。

除此之外,研究者们还让GPT-4和GPT-4V给不同解码方法生成的文本进行打分,在生成内容的准确程度与具体程度上,OPERA同样也展现出优越的性能。

同时,研究者们还给出了OPERA的一些具体表现的实例:   

总的来说,作为一种通过改进解码策略来减轻多模态大模型幻觉的方法,OPERA具有易于在不同模型和架构上部署的特点,同时也激发了更多研究者从机制层面研究和解决多模态大模型的幻觉问题。

在CVer微信公众号后台回复:OPERA,即可下载论文pdf和代码链接!快学起来!
CVPR / ICCV 2023论文和代码下载
后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

多模态学习交流群成立


扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-多模态学习 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如多模态学习+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
大模型幻觉问题无解?理论证明校准的LM必然会出现幻觉国产大模型黑马诞生,千亿级拿下双榜第一!知识正确性能力突出,大幅降低LLM幻觉问题一个提示,让Llama 2准确率飙至80.3%?Meta提出全新注意力机制S2A,大幅降低模型幻觉无痛缓解多模态大模型幻觉!基于注意力惩罚与回退机制的解码方法「OPERA」北大等提出MoE-LLaVA:将多模态大模型稀疏化教育大纲幻觉降低30%!首个多模态大模型幻觉修正工作WoodpeckerGPT-4完成正确率仅6%!北大等提出首个「多轮、多模态」PPT任务完成基准PPTCNeurIPS 2023 | 无需配对数据就能学习!浙大等提出连接多模态对比表征C-MCR腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR|NeurIPS 2023低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型巴以冲突何时了骁龙888实时运行!美团&浙大等打造移动端多模态大模型MobileVLMGPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评大模型幻觉排行榜GPT-4夺冠,英伟达科学家强力打假!Meta版ChatGPT一作发长文鸣冤NeurIPS 2023 | 浙大等提出C-MCR:连接多模态对比表征,无需配对数据就能学习!骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLMAI早知道|ChatGPT模型大更新;阿里云发布多模态大模型;百度推多模态模型UNIMO-G大模型+自动驾驶=?普渡大学等最新《自动驾驶领域多模态大型语言模型》综述一文详解大模型归因机制,幻觉问题有救了!三七等于二十一吗刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!北京内推 | 阿里淘天集团招聘大模型/多模态大模型算法实习生清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?详解多模态大模型:LLaVA+LLaVA1.5+LLaVA-Med将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B多模态物体幻觉下降23%!UNC斯坦福等推出通用修正器LURE:兼容任意LVLM,专攻三大幻觉成因北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟推翻(狭义)相对论意味着什么?姚让的疫情时代(5)从错误中学习!腾讯AI Lab提出诱导大模型自身幻觉来消除幻觉多模态LLM幻觉问题降低30%!业内首个“啄木鸟”免重训方法诞生|中科大清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。