Redian新闻
>
无痛缓解多模态大模型幻觉!基于注意力惩罚与回退机制的解码方法「OPERA」

无痛缓解多模态大模型幻觉!基于注意力惩罚与回退机制的解码方法「OPERA」

科学


©PaperWeekly 原创 · 作者 | 黄启栋

单位 | 中科大+上海AI Lab

研究方向 | 多模态大模型





介绍


幻觉(Hallucination)作为多模态大模型的一个非常严重的问题,一直受到广泛的关注。具体来说,大多数多模态大模型(MLLMs)有时会对用户提供的图像和提示给出错误的回答,例如说出与图像无关或荒谬的事物,识别出与图像上物体的颜色、数量和位置不符的对象。这种现象在多模态大模型生成较长回答时尤其常见。 


为了缓解多模态大模型的幻觉问题,许多工作提出了不同类型的方法。他们有的构造额外的训练数据,有的求助于外部知识与模型作为辅助,但是都引入了大量的额外开销。那么有没有一种方法可以在不需要额外的知识与训练的情况下,就可以无痛缓解多模态大模型幻觉这一个“老大难”问题呢? 


答案是肯定的。为此,中科大和上海 AI Lab 的研究者们最近提出了一种基于注意力惩罚与回退策略的解码方法 OPERA,有效缓解多模态大模型幻觉!


论文题目:

OPERA: Alleviating Hallucination in Multi-Modal Large Language Models via Over-Trust Penalty and Retrospection-Allocation

论文链接:

https://arxiv.org/abs/2311.17911

代码链接:

https://github.com/shikiw/OPERA


研究者们从一个有趣的发现入手,他们发现多模态大模型在生成幻觉内容时,其自注意力权重上通常具有“过度信赖”的现象。具体来说,当我们将多模态大模型最后一层的自注意力权重进行可视化,会很容易在模型给出幻觉句子之前看到一个明显的“柱状”特征。这里以多模态大模型 InstructBLIP 来举个栗子:


可以很明显地看到在幻觉句子出现之前会有一个 token 对后续所有的 token 都具有很高的注意力权值。通常这是不符合常理的,因为从输出的回答上来看这一个词并不具有那么丰富的信息量。对此,研究者们分析称这种现象可能是多模态大模型在输出较长语句时存在的一种“自动总结”的本能。

就如同人类一样,在输出的内容不断增长的情况下,为了减小负荷且提升效率可能会进行阶段性的总结,而后续的所有回答会基于这些总结来给出。同时,这种阶段性总结也可能导致之前的一些具体信息的丢失,后续的 token 由于“过度信赖”这些总结而忽视先前的信息,从而出现幻觉内容。研究者们把这样的现象称为“partial over-trust”,发现大模型的这种阶段性总结可能是真正导致幻觉问题的“元凶”! 

同时,研究者进行了数值上的统计,他们在不同模型中都观察到了这一现象与幻觉之间的伴生关系:

如图,研究者们随机采样了 100 张图像对不同的多模态大模型进行提问,发现在所有出现幻觉的回答中,有 80%~90% 的部分都表现出“过度信赖”现象与幻觉之间存在的伴生关系。


方法

研究者们希望通过改变解码策略来缓解这种“过度信赖”现象的出现,从而来减轻幻觉问题。在经典解码方法 Beam Search 的基础上,他们首先在解码过程中对每个 token 的输出概率引入了一个额外的惩罚项,来惩罚其出现“过度信赖”的注意力特征。
具体来说,他们首先在自注意力的权重图上划分出一个局部窗口,然后将这些权重在数值进行放大,同时使用列乘法得到一个得分向量,最后选择得分向量中的最大得分作为惩罚得分。这个惩罚得分越大说明出现生成句子中存在“过度信赖”的特征越明显,越可能出现幻觉。最后,这个惩罚得分的作用会体现在每个序列的 Beam 得分上,得分较低的序列最后将被淘汰。

由于这种“过度信赖”的特征具有“滞后性”,即只有在解码的过程中输出了若干 token 之后才能发现这样的特征。为了解决这种滞后带来的局限性,研究者们还提出了“回退-再分配”的策略。具体来说,可以计算最近几个 token 的得分向量的最大值下标,并检查该下标连续出现的次数是否大于一定阈值。如果高于阈值,则将当前序列的解码过程回退到这一下标所在 token 的位置,并重新选择词表中概率次高的词(除了之前已经选择的词之外)。

结合所提出的“过度信赖”惩罚与“回退-再分配”策略,研究者们提出一个新的多模态大模型解码方法 OPERA,极大地缓解了模型的尤其是在生成长文的幻觉现象。

实验

研究者们在 InstructBLIP,MiniGPT-4,LLaVA-1.5 以及 Shikra 等多种多模态大模型上进行了测试,在不同维度上进行了统计验证。相比于之前的解码方法,所提出的 OPERA 解码方法在缓解幻觉上均表现出优越的性能。


此外,研究者们还引入了 GPT-4 和 GPT-4V 进行打分测试,在生成内容的准确程度与具体程度上,OPERA 同样也表现出优越的性能。

研究者们还给出了 OPERA 的一些具体表现的实例:


总体而言,OPERA 作为一个从解码策略上改善多模态大模型幻觉的方法,能够非常容易地部署到不同的模型与架构上,同时也启发了更多研究者从机制上去研究并解决多模态大模型的幻觉问题。


更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型偷鸡摸狗---暗搞台独挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标中国“X”老板VS.日本“X”逸翁震惊!!!谷歌发布最强多模态大模型Gemini生活里的幸运和不幸运多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟大模型+自动驾驶=?普渡大学等最新《自动驾驶领域多模态大型语言模型》综述一个提示,让Llama 2准确率飙至80.3%?Meta提出全新注意力机制S2A,大幅降低模型幻觉清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力摔倒了,服老了媒体基础:打开多模态大模型的新思路神秘的大杂院(十二)一朵白色的椰叶花(下)AI早知道|ChatGPT模型大更新;阿里云发布多模态大模型;百度推多模态模型UNIMO-G无需额外知识或训练!中科大等提出OPERA:缓解多模态大模型幻觉问题的基于注意力惩罚与回退策略的解码方法骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM​AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpan正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完北京内推 | 腾讯光子工作室群招聘多模态大模型方向实习生腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法文末送书 | 及时雨!《多模态大模型:技术原理与实战》首发上市理想汽车发布史上最大更新:多模态大模型首次上车,无人泊车即将推送清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务幻觉降低30%!首个多模态大模型幻觉修正工作WoodpeckerAI搞定谷歌验证码,最新多模态大模型比GPT-4V空间理解更准确 | 苹果AI/ML团队将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7BThe Phantom of The OperaGPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评大模型幻觉问题无解?理论证明校准的LM必然会出现幻觉阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报谷歌发布Gemini,负责人:原生多模态大模型是AI「新品种」,正探索与机器人结合思谋进博会首秀:发布全球首个工业多模态大模型,现场与松下、江森自控签署全面战略合作横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%多模态物体幻觉下降23%!UNC斯坦福等推出通用修正器LURE:兼容任意LVLM,专攻三大幻觉成因大模型幻觉排行榜GPT-4夺冠,英伟达科学家强力打假!Meta版ChatGPT一作发长文鸣冤
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。