国际科技财经博客移民网络热点娱乐民生时事公众号

>

多模态物体幻觉下降23%！UNC斯坦福等推出通用修正器LURE：兼容任意LVLM，专攻三大幻觉成因

多模态物体幻觉下降23%！UNC斯坦福等推出通用修正器LURE：兼容任意LVLM，专攻三大幻觉成因

公众号新闻

2023-11-06 04:11

新智元报道

编辑：LRS

【新智元导读】基于LVLM幻觉频发的三个成因（物体共现、物体不确定性、物体位置），北卡教堂山、斯坦福、哥大、罗格斯等大学的研究人员提出幻觉修正器LURE，通过修改描述来降低幻觉问题。

自GPT多模态亮相以来，开源多模态大模型层出不穷。

在人工智能领域，融合多种模态的大规模模型已被广大研究者和业界视为发展的主流方向，也被认为是构建通用AI助手的核心组件。

国内外一些研究人员在GPT-4V未真正亮相期间，推出了一些代表作，如LLaVa, MiniGPT-4, Mplug-Owl等，这些开源模型在自然指令跟踪和视觉推理能力方面展示了非常强大的性能。

但有一个问题也一直困扰着众多研究人员: 这些多模态大模型在能理解真实图像的同时，也被严重的幻觉问题所困扰：看图说瞎话，胡编乱造等问题时常出现，对视觉摘要、推理等视觉语言任务产生了非常大的负面影响。

今年10月, 北卡教堂山、斯坦福、哥大、罗格斯等大学的研究人员系统分析了LVLMs中幻觉的三种成因, 并且提出了一个通用的解决方案LURE（LVLM Hallucination Revisor，幻觉修正器），通过重建一个包含更少幻觉的描述来纠正LVLM中的物体幻觉（object hallucination）问题，可以与任意LVLM进行无缝集成。

论文地址: https://arxiv.org/abs/2310.00754

代码地址: https://github.com/YiyangZhou/LURE

LURE的设计基于对产生物体幻觉的关键因素，进行严格统计分析，包括共现（某些物体在图像中与其他物体一起频繁出现）、不确定性（在LVLM解码期间具有较高不确定性的物体）和物体位置（幻觉通常出现在生成文本的后面部分）。

研究人员在六个开源LVLM上对LURE进行评估了，与之前的最佳方法相比，通用物体幻觉评估指标提高了23%；在GPT和人工评估中，LURE始终名列前茅。

幻觉从哪来，为什么会产生这样的幻觉？

研究人员对LVLMs产生幻觉的原因进行了系统性的分析，可以归结为如下三个因素：

1. 物体间的同现和假相关性

研究人员对不同对LVLMs对于训练集合中图片相应的描述统计发现，大部分幻觉的描述中的物体都会存在较高的共现分数，也就是说幻觉物体极大概率是经常一起出现的物体。

例如：一张图片中有草和天空，那么出现幻觉的描述中的幻觉物体大概率可能是树木、鸟儿，因为这些物体在训练集合中经常一起出现。

2. 解码过程的不确定性

同时幻觉物体大概率是解码过程中不太确定的物体，这种不确定性会导致模型在解码过程中错误选择概率差不多且不太确定的物体，导致描述中出现了幻觉。

3、位置关系

同时研究人员观察了大量的幻觉描述发现，幻觉集中出现在模型响应图像的描述的后半段，这可能是模型前面的输出的错误触发了后续幻觉的滚雪球。

为了验证上述分析的可靠性，研究人员还对这三个因素对于幻觉的贡献进行了详细的理论证明。

方法介绍

那么如何减少这样的幻觉呢？

为了减少LVLMs幻觉，研究团队提出了首个多模态幻觉缓解方案LURE：基于上述分析的关键因素，LURE通过物体幻觉修正器，能与任意LVLM无缝衔接，对不准确的描述进行纠正。

训练流程

推理流程

实验及结果

效果怎么样呢？

在六个开源的LVLMs上，LURE都证明了自己的有效性。

在各种评估指标下，如CHAIR、GPT评估以及人类评估，它都能显著减少至少23%的物体幻觉。

本文将MiniGPT-4 llama7B作为基准模型用于训练LURE，然后集成于6个开源的LVLM，与其余减少幻觉的basline相比LURE能大幅降低模型输出时的幻觉：

研究人员同时进行了消融实验，证明了LURE算法适用于各种LVLMs

且不依赖于数据集本身所带来的性能偏移。

此外之前分析的三个因素在LURE后处理之后都能有明显的改善：

由于幻觉评估除了经典的CHAIR，没有其他评估指标，研究人员还分析了传统的机器翻译指标是否适用于幻觉的评估：

案例分析

参考资料：

https://arxiv.org/abs/2310.00754

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

骁龙888实时运行，美团、浙大等打造全流程移动端多模态大模型MobileVLM 清华系ChatGLM3现场怼脸演示！多模态直逼GPT-4V，国产Code Interpreter来了 LLM吞吐量提高2-4倍，模型越大效果越好！UC伯克利、斯坦福等开源高效内存管理机制PagedAttention 哈佛、斯坦福等众名校开设“霉霉”课程，这课你还逃吗？ICCV 2023 | 通用数据增强技术！适用于任意数据模态的随机量化任意文本、视觉、音频混合生成，多模态有了强大的基础引擎CoDi-2 上海内推 | 小红书多模态算法组招聘多模态CV/NLP算法实习生友情帮转|清北哈佛牛剑MIT斯坦福等海内外名校2023年度百人酒会冷却的不止季节（106）— 提醒 ICCV 2023 | 通向3D感知大模型的必由之路！UniTR：统一多模态Transformer Encoder！破解一切模态，无限接近AGI！新加坡华人团队开源全能「大一统」多模态大模型多模态LLM幻觉问题降低30%！业内首个“啄木鸟”免重训方法诞生｜中科大玩转围棋、国际象棋、扑克，DeepMind推出通用学习算法SoG 实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT，最接近AGI的大一统多模态大模型来了 6002 血壮山河之随枣会战 “和平运动 ”2 CNN能搞多模态了！UniRepLKNet：大核CNN一统多种模态，图像/视频/点云/时序/音频均达SOTA水平！OpenAI等推出AI语音翻译；百度发布首个量子领域大模型；微软或将用核电供能AI数据中心丨AIGC大事日报多模态大模型幻觉降低30%！中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟 DreamLLM：多功能多模态大型语言模型，你的DreamLLM~ICCV 2023 | 用“自编码器+多模态学习”更有效地解决3D物体可供性问题北大&腾讯打造多模态15边形战士！语言作“纽带”，拳打脚踢各模态，超越Imagebind 文生图10倍速，视频实时渲染！清华发布LCM：兼容全部SD大模型、LoRA、插件等大模型幻觉问题无解？理论证明校准的LM必然会出现幻觉《军营飞来一只白灵》&《我想我是海》无痛缓解多模态大模型幻觉！基于注意力惩罚与回退机制的解码方法「OPERA」北航打破模态壁垒，跨可见光-红外模态的通用物理对抗攻击方法来了港大&百度提出LLMRec：基于LLM增强的多模态图神经网络推荐哈佛、斯坦福等前招生官团空降湾区！康奈尔前招生官直播间分享藤校录取秘籍！无需额外知识或训练！中科大等提出OPERA：缓解多模态大模型幻觉问题的基于注意力惩罚与回退策略的解码方法 0.2美元微调就能让ChatGPT彻底破防！普林斯顿、斯坦福发布LLM风险预警：普通用户微调也影响LLM安全性 UNC斯坦福等曝光GPT-4V意外漏洞，被人类哄骗数出8个葫芦娃！LeCun和Jim Fan震惊了有钱的加拿大人幻觉降低30%！首个多模态大模型幻觉修正工作Woodpecker 第三章第三节欧洲中国不同的社会演变终结扩散模型，IGN单步生成逼真图像！UC伯克利谷歌革新LLM，美剧成灵感来源

热点事件追踪