EMNLP 2023 | MMEdit——如何编辑多模态大语言模型?
论文作者:
论文链接:
代码链接:
https://github.com/zjunlp/EasyEdit
引言
世界不但是文字的世界,我们生活的世界本质上是多模态的。我们需要不断处理和整合来自不同模态的信息,如视觉信息、听觉信息等,利用这些信息我们可以更好地与周围环境互动,提升认知世界的能力。
随着OpenAI开放了ChatGPT的多模态功能,多模态大语言模型再一次成为了焦点。现有的主流多模态大语言模型框架是利用训练好的大语言模型和图像编码器,用一个图文特征对齐模块进行连接,从而让语言模型能够理解图像特征并进行更深层的问答推理。代表作有VisualGLM、BLIP 2和MiniGPT-4等。
但是目前复杂的多模态大语言模型都面临一个重大的挑战:对象幻觉(Object Hallucination)。就算是高质量的多模态语言模型,比如InstructBLIP,也存在高幻觉的文本率。多模态模型幻觉的主要原因可能有两点:
1. 多模态指令微调过程导致LVLMs 更容易在多模态指令数据集中频繁出现/共现的物体上产生幻觉;
2. 一些幻觉继承于原先的LLMs,由于使用的LLMs本来就存在一些错误/谬误知识,导致多模态语言模型也继承了这些错误知识,从而出现幻觉。
最近随着一种可以精确修改模型中特定知识的范式出现,对解决模型幻觉问题提供了一个新的可行性思路,这种方法被称作模型编辑。模型编辑可以在不重新训练模型的基础上,去修改模型的参数知识,这可以节约大量的资源。但是现有的模型编辑技术大部分都是针对单模态的,那多模态的模型是否是可编辑的呢?
可靠性:模型编辑需要能够保证正确修改模型的知识,可靠性就是衡量编辑后模型的准确率。多模态模型编辑亦是如此,作者定义如下:
稳定性:稳定性是判别模型编辑影响模型其余知识的程度。模型编辑希望在编辑完相关知识过后,不影响模型中其余的一些知识。多模态模型编辑与单模态不同,由于我们需要编辑多个模型区域,所以我们需要判断多模态模型进行编辑之后到底是对哪部分产生的影响多,哪部分少。所以作者提出了两种稳定性测试:T-Locality和M-Locality,一个测试纯语言模型的稳定性,一个测试多模态整体模型的稳定性,其定义如下:
对于泛化性数据,多模态模型由于本身的数据也是多模态的,所以需要考虑更多模态的泛化数据情况。其中多模态泛化性数据例子如下:
然后对于图片数据,作者利用COCO数据集中提供的图片描述。通过现有效果非常不错的图片生成模型Stable Diffusion 2.1来生成与图片描述相似的图片。具体构造流程如下图所示:
视觉出错:人类可能在图片识别这个阶段就出错,可能是看错,也有可能是视觉细胞本身就存在问题。例如人类色盲患者没有办法正确识别图片的颜色特征,就会在颜色识别的任务上出错。针对这个,文章作者提出了Vision Edit,针对VLMs的视觉模块进行编辑。 知识出错:人类可能正确识别了图片中的关键特征,但是本身的知识库里却没有相关特征的知识,这就导致人犯“指鹿为马”的失误。针对这个问题,作者提出了Language Edit,由于多模态语言模型的知识库都来自于LLMs,所以这部分编辑也就是针对语言模型。
多模态模型编辑的主要流程图作如下图所示:
实验
文章实验展示了现有主流的编辑方法在多模态大语言模型上的编辑效果,并对比了一些传统的基于微调的处理方法。结果展示如下:
此外作者还展示了编辑不同模块区域的效果展示:
可以看到编辑编辑不同区域效果差异非常大,编辑视觉模块是比较困难的事情。作者觉得这可能和模型的架构有关,编辑语言模型部分可以直接影响模型的输出,而编辑视觉部分只能影响模型输入。而且大部分的知识都是保存在LLMs中的,所以编辑视觉模块的效果不佳。最后展示几组编辑case:
总结
多模态模型是非常重要的领域,如何解决目前面临的幻觉问题是非常关键的问题。模型编辑技术为解决模型幻觉提供了一个不错的思路,但是在多模态模型上依然有许多不足的地方,比如如何能够更有效地进行不同模态之间的协同编辑?如何解决编辑OOD数据?如何做到多模态的连续编辑?这些都是未来值得探讨的方向。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者