Redian新闻
>
多模态大语言模型综述来啦!一文带你理清多模态关键技术

多模态大语言模型综述来啦!一文带你理清多模态关键技术

公众号新闻


MLNLP社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。
社区的愿景是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。
转载自 | 夕小瑶科技说
 作者 | 智商掉了一地、Python
随着 ChatGPT 在各领域展现出非凡能力,多模态大型语言模型(MLLM)近来也成为了研究的热点,它利用强大的大型语言模型(LLM)作为“大脑”,可以执行各种多模态任务。更让人感慨的是,MLLM 展现出了传统方法所不具备的能力,比如能够根据图像创作故事,无需 OCR 的数学推理等,这为实现人工智能的通用智能提供了一条潜在路径。
也不乏有全面和前沿的综述出现,本文作者的目标是追踪和总结 MLLM 的最新进展。介绍了 MLLM 的构建方式并对相关概念概述,还深入讨论了关键技术和应用。同时,他们也指出了当前研究中存在的挑战,并提出了一些有前景的研究方向。鉴于 MLLM 的时代刚刚开启,作者们将持续更新这篇综述,以期待能够激发更多的研究。
论文题目:
A Survey on Multimodal Large Language Models
论文链接:
https://arxiv.org/abs/2306.13549
Github 地址:
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

论文速览

▲图1 三种典型学习范式的比较

多模态指令调优(Multimodal Instruction Tuning)

指令是任务描述。指令调优是通过在一组以指令格式组织的数据集上微调预训练的 LLM,以实现对未见任务的泛化能力提升。这一简单而有效的思想已在自然语言处理领域的一系列工作中得到成功应用,如 ChatGPT、InstructGPT、FLAN 和 OPT-IML。
图 1 展示了指令调优与其他典型学习范式的比较。传统的监督微调方法需要大量特定任务的数据,而提示方法通过引入提示工程来减少对大规模数据的依赖,虽然少样本性能有所提升,但零样本性能相对平均。指令调优与这两种方法不同,它着重于学习如何推广到未见任务,并与多任务提示密切相关。传统的多模态模型仅适用于前两种调优方法,缺乏零样本能力。因此,最近的研究致力于将指令调优扩展到多模态领域。
在扩展到多模态时,需要对数据和模型进行相应的调整:
  • 数据方面,研究人员通常通过改编现有基准数据集或进行自我指导来获取适用于多模态指令调优的数据集。
  • 模型方面,一种常见的方法是将外部模态信息注入到 LLM 中,并将其作为强大的推理器。相关工作可以直接对齐外部嵌入和 LLM,也可以借助专家模型将外部模态转化为 LLM 可接受的自然语言。这些工作将 LLM 转化为多模态聊天机器人和多模态通用任务求解器。
▲图2 多模态指令调优(M-IT)的分类法,包括数据构建、模态桥接和评估
▲表1 组织多模态指令数据模板
表 1 是一个简化的模板,用于组织多模态指令数据。其中,<instruction> 是任务的文本描述。{<image>, <text>} 和 <output> 分别表示数据样本的输入和输出。需要注意的是,在某些数据集中,如图像-字幕数据集,可能只包含 <image>,而 <input> 中的 <text> 可能会缺失。而 <BOS> 和 <EOS> 是用于标记输入给 LLM 的起始和结束的特殊符号。这个模板可以帮助我们更好地组织和理解多模态指令数据的结构。
▲表2 VQA 数据集指令模板
表 2 是 VQA 数据集指令模板,其中 <Image> 和 {Question} 分别代表原始 VQA 数据集中的图像和问题。

多模态上下文学习(Multimodal In-Context Learning)

ICL 是 LLM 的一项重要且新兴的能力。它具有两个显著优点:
  1. 与传统的监督学习范式通过大量数据学习隐含模式不同,ICL 的核心在于通过类比学习。在 ICL 的设置中,LLM 通过少量示例和可选指令进行学习,并能够在新问题上进行推广,以实现少样本学习并解决复杂且未见过的任务。
  2. ICL 通常以无需训练的方式实,因此可以灵活地集成到不同的框架中的推理阶段。与 ICL 密切相关的技术是指令调优,经过实证验证指令调优能够增强 ICL 的能力。
在 MLLM 的背景下,ICL 已经扩展到更多的模态,形成了多模态 ICL(M-ICL)。在推理阶段,M-ICL 可以通过在原始样本中添加一个演示集(即一组上下文样本)来实现。表 3 展示了这种扩展。
在多模态应用中,M-ICL 主要用于两种场景:
  1. 解决各种视觉推理任务,
  2. 教导LLM使用外部工具。
前一种情况通常涉及从少量特定任务的示例中学习,并推广到新的但类似的问题。通过指令和演示所提供的信息,LLM 可以理解任务的目标和输出模板,并生成预期的答案。而与之相反,关于工具使用的示例通常仅包含文本信息,并且更加精细。这些示例通常由一系列可以按顺序执行的步骤组成,以完成特定任务。因此,第二种情景与 CoT 密切相关。
▲表3 用于构建 M-ICL 查询的模板示例
表 3 是一个简化的模板示例,用于构建 M-ICL 查询。为了说明,本文列出了两个上下文示例和一个通过虚线分隔的查询。其中 {instruction} 和 {response} 是数据样本中的文本内容。<image> 是用作多模态输入的占位符(在这种情况下代表图像)。而 <BOS> 和 <EOS> 则是分别表示输入给 LLM 的起始和结束的标记符。通过这个模板,可以更好地组织 M-ICL 查询的结构,并进行相关示例的说明。

多模态思维链(Multimodal Chain of Thought)

正如先前工作所指出的那样,CoT 是“一系列中间推理步骤”,已被证明在复杂推理任务中非常有效。CoT 的主要思想是提示 LLM 不仅输出最终答案,还要输出导致答案的推理过程,类似于人类的认知过程。受到 NLP 领域的成功启发,已经提出了多个工作来将单模态的 CoT 扩展到多模态 CoT(M-CoT)。作者在图 3 中总结了这些工作,关键是需要填补模态差距。
▲图3 多模态思维链(M-CoT)的分类法

LLM 辅助视觉推理(LLM-Aided Visual Reasoning)

受到工具增强的 LLM 成功的启发,一些研究探索了调用外部工具或视觉基础模型进行视觉推理任务的可能性。这些工作将 LLM 作为具有不同角色的辅助工具,构建了任务特定或通用的视觉推理系统。与传统的视觉推理模型相比,这些工作表现出几个优点:
  1. 强大的泛化能力。这些系统通过大规模预训练学习到丰富的开放世界知识,能够在零/小样本情况下轻松推广到未见过的对象或概念,具有显著的性能。
  2. 新兴的能力。在 LLM 的强大推理能力和丰富知识的辅助下,这些系统能够执行复杂的任务。例如,给定一张图片,MM-REACT 能够解释其中的意义,比如解释为什么一个梗很有趣。
  3. 更好的互动性和控制性。传统模型通常只允许有限的控制机制,并且通常需要昂贵的策划数据集。相比之下,基于 LLM 的系统具有在用户友好界面上进行精细控制的能力(例如点击和自然语言查询)。
而图 4  总结了相关文献。
▲图4 LLM 辅助视觉推理(LAVR)的分类

小结

本文对现有的 MLLM 文献进行了调研,并对其主要方向提供了广泛的概述,包括三种常见技术(M-IT、M-ICL 和 MCoT)以及构建任务解决系统的通用框架(LAVR)。

挑战与未来方向

MLLM 的发展仍处于初级阶段,需要在以下方面进行改进:
  1. 提升感知能力:目前的 MLLM 在感知能力方面受限,可能导致获取的视觉信息不完整或错误。为了解决这个问题,可以考虑引入大型视觉基础模型如 SAM,以更高效地压缩视觉信息。
  2. 加强推理能力:MLLM 的推理链可能较为脆弱。在某些情况下,即使 MLLM 能够计算出正确的结果,但推理过程中仍可能出现错误。因此,有必要研究改进多模态推理的方法。
  3. 提升指令跟随能力:部分 MLLM 在明确的指令下仍无法生成预期的答案,这需要指令调优覆盖更多任务以提高泛化能力。
  4. 解决对象幻觉问题:对象幻觉普遍存在,影响了 MLLM 的可靠性。为了解决这个问题,可以进行更细粒度的视觉和文本模态对齐,关注图像的局部特征和相应的文本描述。
  5. 实现参数高效的训练:目前的两种模态桥接方式仍属初步探索,需要更高效的训练方法来发挥有限计算资源下 MLLM 的潜力。
总之,MLLM 领域正处于快速发展阶段,未来将充满机遇和挑战。我们期待着能够看到更多全面的研究工作,以推动 MLLM 技术的突破和应用的广泛普及~


技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向
(如:小张-哈工大-对话系统)
即可申请加入自然语言处理/Pytorch等技术交流群

关于我们

MLNLP 社区是由国内外机器学习与自然语言处理学者联合构建的民间学术社区,目前已经发展为国内外知名的机器学习与自然语言处理社区,旨在促进机器学习,自然语言处理学术界、产业界和广大爱好者之间的进步。
社区可以为相关从业者的深造、就业及研究等方面提供开放交流平台。欢迎大家关注和加入我们。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
学习生成式大语言模型,东北大学自然语言处理实验室有一堂课《2023 大语言模型综合能力测评报告》出炉:以文心一言为代表的国内产品即将冲出重围南洋理工大学最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有中文版开源Llama 2同时有了语言、多模态大模型,完全可商用南洋理工最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有空巢日记摘要2006GitHub斩获2.2k星!多模态大语言模型首篇综述,论文列表实时更新费城凯利道(Kelly Drive),樱花街景LLM综述全新出炉:51页论文带你盘点LLM领域专业化技术清华大学:2023大语言模型综合性能评估报告给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练丨开源更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」如果退休了我会想做什么?单子可是长长的哦When RS Meets LLM:推荐系统如何从大语言模型中取长补短?面向应用视角的全面综述《虞美人 - 碧螺春》大型语言模型专场上线!四位AI新青年直播讲解MiniGPT-4、LLaVA、Gorilla以及大型语言模型Token危机腾讯AI Lab发布多模态指令调优语言模型,支持图像、视频等四种不同模态大语言模型综述全新升级版:85页、600+篇参考文献ACL 2023 |信息减加法:基于特征去噪和主题增强的多模态关系抽取从感知到理解-融合语言模型的多模态大模型研究达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力大模型竞争突然升级!亚马逊 CEO 亲自监督、组建新的核心技术团队,集中优势资源打造“最具野心”的大语言模型中科院发布多模态 ChatGPT,图片、语言、视频都可以 Chat ?中文多模态大模型力作剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态​中科大和腾讯发布首篇《多模态大语言模型综述》LLM in Medical Domain: 一文速览大语言模型在医学领域的应用大语言模型的多语言机器翻译能力分析一文速览大语言模型在分子领域中的探索大模型综述来了!一文带你理清全球AI巨头的大模型进化史BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」Emory Preview day (埃默里预览日)阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl国内首个医疗大语言模型问世!多模态打通诊疗全流程,别再叫我做题家大语言模型综述全新出炉:51页论文带你盘点LLM领域专业化技术InfoQ:大语言模型综合评测报告2023
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。