中科大和腾讯发布首篇《多模态大语言模型综述》
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
AI/CV重磅干货,第一时间送达
《多模态大语言模型综述》项目链接(实时更新最新论文,已获2.4K Stars):
来自中国科学技术大学和腾讯优图实验室的研究者们深入探讨了MLLM的研究进展并发表了该领域的首篇综述《A Survey on Multimodal Large Language Models》:
论文链接:https://arxiv.org/abs/2306.13549
项目链接(实时更新最新论文,已获2.4K Stars):
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
我们将MLLM定义为“由LLM扩展而来的具有接收与推理多模态信息能力的模型”,该类模型相较于热门的单模态LLM具有以下的优势:
更符合人类认知世界的习惯。人类具有多种感官来接受多种模态信息,这些信息通常是互为补充、协同作用的。因此,使用多模态信息一般可以更好地认知与完成任务。
更加强大与用户友好的接口。通过支持多模态输入,用户可以通过更加灵活的方式输入与传达信息。
更广泛的任务支持。LLM通常只能完成纯文本相关的任务,而MLLM通过多模态可以额外完成更多任务,如图片描述和视觉知识问答等。
多模态指令微调(Multimodal Instruction Tuning,M-IT)
多模态上下文学习(Multimodal In-Context Learning,M-ICL)
多模态思维链(Multimodal Chain of Thought,M-CoT)
LLM辅助的视觉推理(LLM-Aided Visual Reasoning,LAVR)
多模态指令微调 M-IT
指令(Instruction)指的是对任务的描述,多模态指令微调是一种通过指令格式的数据(Instruction-formatted data)来微调预训练的MLLM的技术。通过该技术,MLLM可以跟随新的指令泛化到未见过的任务上,提升zero-shot性能。多模态的指令格式如下所示:
图1.M-IT格式
多模态指令数据的基本形式可以概括为(指令,多模态输入,回答)三元组。指令的设计可以分为手工设计与GPT辅助设计这两种方式。前者指的是人工为每种任务设计一系列指令模板,比如对于传统的视觉问答任务,指令可以设计为“<image> What is the answer to the question? {question}”,其中和{question}(对应着图1中的<text>)为原有视觉问答任务中的图像和问题。另一种GPT辅助设计的方式是通过手工设计少量样例来Prompt GPT生成更丰富的指令。对于多模态指令微调,我们从数据、模态桥接(Modality Bridging)和评测三个方面对现有工作进行了总结,如下图所示:
图2.M-IT总结
多模态上下文学习 M-ICL
多模态上下文学习指的是给定少量样例作为Prompt输入,激发模型潜在的能力并规范化模型的输出。其样例如下图所示:
图3.M-CoT样例
目前以Flamingo[2]为代表的M-ICL相关的研究工作还比较少。LLM通常不需要专门的训练即可拥有ICL能力,但现阶段的MLLM还比较依赖训练,并且仍缺乏对样例选择和样例顺序等方面的深入研究。
多模态思维链 M-CoT
多模态思维链通过显示地逐步推理(给出中间的推理步骤)来获得多模态任务的答案。相比于直接输出答案,M-CoT在较为复杂的推理任务上能够取得更好的表现。我们从模态桥接(Modality Bridging)、学习范式、思维链配置以及生成模式这四个方面总结了当前的研究:
图4. M-CoT总结
目前M-CoT的研究也较少,仍处在初步探索阶段。
LLM辅助的视觉推理 LAVR
这类工作利用LLM强大的内嵌知识与能力以及其他工具,设计各种视觉推理系统。相比于传统视觉推理模型,这些工作具有以下的好的特性:(1)强大的零/少样本泛化能力。(2)具备新的能力。这些系统能够执行更加复杂的任务,如解读梗图的深层含义。(3)更好的互动性与可控性。我们从训练范式、LLM扮演的角色以及评测三个部分总结了当前的进展:
图5.LAVR总结
挑战和未来方向
目前来看,MLLM的发展还处于起步阶段,无论是相关技术还是具体应用都还存在着许多挑战与可研究的问题,我们总结为以下几点:
现有MLLM的感知能力受限,导致获取的视觉信息不完整或者有误,并进一步使得后续的推理出错。这可能是因为现有模型在信息容量和计算负担之间的妥协造成的。
MLLM的推理链较为脆弱。表现为即使是做简单的多模态推理问题,模型有时仍会因为推理链条断裂导致输出错误答案。
MLLM的指令服从能力需要进一步提升。表现为在进行指令微调后,即使是较为简单的指令,部分MLLM仍然无法输出预期的答案。
物体幻视问题普遍存在。表现为MLLM输出的回复与图片的内容不相符,出现了编造物体等现象,影响了MLLM的可靠性。
高效参数训练。由于MLLM的模型容量很大,在计算资源受限的条件下,高效参数训练有望能够解锁更多MLLM的能力。
上述前四点问题在与本文同系列的论文(arxiv.org/abs/2306.13394)中有非常详细的评测和讨论,欢迎大家阅读。除了上述问题外,MLLM在具体的子方向上也都只进行了初步探索,比如M-ICL目前仍然缺乏对样本选取以及排序的深入研究。
更详细内容请阅读
论文链接:https://arxiv.org/abs/2306.13549
项目链接:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
[1] Gupta, Tanmay and Kembhavi, Aniruddha. Visual programming: Compositional visual reasoning without training. CVPR 2023
最新CVPR 2023论文和代码下载
后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF
多模态和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-多模态或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如多模态或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!
▲扫码进星球
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
微信扫码关注该文公众号作者