多模态大语言模型综述来啦!一文带你理清多模态关键技术
A Survey on Multimodal Large Language Models
https://arxiv.org/abs/2306.13549
https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
论文速览
多模态指令调优(Multimodal Instruction Tuning)
数据方面,研究人员通常通过改编现有基准数据集或进行自我指导来获取适用于多模态指令调优的数据集。 模型方面,一种常见的方法是将外部模态信息注入到 LLM 中,并将其作为强大的推理器。相关工作可以直接对齐外部嵌入和 LLM,也可以借助专家模型将外部模态转化为 LLM 可接受的自然语言。这些工作将 LLM 转化为多模态聊天机器人和多模态通用任务求解器。
多模态上下文学习(Multimodal In-Context Learning)
与传统的监督学习范式通过大量数据学习隐含模式不同,ICL 的核心在于通过类比学习。在 ICL 的设置中,LLM 通过少量示例和可选指令进行学习,并能够在新问题上进行推广,以实现少样本学习并解决复杂且未见过的任务。 ICL 通常以无需训练的方式实,因此可以灵活地集成到不同的框架中的推理阶段。与 ICL 密切相关的技术是指令调优,经过实证验证指令调优能够增强 ICL 的能力。
解决各种视觉推理任务, 教导LLM使用外部工具。
多模态思维链(Multimodal Chain of Thought)
LLM 辅助视觉推理(LLM-Aided Visual Reasoning)
强大的泛化能力。这些系统通过大规模预训练学习到丰富的开放世界知识,能够在零/小样本情况下轻松推广到未见过的对象或概念,具有显著的性能。 新兴的能力。在 LLM 的强大推理能力和丰富知识的辅助下,这些系统能够执行复杂的任务。例如,给定一张图片,MM-REACT 能够解释其中的意义,比如解释为什么一个梗很有趣。 更好的互动性和控制性。传统模型通常只允许有限的控制机制,并且通常需要昂贵的策划数据集。相比之下,基于 LLM 的系统具有在用户友好界面上进行精细控制的能力(例如点击和自然语言查询)。
小结
挑战与未来方向
提升感知能力:目前的 MLLM 在感知能力方面受限,可能导致获取的视觉信息不完整或错误。为了解决这个问题,可以考虑引入大型视觉基础模型如 SAM,以更高效地压缩视觉信息。 加强推理能力:MLLM 的推理链可能较为脆弱。在某些情况下,即使 MLLM 能够计算出正确的结果,但推理过程中仍可能出现错误。因此,有必要研究改进多模态推理的方法。 提升指令跟随能力:部分 MLLM 在明确的指令下仍无法生成预期的答案,这需要指令调优覆盖更多任务以提高泛化能力。 解决对象幻觉问题:对象幻觉普遍存在,影响了 MLLM 的可靠性。为了解决这个问题,可以进行更细粒度的视觉和文本模态对齐,关注图像的局部特征和相应的文本描述。 实现参数高效的训练:目前的两种模态桥接方式仍属初步探索,需要更高效的训练方法来发挥有限计算资源下 MLLM 的潜力。
扫描二维码添加小助手微信
关于我们
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章