Redian新闻
>
GitHub斩获2.2k星!多模态大语言模型首篇综述,论文列表实时更新

GitHub斩获2.2k星!多模态大语言模型首篇综述,论文列表实时更新

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】一篇综述、一个仓库,速通多模态大语言模型。


近来,多模态大语言模型(Multimodal Large Language Model,MLLM)受到广泛关注,成为一个新兴的研究热点。


MLLM通常以大语言模型(Large Language Model,LLM)为基础,融入其它非文本的模态信息,完成各种多模态任务。



相比于常规的多模态模型,MLLM涌现出一些令人惊叹的新能力,例如基于图片进行诗文创作和OCR-Free的数学推理等。这些强大的能力显示MLLM有望成为实现通用人工智能的一种途径。


为此,来自中科大、腾讯等机构的研究人员深入探讨了MLLM的研究进展并发表了该领域的首篇综述《A Survey on Multimodal Large Language Models》:


论文链接:https://arxiv.org/pdf/2306.13549.pdf


项目链接(实时更新最新论文):https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models


研究人员将MLLM定义为「由LLM扩展而来的具有接收与推理多模态信息能力的模型」,该类模型相较于热门的单模态LLM具有以下的优势:


1. 更符合人类认知世界的习惯。人类具有多种感官来接受多种模态信息,这些信息通常是互为补充、协同作用的。因此,使用多模态信息一般可以更好地认知与完成任务。


2. 更加强大与用户友好的接口。通过支持多模态输入,用户可以通过更加灵活的方式输入与传达信息。


3. 更广泛的任务支持。LLM通常只能完成纯文本相关的任务,而MLLM通过多模态可以额外完成更多任务,如图片描述和视觉知识问答等。


该综述主要围绕MLLM的三个关键技术以及一个应用展开,包括:


1. 多模态指令微调(Multimodal Instruction Tuning,M-IT)


2. 多模态上下文学习(Multimodal In-Context Learning,M-ICL)


3. 多模态思维链(Multimodal Chain of Thought,M-CoT)


4. LLM辅助的视觉推理(LLM-Aided Visual Reasoning,LAVR)


前三项技术构成了MLLM的基础,而最后一个是以LLM为核心的多模态系统。


三项技术作为LLM的代表性能力在NLP领域已有广泛研究,但扩展到多模态领域时会出现许多新的特点与挑战。


LLM辅助的视觉推理系统涉及几种典型的设计思路,即将LLM作为控制器、决策器或语义修饰器。


CVPR 2023最佳论文Visual Programming [1]即采用了将LLM作为控制器的设计思路。本文将对前述的几个方面以及相关挑战做简单的概览,更丰富的内容请参考原文。


多模态指令微调 M-IT


指令(Instruction)指的是对任务的描述,多模态指令微调是一种通过指令格式的数据(Instruction-formatted data)来微调预训练的MLLM的技术。


通过该技术,MLLM可以跟随新的指令泛化到未见过的任务上,提升zero-shot性能。多模态的指令格式如下所示:


图1.M-IT格式


多模态指令数据的基本形式可以概括为(指令,多模态输入,回答)三元组。指令的设计可以分为手工设计与GPT辅助设计这两种方式。


前者指的是人工为每种任务设计一系列指令模板,比如对于传统的视觉问答任务,指令可以设计为「<image> What is the answer to the question? {question}」,其中<image>和{question}(对应着图1中的<text>)为原有视觉问答任务中的图像和问题。


另一种GPT辅助设计的方式是通过手工设计少量样例来Prompt GPT生成更丰富的指令。


对于多模态指令微调,研究人员从数据、模态桥接(Modality Bridging)和评测三个方面对现有工作进行了总结,如下图所示:


图2.M-IT总结


多模态上下文学习 M-ICL


多模态上下文学习指的是给定少量样例作为Prompt输入,激发模型潜在的能力并规范化模型的输出。其样例如下图所示:


图3.M-CoT样例


目前以Flamingo[2]为代表的M-ICL相关的研究工作还比较少。


LLM通常不需要专门的训练即可拥有ICL能力,但现阶段的MLLM还比较依赖训练,并且仍缺乏对样例选择和样例顺序等方面的深入研究。


多模态思维链 M-CoT


多模态思维链通过显示地逐步推理(给出中间的推理步骤)来获得多模态任务的答案。于直接输出答案,M-CoT在较为复杂的推理任务上能够取得更好的表现。


研究人员从模态桥接(Modality Bridging)、学习范式、思维链配置以及生成模式这四个方面总结了当前的研究:


图4. M-CoT总结


目前M-CoT的研究也较少,仍处在初步探索阶段。


LLM辅助的视觉推理 LAVR


这类工作利用LLM强大的内嵌知识与能力以及其他工具,设计各种视觉推理系统。


相比于传统视觉推理模型,这些工作具有以下的好的特性:

(1)强大的零/少样本泛化能力

(2)具备新的能力,这些系统能够执行更加复杂的任务,如解读梗图的深层含义

(3)更好的互动性与可控性


研究人员从训练范式、LLM扮演的角色以及评测三个部分总结了当前的进展:


图5.LAVR总结


挑战和未来方向


目前来看,MLLM的发展还处于起步阶段,无论是相关技术还是具体应用都还存在着许多挑战与可研究的问题,可以总结为以下几点:


1. 现有MLLM的感知能力受限,导致获取的视觉信息不完整或者有误,并进一步使得后续的推理出错。这可能是因为现有模型在信息容量和计算负担之间的妥协造成的。


2. MLLM的推理链较为脆弱。表现为即使是做简单的多模态推理问题,模型有时仍会因为推理链条断裂导致输出错误答案。


3. MLLM的指令服从能力需要进一步提升。表现为在进行指令微调后,即使是较为简单的指令,部分MLLM仍然无法输出预期的答案。


4. 物体幻视问题普遍存在。表现为MLLM输出的回复与图片的内容不相符,出现了编造物体等现象,影响了MLLM的可靠性。


5. 高效参数训练。由于MLLM的模型容量很大,在计算资源受限的条件下,高效参数训练有望能够解锁更多MLLM的能力。


上述前四点问题在与本文同系列的论文(https://arxiv.org/pdf/2306.13394.pdf)中有非常详细的评测和讨论,欢迎大家阅读。


除了上述问题外,MLLM在具体的子方向上也都只进行了初步探索,比如M-ICL目前仍然缺乏对样本选取以及排序的深入研究。


参考资料:
[1] Gupta, Tanmay and Kembhavi, Aniruddha. Visual programming: Compositional visual reasoning without training. CVPR 2023 
[2] Alayrac, Jean-Baptiste and Donahue, Jeff and Luc, Pauline and Miech, Antoine and Barr, Iain and Hasson, Yana and Lenc, Karel and Mensch, Arthur and Millican, Katherine and Reynolds, Malcolm and others. Flamingo: a visual language model for few-shot learning. NeurIPS 2019




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练丨开源学习生成式大语言模型,东北大学自然语言处理实验室有一堂课智源Emu开源!超越DeepMind,刷新8项SOTA,首个「多模态-to-多模态」全能高手大语言模型综述全新升级版:85页、600+篇参考文献剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态5064 血壮山河之武汉会战 鏖战幕府山 33首篇综述!Open Vocabulary学习综述:全面调研核磁共振仪价格暴跌10倍,只因国产取得突破,欧美的好日子到头了「AI专家」贾斯汀·卡塞尔:语言模型更像“鹦鹉学舌”,下一步人工智能浪潮是多模态AI两首合唱:《赤伶》&《是否》大型语言模型专场上线!四位AI新青年直播讲解MiniGPT-4、LLaVA、Gorilla以及大型语言模型Token危机国内首个医疗大语言模型问世!多模态打通诊疗全流程,别再叫我做题家大语言模型的多语言机器翻译能力分析BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统从感知到理解-融合语言模型的多模态大模型研究​中科大和腾讯发布首篇《多模态大语言模型综述》开源多模态大模型哪家强?TOP12榜单来了,GitHub揽获2.2k+星大语言模型综述全新出炉:51页论文带你盘点LLM领域专业化技术When RS Meets LLM:推荐系统如何从大语言模型中取长补短?面向应用视角的全面综述中文版开源Llama 2同时有了语言、多模态大模型,完全可商用腾讯AI Lab发布多模态指令调优语言模型,支持图像、视频等四种不同模态达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力大大是条大灰狼微软发布 Guidance 语言,用于控制大语言模型MetaGPT爆火出圈!2美元就能当老板,GitHub狂揽11.2k星,AI智能体「多面手」诞生字节李航等发表最新《可信赖的大型语言模型》综述,提出七大维度中科院发布多模态 ChatGPT,图片、语言、视频都可以 Chat ?中文多模态大模型力作美国人民银行大语言模型会偷懒?新研究:上下文太长,模型会略过中间不看 | 本周论文推荐多模态大语言模型综述来啦!一文带你理清多模态关键技术爆火DragGAN正式开源,GitHub近18k星!清华校友带GAN逆袭,大象一秒P转身650亿参数,训练飙升38%!LLaMA基础大模型复刻最佳实践开源,GitHub已获30k星
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。