Redian新闻
>
​中科大和腾讯发布首篇《多模态大语言模型综述》

​中科大和腾讯发布首篇《多模态大语言模型综述》

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【多模态和Transformer】交流群

《多模态大语言模型综述》项目链接(实时更新最新论文,已获2.4K Stars):

https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
在CVer公众号后台回复:多模态LLM,即可下载本文综述PDF和项目
近来,多模态大语言模型(Multimodal Large Language Model,MLLM)受到广泛关注,成为一个新兴的研究热点。MLLM通常以大语言模型(Large Language Model,LLM)为基础,融入其它非文本的模态信息,完成各种多模态任务。相比于常规的多模态模型,MLLM涌现出一些令人惊叹的新能力,例如基于图片进行诗文创作和OCR-Free的数学推理等。这些强大的能力显示MLLM有望成为实现通用人工智能的一种途径。

来自中国科学技术大学和腾讯优图实验室的研究者们深入探讨了MLLM的研究进展并发表了该领域的首篇综述《A Survey on Multimodal Large Language Models》: 

论文链接:https://arxiv.org/abs/2306.13549

项目链接(实时更新最新论文,获2.4K Stars):

https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

我们将MLLM定义为“由LLM扩展而来的具有接收与推理多模态信息能力的模型”,该类模型相较于热门的单模态LLM具有以下的优势:

  • 更符合人类认知世界的习惯。人类具有多种感官来接受多种模态信息,这些信息通常是互为补充、协同作用的。因此,使用多模态信息一般可以更好地认知与完成任务。

  • 更加强大与用户友好的接口。通过支持多模态输入,用户可以通过更加灵活的方式输入与传达信息。

  • 更广泛的任务支持。LLM通常只能完成纯文本相关的任务,而MLLM通过多模态可以额外完成更多任务,如图片描述和视觉知识问答等。

该综述主要围绕MLLM的三个关键技术以及一个应用展开,包括:
  • 多模态指令微调(Multimodal Instruction Tuning,M-IT)

  • 多模态上下文学习(Multimodal In-Context Learning,M-ICL)

  • 多模态思维链(Multimodal Chain of Thought,M-CoT)

  • LLM辅助的视觉推理(LLM-Aided Visual Reasoning,LAVR)

前三项技术构成了MLLM的基础,而最后一个是以LLM为核心的多模态系统。三项技术作为LLM的代表性能力在NLP领域已有广泛研究,但扩展到多模态领域时会出现许多新的特点与挑战。LLM辅助的视觉推理系统涉及几种典型的设计思路,即将LLM作为控制器、决策器或语义修饰器。CVPR2023最佳论文Visual Programming [1]即采用了将LLM作为控制器的设计思路。本文将对前述的几个方面以及相关挑战做简单的概览,更丰富的内容请参考原文。

多模态指令微调 M-IT

指令(Instruction)指的是对任务的描述,多模态指令微调是一种通过指令格式的数据(Instruction-formatted data)来微调预训练的MLLM的技术。通过该技术,MLLM可以跟随新的指令泛化到未见过的任务上,提升zero-shot性能。多模态的指令格式如下所示:

图1.M-IT格式

多模态指令数据的基本形式可以概括为(指令,多模态输入,回答)三元组。指令的设计可以分为手工设计与GPT辅助设计这两种方式。前者指的是人工为每种任务设计一系列指令模板,比如对于传统的视觉问答任务,指令可以设计为“<image> What is the answer to the question? {question}”,其中和{question}(对应着图1中的<text>)为原有视觉问答任务中的图像和问题。另一种GPT辅助设计的方式是通过手工设计少量样例来Prompt GPT生成更丰富的指令。对于多模态指令微调,我们从数据、模态桥接(Modality Bridging)和评测三个方面对现有工作进行了总结,如下图所示:

图2.M-IT总结

多模态上下文学习 M-ICL

多模态上下文学习指的是给定少量样例作为Prompt输入,激发模型潜在的能力并规范化模型的输出。其样例如下图所示:

图3.M-CoT样例

目前以Flamingo[2]为代表的M-ICL相关的研究工作还比较少。LLM通常不需要专门的训练即可拥有ICL能力,但现阶段的MLLM还比较依赖训练,并且仍缺乏对样例选择和样例顺序等方面的深入研究。

多模态思维链 M-CoT

多模态思维链通过显示地逐步推理(给出中间的推理步骤)来获得多模态任务的答案。相比于直接输出答案,M-CoT在较为复杂的推理任务上能够取得更好的表现。我们从模态桥接(Modality Bridging)、学习范式、思维链配置以及生成模式这四个方面总结了当前的研究:

图4. M-CoT总结

目前M-CoT的研究也较少,仍处在初步探索阶段。

LLM辅助的视觉推理 LAVR

这类工作利用LLM强大的内嵌知识与能力以及其他工具,设计各种视觉推理系统。相比于传统视觉推理模型,这些工作具有以下的好的特性:(1)强大的零/少样本泛化能力。(2)具备新的能力。这些系统能够执行更加复杂的任务,如解读梗图的深层含义。(3)更好的互动性与可控性。我们从训练范式、LLM扮演的角色以及评测三个部分总结了当前的进展:

图5.LAVR总结

挑战和未来方

目前来看,MLLM的发展还处于起步阶段,无论是相关技术还是具体应用都还存在着许多挑战与可研究的问题,我们总结为以下几点:

现有MLLM的感知能力受限,导致获取的视觉信息不完整或者有误,并进一步使得后续的推理出错。这可能是因为现有模型在信息容量和计算负担之间的妥协造成的。

  • MLLM的推理链较为脆弱。表现为即使是做简单的多模态推理问题,模型有时仍会因为推理链条断裂导致输出错误答案。

  • MLLM的指令服从能力需要进一步提升。表现为在进行指令微调后,即使是较为简单的指令,部分MLLM仍然无法输出预期的答案。

  • 物体幻视问题普遍存在。表现为MLLM输出的回复与图片的内容不相符,出现了编造物体等现象,影响了MLLM的可靠性。

  • 高效参数训练。由于MLLM的模型容量很大,在计算资源受限的条件下,高效参数训练有望能够解锁更多MLLM的能力。

上述前四点问题在与本文同系列的论文(arxiv.org/abs/2306.13394)中有非常详细的评测和讨论,欢迎大家阅读。除了上述问题外,MLLM在具体的子方向上也都只进行了初步探索,比如M-ICL目前仍然缺乏对样本选取以及排序的深入研究。

更详细内容请阅读

论文链接:https://arxiv.org/abs/2306.13549

项目链接:https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models

在CVer公众号后台回复:多模态LLM,即可下载本文综述PDF和项目

[1] Gupta, Tanmay and Kembhavi, Aniruddha. Visual programming: Compositional visual reasoning without training. CVPR 2023

[2] Alayrac, Jean-Baptiste and Donahue, Jeff and Luc, Pauline and Miech, Antoine and Barr, Iain and Hasson, Yana and Lenc, Karel and Mensch, Arthur and Millican, Katherine and Reynolds, Malcolm and others. Flamingo: a visual language model for few-shot learning. NeurIPS 2019

点击进入—>【多模态和Transformer】交流群


最新CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


多模态和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-多模态或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如多模态或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
微软发布 Guidance 语言,用于控制大语言模型「AI专家」贾斯汀·卡塞尔:语言模型更像“鹦鹉学舌”,下一步人工智能浪潮是多模态AI南洋理工大学最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有大语言模型综述全新升级版:85页、600+篇参考文献BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」InfoQ:大语言模型综合评测报告2023国内首个医疗大语言模型问世!多模态打通诊疗全流程,别再叫我做题家Stability AI进军编程领域,发布首个用于代码生成的大语言模型《爱的月光》&《初见》查尔斯加冕和其他When RS Meets LLM:推荐系统如何从大语言模型中取长补短?面向应用视角的全面综述剑桥、腾讯AI Lab等提出大语言模型PandaGPT:一个模型统一六种模态《2023 大语言模型综合能力测评报告》出炉:以文心一言为代表的国内产品即将冲出重围给大语言模型“开个眼”,看图说话性能超CLIP!斯坦福等新方法无需多模态预训练丨开源义工随笔:前传好人若蓝中科大&字节提出UniDoc:统一的面向文字场景的多模态大模型GitHub斩获2.2k星!多模态大语言模型首篇综述,论文列表实时更新规则制定者与普通劳动者阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」咀外文嚼汉字(236)“加冕”、“戴冠”,coronation训练成本不到1000元,直降90%!NUS、清华发布VPGTrans:轻松定制类GPT-4多模态大模型研0防“菜”指南——《如何做好文献综述》一个方法仅用2月就发了篇3+综述SCI?!中文版开源Llama 2同时有了语言、多模态大模型,完全可商用大型语言模型专场上线!四位AI新青年直播讲解MiniGPT-4、LLaVA、Gorilla以及大型语言模型Token危机大语言模型综述全新出炉:51页论文带你盘点LLM领域专业化技术代码大模型综述:中科院和MSRA调研27个LLMs,并给出5个有趣挑战腾讯回应考生喊话马化腾;苏宁易购首批1000家门店入驻抖音生活服务;上海AI实验室发布“书生·浦语”大语言模型……南洋理工最新视觉语言模型综述:预训练、迁移学习和知识蒸馏啥都有腾讯AI Lab发布多模态指令调优语言模型,支持图像、视频等四种不同模态多模态大语言模型综述来啦!一文带你理清多模态关键技术从感知到理解-融合语言模型的多模态大模型研究达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力中科院发布多模态 ChatGPT,图片、语言、视频都可以 Chat ?中文多模态大模型力作清华大学:2023大语言模型综合性能评估报告
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。