Redian新闻
>
追赶GPT-4的多模态大模型对比分析

追赶GPT-4的多模态大模型对比分析

公众号新闻

©作者 | 胡安文
单位 | 中国人民大学-AI·M3实验室
研究方向 | 多模态

引言

今年 3 月 14 日,OpenAI 发布了 GPT-4 多模态大模型,但是仅公开了文本能力的接口,迟迟未向公众开放体验多模态能力。学术界和工业界立刻跟进研究并开源多模态大模型的相关工作。目前热度最高的三个同期工作依次是 LLaVA [1]、MiniGPT-4 [2] 和 mPLUG-Owl [3]。本文意在分析这三个工作,探讨“类 GPT-4 模型”的研究方向。

援引自 mPLUG-Owl,这三个工作的主要区别如图 1 所示,总体而言,模型结构和训练策略方面大同小异,主要体现在 LLaVA 和 MiniGPT4 都冻住基础视觉编码器,mPLUG-Owl 将其放开,得到了更好的视觉文本跨模态理解效果;在实验方面 mPLUG-Owl 首次构建并开源视觉相关的指令理解测试集 OwlEval,通过人工评测对比了已有的模型,包括 BLIP2 [4]、LLaVA、MiniGPT4 以及系统类工作 MM-REACT [5]

▲ 图1: mPLUG-Owl vs MiniGPT4 vs LLaVA




LLaVA

自然语言处理领域的 instruction tuning 可以帮助 LLM 理解多样化的指令并生成比较详细的回答。LLaVA 首次尝试构建图文相关的 instruction tuning 数据集来将 LLM 拓展到多模态领域。
具体来说,基于 MSCOCO 数据集,每张图有 5 个较简短的 ground truth 描述和 object bbox(包括类别和位置)序列,将这些作为 text-only GPT4 的输入,通过 prompt 的形式让 GPT4 生成 3 种类型的文本:1)关于图像中对象的对话;2)针对图片的详细描述;3)和图片相关的复杂的推理过程。
注意,这三种类型都是 GPT4 在不看到图片的情况下根据输入的文本生成的,为了让 GPT4 理解这些意图,作者额外人工标注了一些样例用于 in-context learning。

模型结构:采用 CLIP 的 ViT-L/14 [6] 作为视觉编码器,采用 LLaMA [7] 作为文本解码器,通过一个简单的线性映射层将视觉编码器的输出映射到文本解码器的词嵌入空间,如图 2。

▲ 图2: LLaVA模型结构

模型训练:
  • 第一阶段:跨模态对齐预训练,从 CC3M 中通过限制 caption 中名词词组的最小频率过滤出595k图文数据,冻住视觉编码器和文本解码器,只训练线性映射层;

  • 第二阶段:指令微调,一版针对多模态聊天机器人场景,采用自己构建的158k多模态指令数据集进行微调;另一版针对 Science QA 数据集进行微调。微调阶段,线性层和文本解码器(LLaMA)都会进行优化

实验分析:
  • 消融实验:在 30 个 MSCOCO val 的图片上,每张图片设计 3 个问题(对话、详细描述、推理),参考 Vicuna [8],用 GPT4 对 LLaVA 和 text-only GPT4 的回复进行对比打分,报告相对 text-only GPT4 的相对值。

  • SOTA 对比:在Science QA上微调的版本实现了该评测集上的SOTA效果。



MiniGPT-4

Mini-GPT4 和 LLaVA 类似,也发现了多模态指令数据对于模型在多模态开放式场景中表现的重要性

模型结构:采用 BLIP2 的 ViT 和 Q-Former 作为视觉编码器,采用 LLaMA 经过自然语言指令微调后的版本 Vicuna 作为文本解码器,也通过一个线性映射层将视觉特征映射到文本表示空间,如图 3。

▲ 图3: MiniGPT-4模型结构

模型训练:

第一阶段:目标通过大量图文对数据学习视觉和语言的关系以及知识,采用 CC+SBU+LAION 数据集,冻住视觉编码器和文本解码器,只训练线性映射层;
第二阶段:作者发现只有第一阶段的预训练并不能让模型生成流畅且丰富的符合用户需求的文本,为了缓解这个问题,本文也额外利用 ChatGPT 构建一个多模态微调数据集
具体来说,1)其首先用阶段 1 的模型对 5k 个 CC 的图片进行描述,如果长度小于 80,通过 prompt 让模型继续描述,将多步生成的结果合并为一个描述;2)通过 ChatGPT 对于构建的长描述进行改写,移除重复等问题;3)人工验证以及优化描述质量。最后得到 3.5k 图文对,用于第二阶段的微调。第二阶段同样只训练线性映射层。

实验分析:

主要进行效果展示,没有定量的实验分析。




mPLUG-Owl

mPLUG-Owl 是阿里巴巴达摩院 mPLUG 系列的最新工作,继续延续 mPLUG 系列的模块化训练思想,将 LLM 迁移为一个多模态大模型。此外,Owl 第一次针对视觉相关的指令评测提出一个全面的测试集 OwlEval,通过人工评测对比了已有工作,包括 LLaVA 和 MiniGPT-4。该评测集以及人工打分的结果都进行了开源,助力后续多模态开放式回答的公平对比。

模型结构采用 CLIP ViT-L/14 作为“视觉基础模块”,采用 LLaMA 初始化的结构作为文本解码器,采用类似 Flamingo 的 Perceiver Resampler 结构对视觉特征进行重组(名为“视觉摘要模块”),如图 4。

▲ 图4: mPLUG-Owl模型结构
模型训练
第一阶段:主要目的也是先学习视觉和语言模态间的对齐。不同于前两个工作,Owl 提出冻住视觉基础模块会限制模型关联视觉知识和文本知识的能力因此 Owl 在第一阶段只冻住 LLM 的参数,采用 LAION-400M,COYO-700M,CC 以及 MSCOCO 训练视觉基础模块和视觉摘要模块
第二阶段:延续 mPLUG [9] 和 mPLUG-2 [10]不同模态混合训练对彼此有收益的发现,Owl 在第二阶段的指令微调训练中也同时采用了纯文本的指令数据(102k from Alpaca+90k from Vicuna+50k from Baize)和多模态的指令数据(150k from LLaVA)。
作者通过详细的消融实验验证了引入纯文本指令微调在指令理解等方面带来的收益。第二阶段中视觉基础模块、视觉摘要模块和原始 LLM 的参数都被冻住,参考 LoRA,只在 LLM 引入少量参数的 adapter 结构用于指令微调
实验分析

除了训练策略,mPLUG-Owl 另一个重要的贡献在于通过构建 OwlEval 评测集,对比了目前将 LLM 用于多模态指令回答的 SOTA 模型的效果。和 NLP 领域一样,在指令理解场景中,模型的回答由于开放性很难进行评估。

SOTA 对比:本文初次尝试构建了一个基于 50 张图片(21 张来自MiniGPT-4, 13 张来自 MM-REACT,9 张来自 BLIP-2, 3 来自 GPT-4 以及 4 张自收集)的 82 个视觉相关的指令回答评测集 OwlEval。由于目前并没有合适的自动化指标,本文参考 Self-Intruct [11] 对模型的回复进行人工评测,打分规则为:A=“正确且令人满意”;B=“有一些不完美,但可以接受”;C=“理解了指令但是回复存在明显错误”;D=“完全不相关或不正确的回复”。
实验证明 Owl 在视觉相关的指令回复任务上优于已有的 OpenFlamingo、BLIP2、LLaVA、MiniGPT4 以及集成了 Microsoft 多个 API 的 MM-REACT。作者对这些人工评测的打分同样进行了开源以方便其他研究人员检验人工评测的客观性。
多维度能力对比:多模态指令回复任务中牵扯到多种能力,例如指令理解、视觉理解、图片上文字理解以及推理等。为了细粒度地探究模型在不同能力上的水平,本文进一步定义了多模态场景中的 6 种主要的能力,并对 OwlEval 每个测试指令人工标注了相关的能力要求以及模型的回复中体现了哪些能力。

在该部分实验,作者既进行了 Owl 的消融实验,验证了训练策略和多模态指令微调数据的有效性,也和上一个实验中表现最佳的 baseline——MiniGPT4 进行了对比,结果显示 Owl 在各个能力方面都优于 MiniGPT4。



总结

mPLUG-Owl, MiniGPT4, LLaVA 三篇工作的目标都是希望在已有 LLM 的基础上,通过较少的训练代价达到 GPT4 技术报告中所展示多模态理解效果。他们都证明第一阶段的图文预训练对于建立图文之间的联系十分关键,第二阶段的多模态指令微调对于模型理解指令以及生成详细的回复十分必要。三个工作都通过样例展示了不错的效果,mPLUG-Owl 进一步构建一个公平比较的多模态指令评测集,虽然还不够完善(例如测试指令数量还不够多,依赖人工评测等),但也是为了该领域标准化发展的一个探索和尝试。


参考文献

[1] H. Liu, C. Li, Q. Wu, and Y. J. Lee. Visual instruction tuning. CoRR, abs/2304.08485, 2023.
[2] D. Zhu, J. Chen, X. Shen, X. Li, and M. Elhoseiny. Minigpt-4: Enhancing vision-language under- standing with advanced large language models, 2023a.
[3] Qinghao Ye, Haiyang Xu, Guohai Xu, Jiabo Ye, Ming Yan, Yiyang Zhou, Junyang Wang, Anwen Hu, Pengcheng Shi, Yaya Shi, Chenliang Li, Yuanhong Xu, Hehong Chen, Junfeng Tian, Qian Qi, Ji Zhang, Fei Huang: mPLUG-Owl: Modularization Empowers Large Language Models with Multimodality. CoRR abs/2304.14178 (2023)
[4] J. Li, D. Li, S. Savarese, and S. C. H. Hoi. BLIP-2: bootstrapping language-image pre-training with frozen image encoders and large language models. CoRR, abs/2301.12597, 2023.
[5] “MM-REACT: Prompting ChatGPT for Multimodal Reasoning and Action.” (2023).
[6] Alec Radford, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever: Learning Transferable Visual Models From Natural Language Supervision. ICML 2021: 8748-8763
[7] H. Touvron, T. Lavril, G. Izacard, X. Martinet, M. Lachaux, T. Lacroix, B. Rozière, N. Goyal, E. Hambro, F. Azhar, A. Rodriguez, A. Joulin, E. Grave, and G. Lample. Llama: Open and efficient foundation language models. CoRR, abs/2302.13971, 2023.

[8] Vicuna. Vicuna: An open chatbot impressing gpt-4. https://github.com/lm-sys/FastChat, 2023.

[9] C. Li, H. Xu, J. Tian, W. Wang, M. Yan, B. Bi, J. Ye, H. Chen, G. Xu, Z. Cao, J. Zhang, S. Huang, F. Huang, J. Zhou, and L. Si. mplug: Effective and efficient vision-language learning by cross- modal skip-connections. In EMNLP, pages 7241–7259. Association for Computational Linguis- tics, 2022.

[10] H. Xu, Q. Ye, M. Yan, Y. Shi, J. Ye, Y. Xu, C. Li, B. Bi, Q. Qian, W. Wang, G. Xu, J. Zhang, S. Huang, F. Huang, and J. Zhou. mplug-2: A modularized multi-modal foundation model across text, image and video. CoRR, abs/2302.00402, 2023b.

[11] Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, Daniel Khashabi, Hannaneh Hajishirzi: Self-Instruct: Aligning Language Model with Self Generated Instructions. CoRR abs/2212.10560 (2022)


更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
开源多模态大模型哪家强?TOP12榜单来了,GitHub揽获2.2k+星多模态大模型的下一站在哪里?多模态大模型向前,机器人领域的新机遇在哪里?多模态大语言模型综述来啦!一文带你理清多模态关键技术56岁的梁朝伟终于升级当爸,生孩子的却不是妻子刘嘉玲?VPGTrans: 10%的成本定制你自己的类GPT-4多模态大模型独家 | 多模态大模型初创企业“智子引擎”,近日完成千万元天使轮融资理解指向,说出坐标,Shikra开启多模态大模型参考对话新维度硬核课程全网首发!高级人工智能:多模态大模型LLM与AIGC前沿技术实战LaVIN-lite:单张消费级显卡微调多模态大模型左脑管语言,右脑管诅咒专访生数科技唐家渝:清华系团队拿到近亿融资,用Transformer来做多模态大模型清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳训练开销骤减,10%成本定制专属类GPT-4多模态大模型360正式发布自研大模型,周鸿祎:国产大模型追赶GPT4的速度远超想象GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?中山大学HCP实验室新突破:用因果范式再升级多模态大模型多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构李志飞:关于GPT-4的八点观察,多模态大模型竞赛开始达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力CVPR 2023 | 中山大学HCP实验室新突破:用因果范式再升级多模态大模型威大哥大等联合发文!最新多模态大模型LLaVA问世,水平直逼GPT-4GPT-4刷屏,这家中国AI企业多模态大模型已落地应用多年,新版本内测了(可申请)用空气炸锅做色香味俱佳又健康少油的烧茄子GPT-4震撼发布:多模态大模型,升级ChatGPT和必应,开放API,太太太强了!在线可玩:阿里开源多模态大模型mPLUG-Owl,电影问答、梗图理解、多轮聊天……中国十大悲剧之《团圆之后》。。。。独家 | 多模态大模型初创企业「智子引擎」,近日完成千万元天使轮融资专访生数科技唐家渝:清华系团队拿到上亿融资,用Transformer来做多模态大模型融资千万,结盟软通动力,人大多模态大模型元乘象正在圈地大B市场|甲子光年训练成本不到1000元,直降90%!NUS、清华发布VPGTrans:轻松定制类GPT-4多模态大模型SVB 银行亏的钱其实是被地主赚走了阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl中科院发布多模态 ChatGPT,图片、语言、视频都可以 Chat ?中文多模态大模型力作BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。