导读
以GPT4为代表的GPT模型已经引起了广泛的关注。本文是阿里达摩院提出的多模态GPT的模型:mPLUG-Owl,基于mPLUG模块化的多模态大语言模型。它不仅能理解推理文本的内容,还可以理解视觉信息,并且具备优秀的跨模态对齐能力。
论文:https://arxiv.org/abs/2304.14178
代码:https://github.com/X-PLUG/mPLUG-Owl
DEMO: https://huggingface.co/spaces/MAGAer13/mPLUG-Owl该研究一个多模态大模型mPLUG-Owl,并提出了一种新的模块化训练多模态大模型的方法,这对于研究多模态模型在视觉相关任务上的能力非常重要。此外,该论文还提出了测评集OwlEval,以便测试这些模型的表现。更为重要的是,作者开源了模型代码、demo代码、训练代码以及模型权重文件,仅需一张RTX 3090即可进行运行。本文提出的 mPLUG-Owl 模型是一个多模态大语言模型,其整体架构如上图所示。模型包括三个主要模块:视觉基础模型、视觉抽象模块和预训练语言模型。其中,视觉基础模型用于提取图像特征,视觉抽象模块则将这些细粒度的特征概括为少量可学习的 Token,从而实现对视觉信息的高效建模。生成的视觉 Token 与文本查询一起输入到预训练语言模型中,以生成相应的回复。更值得注意的是,是本文采用的训练方式。如上图所示,目前存在三种训练端到端的多模态LLM模型的训练方式:以MiniGPT4为代表的冻结视觉语言模型来微调有限的参数、以Kosmos-1为代表的仅训练语言模块、以LLaVA为代表的在指令微调(instruction tuning)阶段冻结视觉模块。而mPLUG-Owl克服了这些限制。首先 mPLUG-Owl 模型采用了多模态数据来训练视觉模块,并在训练过程中冻结语言模块。这种方式可以有效地将视觉特征与语言特征贴合,从而提高模型对多模态数据的理解和处理能力。在指令微调阶段,该模型采用了多模态和单模态数据联合调整语言模块的 LoRA 参数,同时冻结视觉模块。这种方式使得模型可以学习多样化的单模态和多模态指令,并具备单模态和多模态多轮对话的能力。在后续的消融实验中也证明了这一点。本研究在构建的多模态测评集 OwlEval 上对 mPLUG-Owl 进行了人工评估,并将评价结果分为四个等级 A-D,代表对应的生成质量依次递减。如下图所示,mPLUG-Owl 取得了最佳的结果,这表明该模型在多模态对话生成任务上表现出了较好的性能。其中,A-D代表了质量从好到差。为了探究训练策略和指令数据的使用对模型结果的影响,本研究还进行了消融实验。通过消融实验,我们发现,采用多模态预训练、文本指令训练和多模态指令训练可以显著提高模型在多模态对话生成任务上的性能。该模型提供了在线demo,可用于多种多模态任务,例如知识密集型QA(Knowledge-intensive QA)多轮对话(Multi-turn
Conversation),理解笑话(Joke
Comprehension):值得注意的是在训练中,mPLUG-Owl并未见过多图和多语言的数据,但是mPLUG-Owl仍然能正确理解不同语言的输入,和多张图片之间的逻辑关系。该研究所提出的 mPLUG-Owl 模型对于多模态对话生成技术的发展具有积极的推动作用。这种多模态的对话生成能力可以为对话系统的应用场景提供更多的可能性,例如基于视觉场景的对话助手、智能家居控制等。
首个中文医学知识LLM:真正的赛华佗—华驼(HuaTuo)
2023 年 5 月 27-28 日,GOTC 2023 全球开源技术峰会将在上海张江科学会堂隆重举行。为期 2 天的开源行业盛会,将以行业展览、主题发言、特别论坛、分论坛、快闪演讲的形式来诠释此次大会主题 ——“Open Source, Into the Future”。与会者将一起探讨元宇宙、3D 与游戏、eBPF、Web3.0、区块链等热门技术主题,以及 OSPO、汽车软件、AIGC、开源教育培训、云原生、信创等热门话题,探讨开源未来,助力开源发展。长按识别下方二维码立即查看 GOTC 2023 详情/报名。