Redian新闻
>
在线可玩:阿里开源多模态大模型mPLUG-Owl,电影问答、梗图理解、多轮聊天……

在线可玩:阿里开源多模态大模型mPLUG-Owl,电影问答、梗图理解、多轮聊天……

公众号新闻

导读


以GPT4为代表的GPT模型已经引起了广泛的关注。本文是阿里达摩院提出的多模态GPT的模型:mPLUG-Owl,基于mPLUG模块化的多模态大语言模型。它不仅能理解推理文本的内容,还可以理解视觉信息,并且具备优秀的跨模态对齐能力。

论文https://arxiv.org/abs/2304.14178

代码:https://github.com/X-PLUG/mPLUG-Owl

DEMO: https://huggingface.co/spaces/MAGAer13/mPLUG-Owl
该研究一个多模态大模型mPLUG-Owl,并提出了一种新的模块化训练多模态大模型的方法,这对于研究多模态模型在视觉相关任务上的能力非常重要。此外,该论文还提出了测评集OwlEval,以便测试这些模型的表现。更为重要的是,作者开源了模型代码、demo代码、训练代码以及模型权重文件,仅需一张RTX 3090即可进行运行。
方法概述
本文提出的 mPLUG-Owl 模型是一个多模态大语言模型,其整体架构如上图所示。模型包括三个主要模块:视觉基础模型、视觉抽象模块和预训练语言模型。其中,视觉基础模型用于提取图像特征,视觉抽象模块则将这些细粒度的特征概括为少量可学习的 Token,从而实现对视觉信息的高效建模。生成的视觉 Token 与文本查询一起输入到预训练语言模型中,以生成相应的回复。
更值得注意的是,是本文采用的训练方式。如上图所示,目前存在三种训练端到端的多模态LLM模型的训练方式:以MiniGPT4为代表的冻结视觉语言模型来微调有限的参数、以Kosmos-1为代表的仅训练语言模块、以LLaVA为代表的在指令微调(instruction tuning)阶段冻结视觉模块。而mPLUG-Owl克服了这些限制。首先 mPLUG-Owl 模型采用了多模态数据来训练视觉模块,并在训练过程中冻结语言模块。这种方式可以有效地将视觉特征与语言特征贴合,从而提高模型对多模态数据的理解和处理能力。在指令微调阶段,该模型采用了多模态和单模态数据联合调整语言模块的 LoRA 参数,同时冻结视觉模块。这种方式使得模型可以学习多样化的单模态和多模态指令,并具备单模态和多模态多轮对话的能力。在后续的消融实验中也证明了这一点。

实验结果
本研究在构建的多模态测评集 OwlEval 上对 mPLUG-Owl 进行了人工评估,并将评价结果分为四个等级 A-D,代表对应的生成质量依次递减。如下图所示,mPLUG-Owl 取得了最佳的结果,这表明该模型在多模态对话生成任务上表现出了较好的性能。其中,A-D代表了质量从好到差。
为了探究训练策略和指令数据的使用对模型结果的影响,本研究还进行了消融实验。通过消融实验,我们发现,采用多模态预训练、文本指令训练和多模态指令训练可以显著提高模型在多模态对话生成任务上的性能。
该模型提供了在线demo,可用于多种多模态任务,例如知识密集型QA(Knowledge-intensive QA)
多轮对话(Multi-turn Conversation),
理解笑话(Joke Comprehension):
值得注意的是在训练中,mPLUG-Owl并未见过多图和多语言的数据,但是mPLUG-Owl仍然能正确理解不同语言的输入,和多张图片之间的逻辑关系。

该研究所提出的 mPLUG-Owl 模型对于多模态对话生成技术的发展具有积极的推动作用。这种多模态的对话生成能力可以为对话系统的应用场景提供更多的可能性,例如基于视觉场景的对话助手、智能家居控制等。


往期推荐



Rust重写万物?
Windows 11默认文件系统将由ReFS取代NTFS

首个中文医学知识LLM:真正的赛华佗—华驼(HuaTuo)



🌟 活动推荐

2023 年 5 月 27-28 日,GOTC 2023 全球开源技术峰会将在上海张江科学会堂隆重举行。
为期 2 天的开源行业盛会,将以行业展览、主题发言、特别论坛、分论坛、快闪演讲的形式来诠释此次大会主题 ——“Open Source, Into the Future”。与会者将一起探讨元宇宙、3D 与游戏、eBPF、Web3.0、区块链等热门技术主题,以及 OSPO、汽车软件、AIGC、开源教育培训、云原生、信创等热门话题,探讨开源未来,助力开源发展。
长按识别下方二维码立即查看 GOTC 2023 详情/报名。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
CVPR 2023 | 中山大学HCP实验室新突破:用因果范式再升级多模态大模型独家 | 多模态大模型初创企业「智子引擎」,近日完成千万元天使轮融资YouKu-mPLUG最大中文视频数据集和Benchmark,助力多模态大型模型发展多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构理解指向,说出坐标,Shikra开启多模态大模型参考对话新维度VPGTrans: 10%的成本定制你自己的类GPT-4多模态大模型微软开源多模态聊天机器人 Visual ChatGPT曝潘长江带全家移美,妻子带外孙玩乐享受惬意,网友:滚别回来了达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳中山大学HCP实验室新突破:用因果范式再升级多模态大模型追赶GPT-4的多模态大模型对比分析他竟然是李雪健的亲儿子,最低调的星二代训练成本不到1000元,直降90%!NUS、清华发布VPGTrans:轻松定制类GPT-4多模态大模型BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」李志飞:关于GPT-4的八点观察,多模态大模型竞赛开始多模态大语言模型综述来啦!一文带你理清多模态关键技术中科院发布多模态 ChatGPT,图片、语言、视频都可以 Chat ?中文多模态大模型力作独家 | 多模态大模型初创企业“智子引擎”,近日完成千万元天使轮融资阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-Owl让ChatGPT调用10万+开源AI模型!HuggingFace新功能爆火:大模型可随取随用多模态AI工具开源多模态大模型哪家强?TOP12榜单来了,GitHub揽获2.2k+星GPT-4震撼发布:多模态大模型,升级ChatGPT和必应,开放API,太太太强了!GPT-4刷屏,这家中国AI企业多模态大模型已落地应用多年,新版本内测了(可申请)ICML 2023 | 基于模块化思想,阿里达摩院提出多模态基础模型mPLUG-2微软:多模态大模型GPT-4就在下周,撞车百度?威大哥大等联合发文!最新多模态大模型LLaVA问世,水平直逼GPT-4熔岩羊驼LLaVA来了:像GPT-4一样可以看图聊天,无需邀请码,在线可玩看《狂飙访谈》GPT-4震撼发布:多模态大模型,直接升级ChatGPT、必应,开放API,游戏终结了?能「说」会「画」, VisCPM:SOTA 开源中文多模态大模型训练开销骤减,10%成本定制专属类GPT-4多模态大模型美国入境档案--李恒德,1946年西雅图忆秦娥 (变格:平韵格):草木滋延硬核课程全网首发!高级人工智能:多模态大模型LLM与AIGC前沿技术实战
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。