Redian新闻
>
ICML 2023 | 基于模块化思想,阿里达摩院提出多模态基础模型mPLUG-2

ICML 2023 | 基于模块化思想,阿里达摩院提出多模态基础模型mPLUG-2

公众号新闻
机器之心专栏

机器之心编辑部


对于多模态基础模型,我们希望其不仅可以处理特定的多模态相关任务,还希望其处理单模态任务时也具有优异的性能。阿⾥达摩院团队发现现有的模型往往不能很好的平衡模态协作和模态纠缠的问题,这限制了模型在各种单模态和跨模态下游任务的性能。

基于此,达摩院的研究者提出了 mPLUG-2,其通过模块化的⽹络结构设计来平衡多模态之间的协作和纠缠问题,mPLUG-2 在 30 + 多 / 单模态任务,取得同等数据量和模型规模 SOTA 或者 Comparable 效果,在 VideoQA 和 VideoCaption 上超越 Flamingo、VideoCoca、GITv2 等超⼤模型取得绝对SOTA。此外,mPLUG-Owl 是阿⾥巴巴达摩院 mPLUG 系列的最新工作,延续了 mPLUG 系列的模块化训练思想,把 LLM 升级为⼀个多模态⼤模型。mPLUG-的研究论文已被 ICML 2023 接收。


  • 论⽂地址:https://arxiv.org/pdf/2302.00402.pdf
  • mPLUG-2 地址:https://github.com/X-PLUG/mPLUG-2
  • mPLUG-Owl 地址:https://github.com/X-PLUG/mPLUG-Owl

研究背景

⼤规模预训练基础模型是⼈⼯智能领域的新兴范式,涉及语⾔、视觉和多模态等多个领域。随着 Transformer 体系结构的⼴泛成功,近年来已经出现了语⾔、视觉和多模态预训练的⼤融合趋势。

该趋势下的⼀条主要线路是采⽤统⼀的序列⽣成框架来统⼀任务和模态,如 T5、OFA 和 Flamingo 等。另⼀条主要线路则是将所有任务都视为实例区分 (instance discrimination),并采用纯编码器架构,如 BERT、Florence 和 BEIT-3 模型。

以上主流基础模型提出为多模态数据建模共享的单⼀网络 (single network),以此来利用模态协作的信息,如 Flamingo。然而,由于不同模态涉及到的任务的巨⼤差异,这种策略将⾯临模态纠缠的问题,多个模态可能会相互干扰,特别是当存在多种模态和任务时。单模块基础模型难以平衡模态协作的收益和模态纠缠对多个跨模态下游任务的影响。

为了缓解这个挑战,在这项⼯作中,阿⾥达摩院团队引⼊了⼀种新的多模态基础模型的统⼀范式,如下图 1 所示。它采⽤基于模块的⽹络设计来考虑到模态协作和模态纠缠之间的平衡。mPLUG-2 的研究者设计了特定的共享功能模块 (functional modules),以⿎励模态协作,同时保留特定于模态的模块 (modality-specific modules) 以解决模态纠缠的问题。


基于模块化的设计,不同的模块可以灵活地选取和组合,以适应⼤量的单模态和多模态的理解和⽣成任务。支持的下游任务的详细信息在表 1 中给出,可以看到 mPLUG-2 可以处理多种跨⽂本、图像和视频的不同类型的下游任务。下表 2 中也提供了不同的下游任务所需要的模块组合。



方法概览


模型框图如上图 2 所示:(1) mPLUG-2 设计了⼀个统⼀的双 (dual) 视觉编码器模块,其中视频与图输⼊共享的标准 Transformer 模块,⽤于建模空间信息。局部时域建模模块⽤于视频相关任务的时域关系建模。(2) mPLUG-2 设计了⼀个新颖的通⽤层模块 ( universal layers module),⽤于作不同模态之间的枢纽,其通过共享⾃注意⼒模块将视觉和语⾔模态投影到共同的以语⾔为导向的语义空间中。(3) mPLUG-2 使⽤额外的交叉注意⼒模块将通⽤视觉表示 (universal vision representation) 与原始细粒度视觉表示融合。详细的模块设计如图 2 所示。最后,mPLUG-2 的不同模块通过任务和模态指令 (task and modality instructions) 在单模态和跨模态任务上进⾏联合预训练。在推理过程中,mPLUG-2 可以使⽤模块化 Transformer 架构为各种单模态和交叉模态任务选择不同的模块。

mPLUG-2 的卓越性能

mPLUG-2 在 30 多个有挑战性的单模态和跨模态理解和⽣成基准测试中评估了 mPLUG-2 的性能,它在相似的模型大小和数据规模下取得了最先进或有竞争力的结果。

这里展示几个有代表性的实验结果:

多模态任务

研究者在多模态理解型和生成型的相关任务上评测 mPLUG-2 的性能,包括: multimodal retrieval、question answering、visual grounding 和 captioning 等,实验结果表明其可以得到 SOTA 的性能。





纯语言任务

研究者发现,相比于专⽤语⾔预训练模型和其他多模态预训练模型,mPLUG-2 在 GLUE benchmark 上可以取得可⽐的性能。实验结果证明了使⽤ universal layer 做模态协作的有效性。


纯视觉任务

研究者发现,mPLUG-2 在纯视觉任务上,如行为识别,图像分类任务,可以取得具有竞争力的性能。



消融:用于模态协作的通用层 (universal layer) 的作用有多大?

研究者在 baseline 的基础上,添加他们设计的通⽤层 universal layer。可以发现,通过鼓励模态协作,在单模态或者跨模态任务上,都会有明显的性能提升,证明了通⽤层 universal layer 的有效性。



另外,研究者还发现,⿎励模态协作的通⽤层 universal layer 可以得到更小的 modality gap。


更多技术和实验细节请参阅原论⽂。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
2023 西西里公交游(1):行程和概览年薪60万的数据分析师工作保不住了?!阿里达摩院研究发现,改用GPT-4成本只需几千元“阿里达摩院专家被裁”传言不实!信息发布者道歉《我在阿里达摩院的分享(干货预警)》中科院发布多模态 ChatGPT,图片、语言、视频都可以 Chat ?中文多模态大模型力作ACL 2023 | 复旦邱锡鹏组提出模块化Prompt多任务预训练,可快速适应下游任务达摩院猫头鹰mPLUG-Owl亮相:模块化多模态大模型,追赶GPT-4多模态能力阿里达摩院杭州DI-Lab诚招博士后不谈战争谈音乐——-终结篇北京内推 | 阿里达摩院招聘大型语言模型(LLM)应用方向实习生OpenAI劲敌融资13亿美元;中国团队推首颗AI全自动设计CPU;全球首个医疗多模态基础模型群发布丨AIGC大事日报【回顾与展望】2022 后疫情时代的旅游,2023 回家Ozempic? n Elon Musk, the CEO of Tesla and SpaceX,阿里达摩院发布“通义千问”,首席首测,学问如何?血溅星巴克:上周日温哥华鸡毛蒜皮小事引发的命案博后招募 | 阿里达摩院决策智能实验室招募时间序列方向博士后基于信息论的校准技术,CML让多模态机器学习更可靠宾州蒸汽火车博物馆,童心永存当LLM遇到Database:阿里达摩院联合HKU推出Text-to-SQL新基准​阿里达摩院:GPT-4替代年薪60万的数据分析师只要几千块,论文已发基于模型量化的大模型压缩的进展在线可玩:阿里开源多模态大模型mPLUG-Owl,电影问答、梗图理解、多轮聊天……北京/杭州内推 | 阿里达摩院OCR团队招聘OCR/文档理解算法实习生钟南山:全国大概85%的人感染过新冠;笑果文化已被立案调查;阿里达摩院回应约70%员工被裁;梁稳根不再任三一集团董事长...国际要闻简报,轻松了解天下事(03南加勒比岛国风情多模态如何自监督?爱丁堡等最新「自监督多模态学习」综述:目标函数、数据对齐和模型架构GPT-4取代数据分析师,成本仅3000!阿里达摩院&NTU论文引热议阿里达摩院:GPT-4 的成本只有高级数据分析员的 0.45%国际要闻简报,轻松了解天下事(032022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一杭州/北京内推 | 阿里达摩院生物医学信息处理团队招聘24届春招实习生CVPR 2023 | 模块化MoE将成为视觉多任务学习基础模型阿里达摩院大模型公开课上新!主讲中文个性化对话大模型ChatPLUG和模块化多模态大模型mPLUG-OwlACL 2023 | 达摩院、NTU提出多视图压缩表示,显著提升预训练语言模型鲁棒性8点1氪:iPhone 15将搭载堆叠式摄像头;阿里达摩院自动驾驶业务裁员70%?回应:不实消息;王者荣耀女装定价超千元大厂掉头!阿里达摩院调整自动驾驶研发,团队归入菜鸟ICLR 2023 | 阿里达摩院开源人脸检测新框架DamoFDYouKu-mPLUG最大中文视频数据集和Benchmark,助力多模态大型模型发展阿里达摩院:GPT-4替代年薪60万数据分析师只要几千块
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。