Redian新闻
>
北大等提出MoE-LLaVA:将多模态大模型稀疏化

北大等提出MoE-LLaVA:将多模态大模型稀疏化

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【多模态学习】交流群

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文搞科研,强烈推荐!

代码(刚刚开源): 
https://github.com/PKU-YuanGroup/MoE-LLaVA
论文:https://arxiv.org/abs/2401.15947
https://huggingface.co/spaces/LanguageBind/MoE-LLaVA
MoE-LLaVA只有3B个稀疏激活参数,表现与LLaVA-1.5-7B在各种视觉理解数据集上相当,并且在物体幻觉基准测试中甚至超越了LLaVA-1.5-13B。通过MoE-LLaVA,我们旨在建立稀疏LVLMs的基准,并为未来研究开发更高效和有效的多模态学习系统提供宝贵的见解。并且MoE-LLaVA团队已经开放了所有的数据、代码和模型。

图1 MoE-LLaVA在幻觉性能上和其他LVLM的比较

MoE-LLaVA采用三阶段的训练策略。

图2 MoE-Tuning的流程图

如图1,vision encoder处理输入图片得到视觉token序列。利用一个投影层将视觉tokens映射成LLM可接受的维度。相同的,与图片配对的文本经过一个word embedding layer被投影得到序列文本tokens。   

阶段1:如图2,对于阶段1,我们的目标是让视觉token 适应到LLM,赋予LLM能够看懂图片的实体有哪些。因此我们采用一个MLP来将图片tokens投影到LLM的输入域,which意味着一个个图片小patch被LLM当作伪文本token。在这个阶段,LLM被训练学会描述图片,which是理解更高层次的图片语义的基本。在这个阶段MoE layer不会被应用到LVLM中。

图3 更具体的训练框架和训练策略

阶段2:用多模态的指令数据来微调是提高大模型能力和可控性的关键技术,and 在这个阶段LLM被调整为有多模态理解能力的LVLM。在这个阶段我们加入更复杂的指令,包含图片逻辑推理,文字识别等高级任务,要求模型有更强的多模态理解能力。通常来说,稠密模型的LVLM到此就训练完成,然而我们在发现同时将LLM转为LVLM和把模型稀疏化是具有挑战的。因此,MoE-LLaVA将使用第二阶段的权重作为第三阶段的初始化以降低稀疏模型学习的难度。

阶段3:作为初始化,我们将FFN复制多份作为专家集合的初始化权重。当视觉token和文本token被喂入MoE layer时,router会计算每一个token和专家们的匹配权重,然后每个token会被送入最匹配的topk个专家进行处理,最后根据router的权重加权求和汇聚成输出。当topk个专家被激活时,其余的专家保持静默,这种模型构成了具有无限可能的稀疏通路的MoE-LLaVA。

图4 MoE-LLaVA在9个benchmark上的性能    

如表1所示,由于MoE-LLaVA是第一个搭载soft router的稀疏模型基于LVLM,因此我们将之前的模型归纳为稠密模型。我们在5个图片问答benchmark上验证MoE-LLaVA的性能并报告激活的参数量和图片分辨率。与sota方法LLaVA 1.5相比,MoE-LLaVA-2.7B×4展现了强大的图片理解能力,在5个benchmark的性能上非常接近LLaVA-1.5。其中MoE-LLaVA用3.6B的稀疏激活参数在SQAI上超过了LLaVA-1.5-7B 1.9%。值得注意的是,由于MoE-LLaVA的稀疏结构,使得只需要2.6B的激活参数量就能全面超过IDEFICS-80B。另外,我们关注到最近的小视觉语言模型TinyGPT-V,MoE-LLaVA-1.8B×4在相当的激活参数下在GQA和VisWiz分别超过27.5%和10%,这标志着MoE-LLaVA强大的理解能力在自然视觉中。

为了更全面的验证MoE-LLaVA的多模态理解能力,我们在4个benchmark toolkits上评估性能。benchmark toolkits通常答案是开放性的并且无固定模板,是验证模型能否能自然语言问答的工具包。在图4,MoE-LLaVA-1.8B×4超过Qwen-VL,后者使用更大的图片分辨率。这些结果都展示了,MoE-LLaVA,这一稀疏模型可以用更少的激活参数达到和稠密模型相当甚至超过的性能。

图5 MoE-LLaVA在幻觉物体检测上的性能评估

我们采用pope的评估管道去验证MoE-LLaVA的物体幻觉。结果被展现在在图5,MoE-LLaVA表现最好的性能,意味着MoE-LLaVA倾向于生成与给定图像一致的对象。具体的,MoE-LLaVA-1.8B×4以2.2B的激活参数超过了LLaVA。另外,我们观察到MoE-LLaVA的yes ratio占比处于较均衡状态,这表明我们的稀疏模型能够根据问题做出正确的反馈的行为。

图6专家负载可视化

在图6,我们展示了MoE-LLaVA-2.7B×4-Top2的专家负载在scienceqa上。整体上,在训练初始化时,所有的MoE layer中的专家的负载比较平衡。然而随着模型逐渐被稀疏化,第17到27层的专家的负载突然增大,甚至几乎包揽了所有tokens。对于浅层的5-11层,主要是由专家2,3,4共同协作。值得关注的是,专家1几乎只在第1-3层工作,随着模型变深,专家1逐渐退出了工作。因此,MoE-LLaVA的专家们学到了某种特定的模式,它能够按照一定的规律进行专家们的分工。   

图7模态分布可视化

进一步,我们在图7展示不同专家的模态分布。我们发现text和image的路由分布极其相似,例如当专家3在17-27层努力工作时,它所处理的text和image的占比是相似的。这展现出MoE-LLaVA对于模态并无明显的偏好。

进一步的,我们在token level上观察专家们的行为。我们跟踪所有token在稀疏网络中的轨迹在下游任务。对text和image所有的激活的通路,我们用PCA降维得到主要的10条通路如图8所示。我们发现对于某个未见的text token或image tokens,MoE-LLaVA始终偏向于派发专家2和3来处理在模型深层。expert 1,4倾向于处理初始化的token。这些结果能够更好的帮助我们理解稀疏模型在多模态学习上的行为并探索未知的可能。

图8 激活通路可视化

在CVer微信公众号后台回复:论文,即可下载论文和代码链接!快学起来!


多模态学习交流群成立

扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-多模态学习微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如多模态学习+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
万字长文总结多模态大模型最新进展(Modality Bridging篇)零一万物Yi-VL多模态大模型开源,MMMU、CMMMU两大权威榜单领先AI早知道|苹果播客应用新增转录功能;上海智能实验室推图文多模态大模型;国产短剧AI换脸出海降本增效2024年AIGC行业研究:多模态大模型与商业应用|36氪研究院首创pix2emb范式!NUS清华联合发布NExT-Chat:对话/检测/分割全能多模态大模型中科院,CMU,Meta等联合出品:去除LLM先验对多模态大模型的负面影响清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力精确指出特定事件发生时间!字节&复旦大学多模态大模型解读视频太香了个人感慨之七十四 雄安新区详解多模态大模型:LLaVA+LLaVA1.5+LLaVA-Med个人感慨之七十三 什么都不懂AI早知道|ChatGPT模型大更新;阿里云发布多模态大模型;百度推多模态模型UNIMO-G将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B理想汽车发布史上最大更新:多模态大模型首次上车,无人泊车即将推送骁龙888实时运行!美团&浙大等打造移动端多模态大模型MobileVLM82、长篇民国小说《永泰里》第十六章 生死一线(6)谷歌发布Gemini,负责人:原生多模态大模型是AI「新品种」,正探索与机器人结合广播体操与长寿ICLR 2024|把图像视为外语,快手、北大多模态大模型媲美DALLE-3多领域文献阅读超越GPT-4!深势科技发布科学文献多模态大模型Uni-SMART技术报告无需额外知识或训练!中科大等提出OPERA:缓解多模态大模型幻觉问题的基于注意力惩罚与回退策略的解码方法GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评「国家队」入局,多模态大模型企业联汇科技宣布完成新一轮数亿元战略融资年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩文末送书 | 及时雨!《多模态大模型:技术原理与实战》首发上市超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源《田野的春天》&《怕梦》骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM世界顶尖多模态大模型开源!又是零一万物,又是李开复​AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpanCVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度打破MoE训练效率与性能瓶颈,华为盘古稀疏大模型全新架构LocMoE出炉北京内推 | 阿里淘天集团招聘大模型/多模态大模型算法实习生北京/上海内推 | 小红书智能创作团队招聘多模态大模型算法工程师/实习生腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。