Redian新闻
>
联合语言和视觉的力量,复旦团队发布全新多专家融合视觉-语言大模型

联合语言和视觉的力量,复旦团队发布全新多专家融合视觉-语言大模型

公众号新闻


联合语言和视觉的力量,复旦大学语言与视觉团队联合提出基于多视觉专家混合架构的视觉-语言大模型——眸思(MouSi)。基于新架构的眸思将擅长图文匹配、光学字符识别(OCR)和图像分割等多种经典视觉任务的专家巧妙地融为一体,显著地提高了多模态大模型在多模态对话中传统视觉任务上的表现效果。希望眸思能够为多模态大模型的发展提供有力的帮助。


人类和多数动物的视觉系统通过眼睛接收和解释光信号从而探索世界。Nature 文章显示 [1] 生物的视觉系统通过多个视觉通道获取视觉信号。不同视觉通道负责处理特定类型的视觉信息,例如颜色、形状、动态、深度等。每个通道专门处理特定类型的视觉信息,这些信息被整合在大脑中,形成我们所看到的场景。


▲ [1]研究显示:在脊椎动物的视觉系统中,视网膜的所有输出都由视网膜神经节细胞承担。每种类型的神经节细胞平行地编码不同的视觉特征,传输到大脑。
借助对生物视觉系统的思考,复旦团队提出疑问:
  • 让单一视觉模型承担多项视觉任务是否是最佳的选择?
  • 能否仿效生物的视觉系统引入多个视觉通道,让每个通道都由一位视觉专家把控,确保他们处理更擅长的信息?
  • 此外,该团队还希望这些专家之间能够建立起沟通桥梁,相互配合,相互促进。


由此,复旦团队提出了多视觉专家融合的多模态大模型,并细致探索了视觉专家融合的深层次问题:
  • 多专家融合是否促进了大模型对视觉的理解;
  • 如何更好地协调多个专家取长补短;
  • 如何避免多视觉专家导致的超出 LLM 最大长度问题。


▲ 多视觉专家融合的多模态大模型

当用户上传一张描绘风媒花授粉过程的图片并询问“哪些球果产生花粉?”时,该图片依次经过 CLIP 专家、SAM 专家、LayoutLMv3 专家其他专家的编码处理,产生多组不同的视觉标记。


随后,一个多视觉融合网络压缩融合多通道视觉信息,并将其与 MouSi 的视觉输入标记对齐。用户的问题通过 LLMs 的嵌入层被处理成文本标记。最终,MouSi 通过对视觉语言标记进行处理,完成 VQA(视觉问答)和 OCR(光学字符识别)任务,从图片中识别答案文本,生成正确答案“雄性球果产生花粉。



摘要

当前的大型视觉-语言模型 (VLM) 经常遭遇单视觉编码器组件能力不足和视觉 token 过长等挑战。这些挑战会限制模型准确理解繁复的视觉信息和过长的上下文信息。解决这些难题对于提高 VLM 的性能和可用性至关重要。 



论文链接:
https://arxiv.org/pdf/2401.17221.pdf
仓库链接:
https://github.com/FudanNLPLAB/MouSi


本文提出使用多专家技术以协同各视觉编码器的能力,这些能力包括图像文本匹配,光学字符识别,图像分割等。该技术引入一个融合网络使得来自不同视觉专家的输出得到统一,同时弥合了视觉编码器和预训练 LLM 之间的差异。 


此外,本文提出了二维可训练图像位置编码方法,减轻了由于图像特征序列过长而造成的位置编码浪费,有效解决了位置溢出和长度限制的问题。例如,在实现中,这种技术显著地减少了 SAM 等模型中的位置占用,将位置编码占用长度从过长的 4096 减少到更高效和可管理的 64。 


实验结果表明,具有多个视觉编码器专家的 VLM 的性能始终优于单一视觉编码器,且随着专家数量的增加,VLM 性能得到显著提升。



论文速看

经典的多模态大模型(VLM)利用大语言模型(LLM)作为认知基础模型,并辅以单一视觉编码器作为提供额外视觉感知的附属模块。然而,即使在计数这样简单的任务上,现阶段 VLM 的感知能力远远落后于人类水平。


在生物的视觉系统中,感知世界的视觉通道有多个,每个视觉通道处理特定的视觉信息。受到生物学机制的启发,复旦团队思考当前主流的开源多模态大模型只有一个视觉编码器的架构是否可以被进一步优化。这种单一视觉编码器虽然能完成一些简单的任务,但在细粒度感知、OCR、空间感知、复杂推理等任务上仍然显得力有不逮。


因此复旦团队广泛并深入研究各类视觉编码器,并成功提出了一个具有多视觉编码器融合架构的多模态大模型--眸思


当然,将多个视觉编码器引入,以高效整合不同视觉编码器的能力并提高模型整体性能时,有很多问题需要探索,复旦团队将其总结为以下三点:
  • 多专家的结合是否有效?
  • 如何更好的将多专家整合在一起?
  • 如何避免多专家导致的超出 LLM 最大长度问题?


1. 多专家的结合是否有效?


为了探索视觉专家的组合是否有效,复旦团队收集并构建了一个由六个视觉编码器组成的候选库。候选库中的每个编码器各有所长,在特定方面扮演专家的角色,例如 CLIP 编码器是图像-文本匹配专家,LayoutLMv3 编码器是 OCR 专家,SAM 编码器是图像分割专家等。



实验在 9 个基准测试中探索了单专家、双专家和三专家组合的表现。以 LLaVA-1.5 作为基础设置,训练包含两个阶段:在预训练阶段冻结纯文本 LLM 和多专家编码器,从头训练多专家融合网络,从而对齐两者的表示空间,使得纯文本 LLM 有能力进行多模态输入和理解。在微调阶段,对之前冻结的参数进行解冻,并使用高质量的多样性有监督微调数据集进一步训练 LLM 和多专家融合网络。



实验结果表明,视觉专家可以相互协作,且其结果几乎总是优于单个专家。随着视觉专家数量的增加,由于更多视觉通道,VLM 获得更加丰富的视觉信息,模型的多模态能力拥有更高的上限。


2. 如何更好的将多专家整合在一起?


由于输出序列的维度和数量对于不同的视觉专家来说往往是不同的,需要设计融合网络来统一处理。为了更好将多专家整合在一起,复旦团队分别对 MLP 与 Q-Former 两种方法进行修改,提出了 MLP 投影融合网络Q-Former 融合网络




在实践中,多个专家输出大量的视觉标记,这不仅增加了 VLM 的计算成本和内存使用率,但也往往超过推理过程中最大长度的限制。因此,复旦团队提出多个补丁一个令牌投影成比例减少每个专家输出的令牌数量。由于图像信号具有局部或稀疏性属性,使用一个标记来表示相邻的补丁是合理的。


利用多补丁-单标记投影对局部视觉信息进行压缩的方法,实现了多通道视觉信号传输,提高了传输效率,降低了 VLM 后续处理的二次计算成本。


3. 如何避免多专家导致的超出LLM最大长度问题?


尽管多补丁-单标记操作或在 Q-Former 中定义少量查询能够减少视觉标记的比例,推理过程中视觉标记对位置编码的占用仍不可小觑。事实上,视觉标记具有高出文本标记 500 倍以上的长度,在具有位置感知的 VLM 中,消耗了惊人数量的位置嵌入。



考虑到视觉专家已经拥有位置编码信息,再次对每个视觉标记分配 VLM 的位置嵌入是冗余的,复旦团队提出二维可训练图像位置编码方法,有效解决了多专家导致的超出 LLM 最大长度问题。


4. 不同视觉专家能够贡献不同的能力


复旦团队在三专家 LayoutLMv3 + DINOv2 + CLIP 模型上进行了扰动实验,通过掩码某个视觉专家的输出信号来观察眸思输出结果的变化。



在例 1 中,询问眸思一个简单的问题:“图片中狗狗的位置在哪?”,无论哪位视觉专家的输出信号被掩码,余下两个视觉通道都足以正确回答位置问题“在桌上(on top of)”。当 CLIP 专家存在时能提供更多的细节信息,例如输出“木桌(wooden table)”而不仅是“桌子(table)”。 


在例子 2 中,问眸思“图片中有多少只狗狗?它们分别是什么颜色?”,扰动结果表明只有三个专家齐心协力才能正确回答问题。缺少任何一个专家都会导致回答错误,这证明了多视觉专家 VLM 的多个视觉通道捕捉的信息存在区别。一些多模态任务依赖多个通道的协同合作,而这是单通道(即单专家模型)不具有的。



效果展示

在各类场景中,眸思大模型展现出良好的性能和逻辑推理能力。


📍识地点



🎬 知年代



💡 懂推理



眸思大模型在更多任务上展现出惊人的实力。




总结

在本次技术报告中,复旦团队提出并开源了一个基于全新架构的多模态大模型--眸思。技术报告的贡献总结如下:
1. 引入了多专家系统,它协同地结合了多种视觉编码器的优势,从而提高VLM的整体能力;
2. 提出多补丁-单标记投影和高效的的位置编码,缓解了VLM中视觉标记溢出的问题;

3. 对不同视觉专家组合进行了实验。研究结果表明,在各类多模态任务中,模型性能得到了提升。这标志着我们向类人视觉感知又迈进了一步。



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
硅谷恐慌:Open AI发布全新视频模型Sora!现实,不存在了再相聚,又传奇清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力EMNLP 2023 | 阅读顺序很重要:蚂蚁联合复旦提出全新多模态文档信息抽取模型大语言模型的32种消除幻觉的技术,你都了解吗?横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略复旦团队提出思维交流框架EoT,由CoT到EoT,可跨模型通信,表现更出色吕洪来谈科学养生之九:科学养生需要克服陋习、养成好的生活习惯性,谎言和大模型【北京美国中心活动】探索艺术疗愈在心理健康中的力量,1月21日,星期日,下午2:00-4:00不明白播客:Ian Johnson/江雪 - 星火 Spark文革红八月铁证渗血 - 被北大附中打死的工人陈彦荣长子留下清华附中红卫兵让他前去北大附中领尸体的介绍信视觉全新主干!中科院&华为提出VMamba:视觉状态空间模型无形的苦难遗传性耳聋有望根治!复旦团队全球首个基因疗法登上柳叶刀,为治疗先天性遗传性耳聋9型(DFNB9)开辟新路径!扩散模型图像理解力刷新SOTA!字节联合复旦团队提出全新「元提示」策略Stability AI发布全新代码模型Stable Code 3B!媲美70亿Code Llama,没GPU也能跑集体出走的Stability AI 发布全新代码大模型,3B以下性能最优,超越Code Llama和DeepSeek-CoderAI早知道|Gemini推理能力强于GPT-3.5;美图AI视觉大模型将向公众开放;Meta推全新视频生成模型FlowVidAI早知道|Stability AI推出最小模型;国内首个视频大模型通过备案;内蒙古首个AI大模型工业互联网平台发布AI早知道|百度推出视频生成模型UniVG;Soul APP上线自研语言大模型;清华大学首个大模型 DebugChatGPT和视觉搜索,正在改变搜索市场格局语言大模型推理加速指南贝莱德 CEO拉里-芬克 2024 年致投资者的信:全球经济的发展,离不开资本市场的力量,以及满怀的希望外国老奶奶在成都开杂货铺,助700个困苦家庭带去尊严:你手若有行善的力量,不可推辞!ICLR 2024 | 高分工作!Uni3D:3D基础大模型,刷新多个SOTA!今日Arxiv最热NLP大模型论文:复旦大学最新研究,如何让大模型说出“我不知道”?字节发布机器人领域首个开源视觉-语言操作大模型,激发开源VLMs更大潜能深挖RLHF潜力,复旦语言和视觉团队创新奖励模型优化,让大模型更对齐「唤醒」NPC,这家融资过亿的国内创企在做一种很新的游戏陶大程团队联合港大等发布最新综述:374篇文献全面解析大模型知识蒸馏媲美RLHF!复旦NLP组提出基于表征工程的生成式语言大模型人类偏好对齐来澳门感受短片的力量,第一届澳门国际短片节即将开幕超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。