联合语言和视觉的力量,复旦团队发布全新多专家融合视觉-语言大模型
联合语言和视觉的力量,复旦大学语言与视觉团队联合提出基于多视觉专家混合架构的视觉-语言大模型——眸思(MouSi)。基于新架构的眸思将擅长图文匹配、光学字符识别(OCR)和图像分割等多种经典视觉任务的专家巧妙地融为一体,显著地提高了多模态大模型在多模态对话中传统视觉任务上的表现效果。希望眸思能够为多模态大模型的发展提供有力的帮助。
人类和多数动物的视觉系统通过眼睛接收和解释光信号从而探索世界。Nature 文章显示 [1] 生物的视觉系统通过多个视觉通道获取视觉信号。不同视觉通道负责处理特定类型的视觉信息,例如颜色、形状、动态、深度等。每个通道专门处理特定类型的视觉信息,这些信息被整合在大脑中,形成我们所看到的场景。
让单一视觉模型承担多项视觉任务是否是最佳的选择? 能否仿效生物的视觉系统引入多个视觉通道,让每个通道都由一位视觉专家把控,确保他们处理更擅长的信息? 此外,该团队还希望这些专家之间能够建立起沟通桥梁,相互配合,相互促进。
多专家融合是否促进了大模型对视觉的理解; 如何更好地协调多个专家取长补短; 如何避免多视觉专家导致的超出 LLM 最大长度问题。
当用户上传一张描绘风媒花授粉过程的图片并询问“哪些球果产生花粉?”时,该图片依次经过 CLIP 专家、SAM 专家、LayoutLMv3 专家及其他专家的编码处理,产生多组不同的视觉标记。
随后,一个多视觉融合网络压缩融合多通道视觉信息,并将其与 MouSi 的视觉输入标记对齐。用户的问题通过 LLMs 的嵌入层被处理成文本标记。最终,MouSi 通过对视觉语言标记进行处理,完成 VQA(视觉问答)和 OCR(光学字符识别)任务,从图片中识别答案文本,生成正确答案“雄性球果产生花粉。
当前的大型视觉-语言模型 (VLM) 经常遭遇单视觉编码器组件能力不足和视觉 token 过长等挑战。这些挑战会限制模型准确理解繁复的视觉信息和过长的上下文信息。解决这些难题对于提高 VLM 的性能和可用性至关重要。
本文提出使用多专家技术以协同各视觉编码器的能力,这些能力包括图像文本匹配,光学字符识别,图像分割等。该技术引入一个融合网络使得来自不同视觉专家的输出得到统一,同时弥合了视觉编码器和预训练 LLM 之间的差异。
此外,本文提出了二维可训练图像位置编码方法,减轻了由于图像特征序列过长而造成的位置编码浪费,有效解决了位置溢出和长度限制的问题。例如,在实现中,这种技术显著地减少了 SAM 等模型中的位置占用,将位置编码占用长度从过长的 4096 减少到更高效和可管理的 64。
实验结果表明,具有多个视觉编码器专家的 VLM 的性能始终优于单一视觉编码器,且随着专家数量的增加,VLM 性能得到显著提升。
经典的多模态大模型(VLM)利用大语言模型(LLM)作为认知基础模型,并辅以单一视觉编码器作为提供额外视觉感知的附属模块。然而,即使在计数这样简单的任务上,现阶段 VLM 的感知能力远远落后于人类水平。
在生物的视觉系统中,感知世界的视觉通道有多个,每个视觉通道处理特定的视觉信息。受到生物学机制的启发,复旦团队思考当前主流的开源多模态大模型只有一个视觉编码器的架构是否可以被进一步优化。这种单一视觉编码器虽然能完成一些简单的任务,但在细粒度感知、OCR、空间感知、复杂推理等任务上仍然显得力有不逮。
因此复旦团队广泛并深入研究各类视觉编码器,并成功提出了一个具有多视觉编码器融合架构的多模态大模型--眸思。
多专家的结合是否有效? 如何更好的将多专家整合在一起? 如何避免多专家导致的超出 LLM 最大长度问题?
1. 多专家的结合是否有效?
为了探索视觉专家的组合是否有效,复旦团队收集并构建了一个由六个视觉编码器组成的候选库。候选库中的每个编码器各有所长,在特定方面扮演专家的角色,例如 CLIP 编码器是图像-文本匹配专家,LayoutLMv3 编码器是 OCR 专家,SAM 编码器是图像分割专家等。
实验在 9 个基准测试中探索了单专家、双专家和三专家组合的表现。以 LLaVA-1.5 作为基础设置,训练包含两个阶段:在预训练阶段冻结纯文本 LLM 和多专家编码器,从头训练多专家融合网络,从而对齐两者的表示空间,使得纯文本 LLM 有能力进行多模态输入和理解。在微调阶段,对之前冻结的参数进行解冻,并使用高质量的多样性有监督微调数据集进一步训练 LLM 和多专家融合网络。
实验结果表明,视觉专家可以相互协作,且其结果几乎总是优于单个专家。随着视觉专家数量的增加,由于更多视觉通道,VLM 获得更加丰富的视觉信息,模型的多模态能力拥有更高的上限。
由于输出序列的维度和数量对于不同的视觉专家来说往往是不同的,需要设计融合网络来统一处理。为了更好将多专家整合在一起,复旦团队分别对 MLP 与 Q-Former 两种方法进行修改,提出了 MLP 投影融合网络和 Q-Former 融合网络。
在实践中,多个专家输出大量的视觉标记,这不仅增加了 VLM 的计算成本和内存使用率,但也往往超过推理过程中最大长度的限制。因此,复旦团队提出多个补丁一个令牌投影成比例减少每个专家输出的令牌数量。由于图像信号具有局部或稀疏性属性,使用一个标记来表示相邻的补丁是合理的。
利用多补丁-单标记投影对局部视觉信息进行压缩的方法,实现了多通道视觉信号传输,提高了传输效率,降低了 VLM 后续处理的二次计算成本。
尽管多补丁-单标记操作或在 Q-Former 中定义少量查询能够减少视觉标记的比例,推理过程中视觉标记对位置编码的占用仍不可小觑。事实上,视觉标记具有高出文本标记 500 倍以上的长度,在具有位置感知的 VLM 中,消耗了惊人数量的位置嵌入。
考虑到视觉专家已经拥有位置编码信息,再次对每个视觉标记分配 VLM 的位置嵌入是冗余的,复旦团队提出二维可训练图像位置编码方法,有效解决了多专家导致的超出 LLM 最大长度问题。
复旦团队在三专家 LayoutLMv3 + DINOv2 + CLIP 模型上进行了扰动实验,通过掩码某个视觉专家的输出信号来观察眸思输出结果的变化。
在例 1 中,询问眸思一个简单的问题:“图片中狗狗的位置在哪?”,无论哪位视觉专家的输出信号被掩码,余下两个视觉通道都足以正确回答位置问题“在桌上(on top of)”。当 CLIP 专家存在时能提供更多的细节信息,例如输出“木桌(wooden table)”而不仅是“桌子(table)”。
在例子 2 中,问眸思“图片中有多少只狗狗?它们分别是什么颜色?”,扰动结果表明只有三个专家齐心协力才能正确回答问题。缺少任何一个专家都会导致回答错误,这证明了多视觉专家 VLM 的多个视觉通道捕捉的信息存在区别。一些多模态任务依赖多个通道的协同合作,而这是单通道(即单专家模型)不具有的。
在各类场景中,眸思大模型展现出良好的性能和逻辑推理能力。
📍识地点
🎬 知年代
💡 懂推理
眸思大模型在更多任务上展现出惊人的实力。
总结
3. 对不同视觉专家组合进行了实验。研究结果表明,在各类多模态任务中,模型性能得到了提升。这标志着我们向类人视觉感知又迈进了一步。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者