完全开源！谢赛宁发布最新SOTA多模态模型Cambrian-1，“不与GPT-4V媲美”

公众号新闻

2024-06-27 08:06

夕小瑶科技说原创
作者 | 21#

6月15日，智源大会「多模态大模型」论坛中，纽约大学助理教授谢赛宁从哲学的角度出发，分享了AI是否需要更强的视觉基础来实现理解和意义。

昨天，杨立坤、谢赛宁团队推出其最新研究工作，聚焦多模态模型视觉，发布以视觉为中心的多模态大语言模型（MLLM）--Cambrian-1。

Cambrian-1不仅实现了SOTA，还提供了一个全面的、开放的指令调优MLLMs的指南，并且完全开源。

谢赛宁本科毕业于上海交通大学，曾在Facebook人工智能研究院担任研究科学家谢赛宁从Meta离职，加入纽约大学担任助理教授。

论文题目:
Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs

论文链接:
https://arxiv.org/pdf/2406.16860

接下来，让我们来看看研究的具体细节。

总的来说，Cambrian-1在传统协议与使用MLLMs评估视觉表示之间建立了联系，使用MLLM指令微调作为各种视觉表示的评估协议，MLLMs通过视觉问答来解决多种现实世界中的感知任务。

如上图底部的架构所示，Cambrian-1的构建包括五个关键支柱：

视觉表示：探索了各种视觉编码器及其组合
连接器设计：设计了一个新的动态和空间感知连接器，将视觉特征与LLMs整合，同时减少了token的数量。
指令调优数据：从公共来源中筛选高质量的视觉指令调优数据，强调分布平衡的重要性。
指令调优方法：讨论了指令调优的策略和实践。
基准测试：分析了现有的MLLM基准，将其分为4个直观的组，并引入了一个新的以视觉为中心的基准“CV-Bench”。

我们将对"五大支柱"逐一展开简要介绍，具体详情请查阅论文。

视觉表示

在研究提出的基准测试上进行评估，计算每个类别的平均性能。语言监督模型在所有基准测试类别上优于非CLIP模型，特别是在图表和OCR相关基准测试中表现显著优越。谢赛宁团队推测，这可能是由于CLIP的训练数据包含大量OCR和文本内容丰富的数据，而自监督学习（SSL）和其他视觉模型主要训练于自然图像，其中文本内容显著较少。

高分辨率编码器极大增强了图表和视觉中心基准测试的性能，并且基于ConvNet的架构天生适合这些任务。

缩小语言监督模型与自监督模型之间的差距：

观察到DINOv2在一般和知识基准测试中处于自监督模型和语言监督模型之间，甚至在更高分辨率的视觉中心基准测试上表现出色，超过了一些语言监督模型。

在这里，我们研究继续基于自监督模型进行微调的MLLM是否能够达到与语言监督模型类似的性能水平。

考虑到DINOv2相比于CLIP使用的数据要少得多，我们探讨增加视觉微调数据量并解冻视觉编码器，以弥合这一差距。

我们观察到，通过解冻视觉编码器，基于DINOv2的MLLM在使用5M数据进行微调后超过了使用0.7M数据训练的CLIP模型的MLLM。此外，在5M数据设置下，DINOv2和CLIP模型之间的差距也有所缩小。

语言监督提供了强大的优势，但通过足够的数据和适当的调整，可以缩小与自监督方法之间的性能差距。

探索结合多个视觉编码器的潜力

不同的视觉编码器在MLLM性能的不同方面表现出色。在这项研究中，我们探索结合多个视觉编码器的潜力，利用它们独特的表示来构建一个更强大的MLLM。

考虑到不同的视觉编码器使用不同的架构和图像分辨率，我们对视觉令牌插值到固定数量（576个），并沿特征维度拼接这些令牌。研究表明，添加一个非语言监督模型（如DINOv2）可以改善基准测试的性能，特别是在视觉中心任务中。值得注意的是，即使是OCR基准也受益于整合DINOv2。这突显了自监督学习模型在补充语言监督模型以实现强大的多模态理解方面的重要性。

结合多个视觉编码器，包括视觉自监督学习模型，在各种基准测试中提升了MLLM的性能，特别是在视觉中心任务中。

这种简单的策略存在两个限制：1）它使用插值，可能会导致信息丢失，特别是对于具有高分辨率特征图的视觉编码器；2）它通过简单拼接平等对待每个模型。因此，我们寻求一种更有效的策略，能够更灵活地利用模型组合，减少信息损失。

连接器设计

为了有效地聚合多个视觉编码器的特征并防止插值引入的信息损失，我们采用一组可学习的潜在查询，通过交叉注意力层与多个视觉特征进行交互。特别是，我们的方法引入了两个新的视觉中心设计原则：

我们通过明确定义每个查询令牌的聚合空间，引入了空间归纳偏差。我们在LLM层之间多次聚合视觉特征，使模型能够重复访问和整合必要的视觉信息。
我们的新表述灵活地适应了具有不同特征分辨率的多个视觉编码器，同时在聚合过程中保持了视觉数据的空间结构，并与LLM集成。

我们提出的SVA是一种动态和空间的感知连接器。它能将多种视觉特征与 LLM 集成在一起，同时减少标记的数量。

SVA在所有基准类别中均优于两个基线方法，并在OCR和图表类别（需要高分辨率特征理解）中表现出显著改进。相比之下，缺乏空间归纳偏差的重新采样器在将来自多个视觉编码器的串联标记压缩为有限数量的可学习查询时存在困难。

空间归纳偏差和LLM与视觉特征之间的深度交互有助于更好地聚合和压缩视觉特征.

指令调优数据

收集了所有可用的指令调优数据，并通过增强多样性、平衡来源和改进混合方式来进行数据整理。内圈显示的是Cambrian-10M 的原始分布情况。外圈显示的是经过策划的Cambrian-7M。右图Cambrian数据集中的所有数据源以及在数据整理中筛选出的数据源。

数据收集

Cambrian-10M通过从现有数据源收集指令调优数据和定向互联网数据收集引擎，创建了一个大规模的指令调优数据池，称为Cambrian-10M。该数据池包含约9784k条数据。

数据整理

Cambrian-10M是一个大型的指令调优数据池，来源多种数据源，各类别数据比例不均。在此，通过改善数据平衡和调整数据比例来研究数据整理。数据平衡设定单一数据源数据点数量的阈值𝑡。为了研究𝑡的数量效应，我们绘制了从尾到头按数量排序的条目累积和。在本节中选择了150𝑘、250𝑘、350𝑘和450𝑘的阈值，——发现250𝑘和350𝑘之间的阈值对Cambrian-10M效果最好。

数据比例进行了固定数据集规模为1350k的初步实验，检查了不同数据比例对下游性能的影响。(i) 平衡一般、OCR和语言数据至关重要。模型的OCR能力与OCR数据比例成正比，但过高的OCR比例会损害一般VQA和视觉中心的性能。(ii) 知识密集型任务的性能受多种因素影响，通常需要OCR、图表、推理和一般感知的混合。增加科学数据比例有帮助，但比例过低会导致性能差。Cambrian-7M通过应用确定的数据比例对Cambrian-10M进行数据过滤，创建了一个更小但质量更高的数据集Cambrian-7M。

指令调优方法

MLLMs以预训练的LLM和视觉骨干为起点，通过投影器（MLP）等连接器连接这些模块。最初的LLaVA提出了一个两阶段冻结训练过程：首先，使用适配器数据（如基于标题的VQA）在冻结的LLM和视觉骨干之间预训练连接器，然后在冻结视觉编码器的情况下，使用指令调优数据对连接器和LLM进行微调。在此，通过广泛实验重新审视这个话题。显示了不同训练方案和视觉编码器类型（语言监督、自监督和其他）的基准测试得分在基准测试类别中的分布。这四种训练方案包括冻结视觉编码器并使用不同数量的适配器数据（0M、0.5M、1.2M），以及解冻视觉编码器并使用1.2M适配器数据。

单阶段与两阶段训练

最近的研究提倡跳过连接器预训练，声称这“减少了计算成本而不损害下游性能。”为了探讨这一说法是否成立——特别是在使用非语言监督的视觉编码器时——我们进行了使用0、0.5M和1.2M适配器数据的实验。

两阶段训练是有益的；更多的适配器数据进一步提高了结果。

冻结与解冻视觉编码器

在微调过程中，冻结或解冻视觉骨干的做法也各不相同，一些人认为解冻视觉骨干会显著降低性能。

解冻视觉编码器是广泛有益的。语言监督模型总是受益；SSL模型在视觉中心的基准测试中特别受益。

基准测试

当前的MLLMs主要依赖于CLIP作为视觉编码器，因为它与语言的预对齐以及容易适应LLM的token空间。然而，强大的语言先验知识是一把双刃剑——它们弥补了学习有效视觉表示的不足，同时减少了从广泛的视觉表示学习研究中获得的见解。。左图：不同基准测试中启用和禁用视觉输入的MLLM性能比较。基准测试按启用和禁用视觉输入的平均得分差异排序。右图：基于性能指标的主成分分析显示了基准测试的聚类。我们将这些聚类分别标记为绿色的“通用”、黄色的“知识”、红色的“图表和OCR”、以及蓝色的“视觉中心”。

是谁在回答问题：LLM还是MLLM？

比较了有无视觉输入情况下MLLMs的表现，并计算了随机猜测的预期得分。

SQA-I3、MMMU、MathVista和AI2D在视觉启用和禁用之间显示出不到5％的差距，表明这些基准测试可能不显著依赖视觉输入，而是严重依赖基础LLM。TextVQA和GQA在随机猜测和视觉禁用得分之间表现出近40％的正差距，暗示这些基准测试存在强烈的语言偏见。另一方面，基准测试如MMVP和MME Perception在视觉禁用时的表现明显低于随机猜测，表明强大的视觉基础特别重要。

基准分组

为了更好地理解MLLM性能的不同方面，分析了23种MLLM在每个基准测试上的性能之间的相关性。

对基准测试得分进行主成分分析，并观察到形成了对应于“通用”、“知识”、“图表和OCR”和“视觉中心”类别的集群。

大多数基准测试不能正确测量视觉中心能力，而那些能够测量的基准测试样本非常少。

CV-Bench

为了解决现有视觉中心基准测试的局限性，引入了Cambrian Vision-Centric Benchmark（CV-Bench）。Cambrian-1以视觉为中心的基准测试（CV-Bench）中评估的二维和三维任务细目如下：

现有的视觉基准测试可以有效地改编为VQA问题，从而能够评估视觉中心的MLLM能力。

参考资料

[1]https://mp.weixin.qq.com/s/OtbLgx4lgjESiEvjty-yvA
[2]https://www.cnbc.com/2024/06/26/nvidia-ceo-jensen-huang-speaks-at-first-shareholder-meeting-since-stock-surge.html?__source=androidappshare

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章