新加坡国立大学发布图文预训练框架 CosMo，助力长文本理解

2024-01-06 08:01

夕小瑶科技说原创
作者 | 智商掉了一地、Python

近年来，随着大型语言模型（LLM）的兴起，让多模态学习领域也得到了不断发展。本文作者深入探讨了视觉-语言预训练模型的进展，特别关注了从短文本理解到长文本理解的重要性。

通过在文本生成模型中引入对比损失，作者提出了一种新颖的架构 CosMo，进一步扩展了视觉-语言预训练的演进路径，以实现不同模态之间更高效的对比学习。CosMo 这一统一框架巧妙地将语言模型划分为专用的单模态文本处理和擅长多模态数据处理的组件，从而提高了模型在涉及文本和视觉数据的任务中的性能，并减少了可学习参数。

为了应对长文本数据集的需求，作者创建了一个包含详细字幕的视频-文本数据集 Howto-Interlink7M。论文还展示了如何利用这个数据集提高图像-文本任务模型的性能。通过在保留更少可学习参数的同时利用更多可用数据，本文的模型显著改善了性能。

论文题目:
COSMO: COntrastive Streamlined MultimOdal Model with Interleaved Pre-Training

论文链接:
https://arxiv.org/abs/2401.00849

博客地址:
https://fingerrec.github.io/cosmo/

在多模态学习领域的早期研究中，研究者们都比较关注图像和视频文本之间的短期相关性，这一趋势在 CLIP 和 GiT 等工作中得以体现。然而，随着对多模态研究的不断深入，当前日益强调上下文学习策略的重要性，其中 Flamingo 和 Palm-E 等方法成为代表性工作。值得注意的是，先进的 LLM 在文本处理方面的有着卓越表现，使得这些模型不需要经过大量的微调便能轻松地整合和理解长篇文档，从而展示出小样本学习任务中取得强大性能的潜力。

Howto-Interlink7M 数据集

现有的视频语言预训练数据集（如 Howto100M 和 YT-Temporal）主要依赖于 YouTube 视频的自动语音识别（ASR）生成的字幕，但这些字幕与视频内容的对齐较差。为了解决这个问题，作者提出了 Howto-Interlink7M。

这是一个新的交错视频-文本数据集，旨在为改进视频语言理解提供高质量的注释，相较于现有视频文本数据集，具有以下特点和优势：

高质量标注：Howto-Interlink7M 数据集通过 GPT-4 生成高质量的视频字幕，与现有数据集（如Howto100M）相比，其字幕与视频内容的对齐度更高。
更强的视频理解能力：由于 Howto-Interlink7M 数据集的字幕与视频内容更加紧密地联系在一起，因此模型在视频理解任务上的3现得到了提高。
**在上下文中学习*：Howto-Interlink7M 数据集的字幕具有更高的长度和更强的连贯性，这有助于模型在实现上下文学习任务时表现得更好。
丰富的多模态数据：Howto-Interlink7M 数据集不仅包含视频文本数据，还包括图像文本数据，这有助于模型在多模态学习任务上表现得更好。

CosMo

模型内容

如下图 3 所示，CosMo 由两个组件组成：

视觉编码器：基于 Vision Transformer（ViT）。
预训练的 LLM：主要采用 OPT 模型，划分为两个部分以计算对比损失和语言建模损失，适应不同的任务；

图3：CosMo 处理图文和交错的图文/视频-文本对

该框架接受四种数据类型的输入：图像-文本、视频-文本、交错的图像-文本和交错的视频-文本，所有这些数据都处理成文档样式的文本序列格式，包含视觉和文本信息。

单模态特征提取

为了防止灾难性遗忘，作者冻结了 LLM 和视觉编码器的参数。其中图像或视频被直接输入到冻结的视觉编码器中，而文档则被送入 LLM 的前半层进行处理，旨在保持之前学到的特征，防止在新任务中遗忘已有的知识。

轻量级多模态融合

作者通过门控交叉注意力层对冻结的语言模型块进行条件化，以实现对视觉信息的有效整合，以进行准确的下一个 token 预测。与之前的方法相比，在输入和输出特征通道中实现维度变换，从而大幅减少了可学习参数的数量。具体而言，特征通道的维度在一开始被压缩到一半，然后在最后再次提高。此外，交叉关注层被有策略地引入到定期间隔，以进一步优化模型的性能。

对于文档特征和视觉特征，模型预测下一个单词，损失计算为：

其中是输入文本的长度。最终的损失函数由语言建模损失和对比损失组成：

其中是数据类型的数量。

提升图文对齐能力

视觉编码器通常是基于 CLIP 模型的，经过精心训练以保留极具辨识度的信息。使用 Preceiver resampler 从视觉编码器中提取时空特征，生成固定数量的视觉 token。然而，这种存在错过关键细节的风险，可能导致某些信息不清晰。

与此相反，CosMo 的方法通过引入一个可学习的 query 来扩展这个过程，全局关注所有 token，包括文本融合层的额外可学习 query。这一修改使得对整个 token 集有更全面的理解。随后，模型使用投影头将视觉和文本嵌入统一到相同的维度中，训练目标主要集中在优化对比损失上。

交错数据的预处理

图文相似性矩阵

在交错的 MMC4 数据集中，每个文档通常表示为一个网站（包含从文档中提取的文本列表和图像列表）。此外，数据集提供了使用 CLIP 模型计算的成对图文相似性。由于文档中没提供图像的位置信息，在预训练期间，Open-Flamingo 采用 Optimal Transport 方法从相似性矩阵中选择匹配索引，这有助于建立图像和文本之间的关联关系。

数据过滤

MMC4 数据集中包含许多具有低相似度分数的图像，这些图像可能包括 logo、下载失败的图像或与附带文本完全无关的图像，如图 4 所示。如果直接在这样的数据上进行模型训练，由于图像和文本之间存在固有的不相关性，会导致梯度爆炸的问题。为了缓解这个问题，MMC4 采用了 CLIP ViT-L/14 计算相似性分数的筛选方法。然而，这种方法会舍弃大量样本，从而降低了数据集的多样性。

为了克服这些限制，作者采取了相似性分布和保留文档上下文的策略，显著丰富了采样文档并增强了训练稳定性。

实验

预训练数据选择

为了构建精心挑选的数据集子集，首先从完整数据集中过滤掉了相似度分数较低的一半数据。接着，采用 K 均值聚类的方法，从每个簇中均匀采样数据，最终得到了 1 亿个数据点。图 5 提供了该聚类过程的示例。对于交错的数据，研究使用了来自 MMC4 的 3000 万数据点（通过去除图像太小或没图像的样本进行过滤）。

消融实验

对比损失的重要性：对比损失在本文方法的成功中起到了关键作用。我们观察到，在单个和多个 GPU 上使用对比损失始终会提高模型性能。然而，进一步研究表明，聚合所有节点上的对比损失并不能提供相应的好处。这可以归因于模型对对比损失的强烈关注，它可能影响语言建模损失的学习。
所有数据都很重要：适当选择训练数据对模型性能至关重要。删除交错的图文数据集导致平均分数显著下降，而忽略传统的图-文对同样影响性能，另外，省略成对的视频文本数据集对大多数下游任务都产生了负面影响。为了充分利用全部数据进行训练，作者采用梯度累积，梯度累积步数与数据类型匹配。研究结果还表明，“最小”策略在各种训练数据类型之间保持平衡方面优于“最大”和“轮询”。
视觉编码器大小：调整视觉编码器大小会对模型性能产生影响。较大的视觉编码器通常表现出稍微更好的结果，但这种提升被相应的模型参数数量和计算需求所抵消。
模型轻量化：在追求更轻量和高效网络的过程中，作者通过减少最小化交叉注意层的数量和压缩其相关参数来降低可学习参数。令人惊讶的是，减少可学习参数的数量通常并不导致性能下降，这一策略已被纳入最终的框架。
交错的长度：总体而言，较长的序列导致更好的结果。然而，值得注意的是，更长的输入序列也会引入更高的计算需求，并由于增加的 GPU 内存消耗而显著减缓训练速度。

视觉语言任务的 Few-shot 评估

如下表所示，在几乎所有数据集中，CosMo 都优于 Open-Flamingo，并且这是在大大减少的样本数量和较少的参数的情况下取得的。当使用相同的 RedPajama-3B 模型作为语言模型时，模型的性能也远远优于 Open-Flamingo。此外，本文提出的 HowtoInterlink7M 数据集上有更好的结果，突显了高质量数据的强大作用。

训练细节

视频-文本任务

实验结果表明，在视频字幕生成和视频问答任务中，本文模型在各个方面性能都得到了提升，尤其是在使用额外视频数据集的情况下。然而，当前数据由基于规则的方法生成而非人工注释，其真实质量受损。尽管模型在某些情况下生成了更详细和准确的预测，与真实情况不一致，为了解决这个问题，作者提出了一种替代方法来评估 VQA 性能，使用 NLTK 的预训练语言模型进行文本相似性评估。在多数评估的下游任务中，CosMo 模型一直表现出强大的性能。

交错的相似度分数可视化

如表 5 所示，相似度阈值选择对实验结果产生影响。当相似性阈值低于0.22时，频繁的梯度爆炸妨碍了模型的成功训练，这主要是由于嘈杂数据的破坏性影响。较大的阈值则导致 COCO 和 FLICKR30K 上次优秀的结果，部分原因是交错样本的丢失。为了解决这个问题，作者尝试用预训练的 CosMo 生成的低相似度标题替换嘈杂的数据，使训练更加稳定。

对交错子集的分析

在这个实验中，作者对来自 MMC4 数据集的三个独特子集（随机抽样的 400 万子集、具有最高图像数量的 400 万样本以及仅包含单帧的 400 万样本）进行了仔细研究。为减轻多帧文档过度抽样的潜在问题，将模型训练限制为单个时期。表 6 中的详细结果显示了显著的性能差距，特别是对于帧数最多的子集。这一显著差异表明，小样本学习的有效性在很大程度上源于交错数据的整合以及对 LLM 的合理使用。

零样本对齐任务

在零样本图像分类和检索任务中，利用 DataComp 的评估流程，在 38 个数据集上进行性能评估，结果如表 7 所示：

总结

本文通过将对比损失整合到已有的自回归多模态模型中，提出的 CosMo 模型在多个图像-文本和视频-文本数据集上展现出明显优于先前 SOTA 工作 Open-Flamingo 的性能，同时使用了更少数量的相同公共数据集样本。此外，作者提出的高质量交错视频-文本数据集 Howto-Interlink7M 进一步提升了 CosMo 在各种任务中的性能。

然而，我们也认识到一些挑战：如当前数据集中存在的真实数据质量问题，以及在某些情况下模型生成更详细但与真相不一致的预测。这些问题为未来的研究指引了方向，强调了对更高质量和真实性的数据的需求，以及在评估任务中更全面的性能衡量指标的迫切需求。

总之，本文为推动多模态学习领域的进一步研究提供了有益的见解和启示。这也为未来探索多模态学习领域的新方向，特别是在数据质量和性能评估方面，打开了新的研究机遇。

参考链接：

[1]https://www.theverge.com/2024/1/4/24025270/google-bard-advanced-paid-subscription

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章