Google提出LaCLIP：大语言模型重写本文输入，让CLIP重焕光彩！

科技

2023-07-21 04:07

©PaperWeekly 原创 · 作者 | 岳廷

论文标题：

Improving CLIP Training with Language Rewrites

论文地址：

https://arxiv.org/pdf/2305.20088.pdf

引言

问题：CLIP 算法自出现以来，以其惊艳的效果爆火，其优点如下

可以从大规模的无标注或弱标注的（图像，文本）对中学习视觉概念，克服了传统视觉模型对有限类别标签的依赖。
可以利用自然语言作为一种灵活的预测空间，实现零样本或少样本的迁移学习，适应多种视觉任务。
可以提高视觉模型的泛化性和鲁棒性，在多个视觉基准测试中表现出色，甚至超过了在 ImageNet 上全监督训练的模型。

即使效果已经很惊艳，但纵观 CLIP 全篇，其数据增强主要集中在图像部分，文本部分的数据增强有限。

解决方案：来自谷歌的研究人员提出了一种名为 LaCLIP（Language augmented CLIP：LaCLIP）的简单而高效的方法，通过文本重写来增强 CLIP 的性能。利用大型语言模型的上下文学习能力，重新编写与每个图像相关的文本描述。这些重写的文本在句子结构和词汇方面具有多样性，同时保留了原始的关键概念和含义。通过该方法，显著提升 CLIP 性能！

效果：在 CC3M、CC12M、RedCaps 和 LAION-400M 数据集上进行的广泛实验表明，使用语言重写的 CLIP 预训练显著提高了迁移学习性能，在训练过程中没有新增计算或内存开销。具体而言，在 ImageNet 零样本准确率方面，LaCLIP 在 CC12M 上优于 CLIP 8.2%，在LAION-400M上优于CLIP 2.4%！

具体方法

2.1 使用In-Context Learning (ICL) 进行文本重写

2.1.1 什么是In-Context Learning (ICL)

ICL 是一种学习范式，它允许语言模型通过以演示形式组织的若干个示例或者指令来学习任务。ICL 不需要对模型参数进行更新，而是利用预训练的大型语言模型（如 GPT-3）的泛化能力和隐含的概念知识，来适应不同的下游任务。ICL 在许多 NLP 的基准测试中，已经媲美甚至超过全资源微调的方法。ICL 的效果与演示示例（demonstrations）有很强的相关性。例如，如果本文想让模型做情感分析的任务，本文可以给它以下的演示示例：

Text: I love this movie so much! Sentiment: Positive

Text: This is a boring and predictable book. Sentiment: Negative

Text: How do you feel about this song? Sentiment:

然后让模型生成下一个 token，它可能会预测出 Positive 或 Negative 作为情感标签。这就是 ICL 的一个简单例子。

ICL 的核心在于从任务相关的类比样本中学习，ICL 要求若干示例以特定形式进行演示，然后将当前输入 x 跟上述示例通过 prompt 拼接到一起作为语言模型的输入，让语言模型根据演示中的概念和规则来生成输出 y2。（说白了，就是在提示词的基础上给大模型举例子）。

还有一些其他的 ICL 的例子，比如根据自然语言描述编写代码，帮助设计应用程序模型，概括电子表格功能等等。

在本文中，将这些 ICL 示例称作元输入-输出对。

2.1.2 生成ICL元输入-输出对

本文使用以下三种方案生成元输入-输出对：

通过聊天机器人重写。本文随机从图像-文本数据集中采样文本，并使用诸如"用图像生动地重写这张图片的提要，少于三十个词：“的提示，通过 ChatGPT 和 Bard 网页端口生成目标文本。这一过程的举例可在图 1 中找到。这里本文利用这些模型极强大的重写能力提供修订后的提要，它保留原提要的实质但改变了风格和细节。这确保与相应图像相关的语义不变，以方便在表征学习中使用。
MSCOCO 采样。许多现有的图像描述数据集中都提供了相同图像的多个文本描述。为利用这一特性，本文利用广泛使用的 MS-COCO 数据集。在此数据集中，每个图像与五个不同的文本描述相关联，这些描述已由人工工作人员认真标注。从此数据集中，本文随机选择一部分图像。对于选择的每个图像，本文将一个描述作为元输入文本，另一个描述作为元输出文本。
人工重写。随机从各种图像-文本数据集中采样若干图像-文本对。为确保文字变化多样且有变化，本文聘请人工标注人员，要求他们基于相应观察到的图像内容来重写提要。这样就产生了元输入-输出对，由原始文本和人工标注人员重写的版本组成。

通过利用不同的生成策略，本文获得了四种不同类型（ChatGPT、Bard、COCO 和人工）的元输入-输出文本对，然后它们作为宝贵的示例供 ICL 框架使用。对于每个特定策略，从图像-文本数据集中随机选择 16 个原始提要，并使用该策略生成目标提要，产生总共 16 对元输入-输出对。这些对囊括了源和变化的范围，为本文框架提供全面且多样化的训练。

2.1.3 大规模文本重写

对于几亿文本使用封闭源模型如 ChatGPT 或 Bard 进行重写是不现实的，因为与 API 使用相关的财务和时间代价高昂。所以，为方便任何给定图像-文本数据集中的文本样本重写，本文采用 LLaMA 开源大模型。尽管没有针对指令细调，LLaMA 显示出优异的 ICL 能力。本文使用上节中描述生成的元输入-输出对，利用 LLaMA 的 ICL 能力重写图像-文本数据集中的每一个文本条目。

具体而言，给定要重写的文本样本，上下文输入由以下三个部分构成：

1、提示词，告知大语言模型要重写图像描述的任务。这有助于大语言模型理解手头的目标。

2、三个示例。使用元输入-输出文本对中采样的三个样本。随机地从一个具体的策略（如 ChatGPT）中选择三个不同的元输入-输出标题对。每对通过"=>" 符号清楚地分隔。这些对提供清晰的示例，展现给大语言模型学习的期望的重写行为。额外的随机采样过程进一步使 LLaMA 模型产生更多样性的文本重写。

3、需要重写的文本样本，然后是分隔符。确保大语言模型收到需要重写的具体文本作为上下文输入的一部分。

利用构建的上下文输入作为提示，使用 LLaMA 进行文本重写。这个过程为数据集中每个文本样本进行重写。具体来说，采用 LLaMA-7B 模型为数据集中的每一个文本样本生成四个不同的重写，其中每一个重写对应四个不同的元输入-输出来源（ChatGPT、Bard、COCO 或人类）中的一个。对 CC3M 数据集整体生成一个重写在 8 个 A100 GPU 机器上需要 7 小时。通过结合多个来源并利用 LLaMA 的能力，本文确保为数据集中每个文本样本生成多样性且上下文相关的文本重写。

一个重写示例如下：

实验结果

3.1 数据集

使用四个不同规模和领域的图像-文本数据集来进行预训练，分别是 CC3M [47]（约 300 万个图像-文本对），CC12M [46]（约 1200 万个图像-文本对），RedCaps [41]（约 100 万个图像-文本对），LAION-400M [33]（约 4 亿个图像-文本对）

3.2 训练参数

对于在 CC3M、CC12M 和 RedCaps 上的大多数实验中，利用 ViT-B/16 架构，并使用 8192 的批量大小和 AdamW 优化器训练模型。此外，本文在消融实验中探索了 ViT-L/16 和 ViT-S/16 架构。对于 LAION-400M，使用 ViT-B/32 架构，批量大小为 32，768 加速训练，并且遵循 [42] 中概述的精确训练设置，训练模型 32 个周期。

3.3 评估设置

三个评估指标：zero shot（ZS）分类准确率、Few shot（FS）分类准确率和线性探测（LP）准确率。

对于 ZS，采用与 CLIP 论文中描述的相同的提示模板。类文本嵌入用于计算图像特征的距离，图像被分类到距离最短的类。

对于 FS 分类，遵循 CLIP 论文中的设置，在冻结特征之上使用加权 kNN 分类器进行 5 类 5 个 shot 分类。

对于线性探测，按照 CLIP 论文，本文冻结预训练图像编码器，并提取数据集中的每张图像的特征。然后在提取的特征之上使用 L-BFGS 优化器训练线性分类器。

ZS 和 LP 分别在 ImageNet（IN）和 15 个下游（DS）数据集上评估。FS 在相同的下游数据集上评估。在移除实验中，本文在 IN 和 DS 平均值上报告性能。

3.4 Zero-shot评估

在表 1 中对 ImageNet 和下游数据集上的零样本迁移性能进行了全面分析。显而易见的是，对于所有预训练数据集，本文的 LaCLIP 方法在 ImageNet 和下游数据集上都超过基线 CLIP 模型。例如，在 CC12M 数据集上训练模型时，本文的 LaCLIP 方法在 ImageNet 上的绝对 top-1 准确率上实现超过 8% 的提升，在其他下游数据集上平均提高了 7%。LaCLIP 和 CLIP 在训练过程中共享完全相同的参数数量和计算成本。

3.5 Few-Shot&Linear-Probing评估

表 2 中呈现了 5-way 5-shot classification performance 以及 linear-probingperformance。本文的方法在绝大多数情况下始终超过原始的 CLIP 或 SLIP。有趣的是，尽管在图像方面引入额外的自监督，但 SLIP 在少量训练数据下的性能低于原始的 CLIP。然而，通过结合本文提出的语言增强策略，SLIP 的少量训练数据性能得以改善，超过了原始的 CLIP。这一结果强调了文本增强在少量训练数据下的有效性。

此外，需要强调的是，观察到的少量训练数据和线性探测结果的改进仅通过利用图像编码器实现。这证明了本文提出的文本增强方法的有效性，不仅可以提高图像文本联合嵌入空间性能，更有效地对齐图像和文本特征，还可以提高图像表示本身的质量。