CVPR 2023 | 白翔团队提出：将CLIP模型用于场景文本检测

2023-04-03 05:04

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

转载自：CSIG文档图像分析与识别专委会

本文简要介绍CVPR 2023录用论文“Turning a CLIP Model into a Scene Text Detector”的主要工作。该论文提出一种新方法TCM，专注于将CLIP模型用于文本检测任务而不需要预训练过程。该方法的基本原理可以直接应用于改进现有的场景文本检测器。同时它促进了现有方法的少样本训练能力，通过使用10％的标记数据，该方法在4个基准测试中的F-measure方面显着提高了基线方法的性能。此外，通过将CLIP模型转化为现有的场景文本检测方法，作者进一步实现了有前途的领域自适应能力。

论文：https://arxiv.org/abs/2302.14338

代码：https://github.com/wenwenyu/TCM

一、研究背景

由于场景文本识别具有广泛的实际应用场景，例如办公自动化、即时翻译、自动驾驶和在线教育。因此它是一项长期的研究课题，目的是在从自然图像中定位每个文本实例的边界框或多边形。随着全面监督深度学习技术的快速发展，场景文本检测取得了显著的进展。虽然监督式方法在文本检测领域取得了显著进展，但它们需要广泛而精细的注释，例如字符级、单词级和文本行级边界框，特别是针对任意形状的场景文本的多边形框。因此，研究少量标记数据下的文本检测方法，即少样本学习，非常重要。

最近，通过利用预训练的视觉和语言知识，大规模对比语言图像预训练（CLIP）模型[1]已经展示了它在各种下游任务中的重要性，例如图像分类、目标检测和语义分割。

与一般的物体检测相比，自然图像中的场景文本通常呈现出视觉和丰富的字符信息，这与CLIP模型有着自然的联系。因此，如何充分利用视觉、语义和文本知识的跨模态信息，以提高文本检测模型的性能，受到了越来越多的关注。

本文作者的重心是将CLIP模型转化为无需预训练过程的文本检测器。然而，将CLIP模型整合到场景文本检测器中并不是一件简单的事情。关键在于寻找一种适当的方法，利用每个图像上的视觉和语义先验信息。因此，作者开发了一种名为TCM的新方法，用于场景文本检测，如图1所示，TCM是一个可插拔模块，可以轻松地插入到改进场景文本检测框架中。具体TCM的实现如图2所示，作者通过视觉提示学习设计了一种跨模态交互机制，从CLIP的图像编码器中恢复局部特征，可以捕获细粒度信息对粗文本区域做出反应，以便随后在文本实例和语言之间进行匹配。为了更好地指导预训练的知识，作者引入了一个语言提示生成器来为每张图像生成条件线索，并设计了一个视觉提示生成器，它学习图像提示，以适应冻结的剪辑文本编码器进行文本检测任务。TCM 可以直接适用于更广泛的文本检测方法，只需稍作修改。此外，作者设计了一种实例语言匹配方法来对齐图像嵌入和文本嵌入，这鼓励图像编码器从跨模态视觉语言先验中显式细化文本区域。我们将在下面章节对每个方法细节进行详细的介绍。

图1. 方法整体框架

图2. TCM的详细框图。图像编码器和文本编码器直接来自CLIP模型。

二、图像编码器

作者使用 CLIP 的预训练 ResNet50作为图像编码器，它为每个输入像素产生一个嵌入向量，可表示为公式（1）。

三、文本编码器

文本编码器接受输入一个包含K个类别提示的文本，并将其嵌入到连续的向量空间，产生文本嵌入作为文本编码器的输出，具体来说，作者在整个过程中利用了已经冻结预训练的CLIP文本编码器作为语言知识先验，以用于文本检测。由于文本检测任务中只有一个文本类别，因此K被设置为1。与原始模型使用像“A Photo Of A [CLS]”的模板不同，作者预定义离散的语言提示为“Text”。文本编码器输入的一部分定义如下：

WordEmbedding(·)表示预定义提示“Text”类别的词嵌入。D表示词嵌入的维度，设置为512。

受 CoOp [2, 3] 的启发，作者还添加了可学习的提示，以学习文本嵌入的强韧可转移性，从而促进 CLIP 模型的零样本转移，其中n是可学习提示的数量，默认设置为4。因此，文本编码器的输入 tin 如下：

文本编码器以 tin 作为输入，生成文本嵌入tout。

四、语言提示生成器

尽管预定义的提示和可学习提示对于引导 CLIP 模型非常有效，但在测试文本实例与训练图像不匹配的开放式场景中，它可能会受到有限的少样本或泛化能力的影响。因此，作者提出了一种语言提示生成器来生成一个特征向量，称为条件提示 (cc)。对于每个图像，cc 然后与文本编码器的输入 tin 结合，表示如下：

其中是以输入图像为条件的文本编码器的新提示输入。同时将公式（4）的tin替换为。

在实际的实现中，语言提示生成器是由一个两层前馈网络构建而成，用于从全局图像嵌入 I 中生成条件提示 (cc)。它由两个层归一化后跟线性变换组成，在它们之间有一个 ReLU 激活函数，表示如下：

五、视觉提示生成器

作者设计了一个视觉提示生成器，以自适应地传播从文本特征到视觉特征的细粒度语义信息。形式上，作者使用Transformer中的交叉注意机制来建模图像嵌入(Q)和文本嵌入(K，V)之间的交互。然后学习视觉提示以将信息从图像级传递到文本实例级，其定义为：

根据条件视觉提示，原始图像嵌入I配备了，用于生成提示文本感知的局部嵌入，用于实例语言匹配（公式9）和下游检测头：

六、实例语言匹配

给定文本编码器和图像编码器的输出，作者对具有文本感知的局部图像嵌入和文本嵌入tout执行文本实例语言匹配对齐，使用点积后跟Sigmoid激活来获取二进制评分映射。生成的条件细粒度嵌入和视觉嵌入I的混合可以使存在于视觉特征中的文本实例与预训练语言知识更好地协作匹配。匹配机制的表述如下：

其中tout是文本嵌入，因为文本检测场景中只有一个文本类别，而P是二进制文本分割图。分割图使用真实标注作为辅助损失进行监督，并与提示的嵌入串联起来，用于下游文本检测头，以显式地融合语言先验知识进行检测。在训练过程中，作者最小化分割图P与地面实况之间的二元交叉熵损失，定义如下：

七、优化

总损失函数Ltotal是检测损失Ldet和辅助损失Laux之和，其公式如下：

其中，λ是一个权衡超参数，在本文中设置为1。Ldet取决于下游文本检测方法，包括分割和回归类别。在推理阶段，我们使用检测头的输出作为最终结果。

八、实验

作者进行了四组实验来验证TCM。第一组实验研究了如何将TCM纳入现有的文本检测器中，以实现一致的性能提升。接下来，作者通过采用TCM方法展示了其少样本训练能力和泛化能力。在第三组实验中，作者将TCM与以前的预训练方法进行比较。最后，作者提供了全面的实验来评估所提出的设计的灵敏度。

实验是在许多已知的场景文本检测基准上进行的，ICDAR2013 (IC13), ICDAR2015 (IC15)、MSRA-TD500（TD）、CTW1500（CTW）、TotalText（TT）、ArT、MLT17和MLT19。

实现细节。对于文本检测任务，作者尝试了包括DBNet (DB) 、PAN 和FCENet (FCE) 在内的流行文本检测方法来评估TCM。为了与这些方法保持一致的设置，使用SynthText和真实数据集来训练检测器。作者使用DBNet、PAN和FCENet的相应检测头来预测最终结果。对于模型的少样本学习测试，作者直接在基准测试中使用不同比例的训练数据进行训练，不进行预训练，并在相应的测试数据上进行测试。为了测试泛化能力，作者使用在相应源数据集上训练的模型，并在具有不同分布的目标数据集上进行评估。作者考虑了两种域适应类型，包括Synthtext-to-real和Real-to-real，以验证TCM的域自适应能力。针对预定义提示、可学习提示、语言提示生成器、视觉提示生成器和不同设置，作者进行了消融研究。DBNet被用作TCM的基准。

与现有方法的合作。作者在表1中报告了TCM与三种文本检测方法在IC15、TD和CTW上的文本检测结果。作者的方法在IC15的F-measure方面比原始的FCENet、PAN和DBNet分别高0.9%、1.7%和1.9%。TD和CTW也有类似的一致改进。请注意，作者的方法在IC15、TD和CTW数据集上使用PAN、FCENet和DBNet进行评估的推理速度分别为18、8.4和10 FPS，保持了检测器的高效性。同时作者在图3中展示了TCM的效果。它从全局图像嵌入I中恢复包含文本信息的细粒度特征，证明TCM可以识别文本区域并为下游的文本检测提供这些先验线索。

表1. 在IC15、TD和CTW上与现有方法合作的文本检测结果

图3. TCM可视化结果。对于每对图像，左侧是图像嵌入I，右侧是生成的可视化提示

。

少样本训练能力。为了进一步验证TCM方法的少样本训练能力，作者直接在真实数据集上使用不同的训练数据比例进行训练，并在相应的四个基准测试集上进行评估，而不进行预训练。如图4所示，作者的方法在有限的数据上表现出鲁棒性，并且优于包括DB、PAN和EAST在内的三种基准方法。结果表明，TCM可以通过利用零样本训练的CLIP模型的预训练视觉和语言知识来捕捉文本的固有特征。

图4. 使用不同的训练数据比例进行少样本训练能力测试。

泛化能力。作者进行了两种类型的实验，包括SynthText到真实图像的适应性和真实图像到真实图像的适应性，如表2和表3所示。从表格中，我们可以看到通过将TCM插入到DBNet中，作者在包括SynthText到真实图像和真实图像到真实图像在内的四个不同设置中平均提高了8.2％的F-measure，这进一步证明了作者的方法在域自适应方面的有效性。

表2. SynthText到真实图像的适应性。

表3. 真实图像到真实图像的自适应性。

与预训练方法的比较。基于特定设计的先前任务的预训练方法在文本检测领域取得了有效的进展。相比之下，TCM可以直接将CLIP模型转化为场景文本检测器，无需预训练过程。比较结果显示在表4中，我们可以看到，在没有用于预训练的先前任务的情况下，DB+TCM始终优于先前的方法，包括DB+STKM 、DB+VLPT和DB+oCLIP 。特别是在IC15上，作者的方法大幅优于先前的最先进的预训练方法，F-measure方面为89.4%，而先前的方法为86.5%。

表4. 与DBNet上现有的场景文本预训练技术的比较。

预训练CLIP骨干网络消融实验研究。首先，作者进行了实验，仅用CLIP预训练的图像编码器ResNet50替换DBNet的原始骨干网络，以量化骨干网络的性能差异。如表5所示，CLIP的原始预训练模型不足以利用CLIP的视觉语言知识。因此，需要使用适当的方法来挖掘CLIP模型的知识。

表5. 在IC15、TD、TT和CTW数据集上对ResNet50骨干网络的消融研究。

关于预定义提示的消融实验研究。当使用预定义提示，如表格6中第二行所示时，在所有四个数据集（IC15、TD、TT和CTW）上的表现都略有改善，分别比基线方法高出0.05%、0.2%、0.04%和0.1%。

关于可学习提示的消融实验研究。此外，表格6第三行提供了在四个数据集上结合可学习提示和预定义提示的结果。我们注意到，通过添加可学习提示可以实现持续改进。在表格6的第四行到第六行中，作者展示了使用不同数量可学习提示的影响。我们观察到，随着可学习提示数量的增加，所有数据集上的性能逐渐提高。与数量为4的值相比，数量为32的值在CTW、TD和TT上获得了明显的改进。作者推测这是因为更多的可学习提示可以更好地引导预训练的文本编码器知识，这对文本检测是有用的。在以下实验中，出于简单起见，可学习提示的默认数量设置为4。

语言提示生成器的消融实验研究。此外，作者评估了表6第7行所示的提出的语言提示生成器的性能。借助语言提示生成器的帮助，作者发现TCM在所有四个数据集上都取得了进一步的改进，特别是在ICDAR2015上，这表明语言提示生成器为每个图像生成的条件提示可以确保更好的泛化性能，适用于不同类型的数据集。

表6. 作者在IC15、TD、TT和CTW上进行的消融实验研究提出的组件。

视觉提示生成器的消融实验研究。最后，将提出的视觉提示生成器与上述其他组件结合起来，F-measure的改进优于基线方法，在所有四个数据集上都有更大的提升，其中在IC15和TD上分别为1.7％和2.0％。这种明显的互补现象的原因是，视觉提示生成器可以将细粒度的视觉语义信息从文本特征传播到视觉特征。此外，由视觉提示生成器生成的提示局部图像嵌入可以指导模型获得更准确的文本实例级视觉表示，从而提高实例-语言匹配的能力，并生成有用于下游检测头的精确分割得分图。

VG和LG对泛化性能的消融实验研究。如表7所述，从TCM中去除VG和LG元素会严重损害泛化性能，这进一步表明了VG和LG的有效性。

表7. LG和VG对泛化性能影响的消融研究。

图像编码器和文本编码器的消融实验研究。作者调整相应的学习率因子，研究了冻结文本编码器和图像编码器的质量如何影响性能。在TD500数据集上进行的TCM-DBNet实验结果如表8所示。结果表明，对于整个模型的训练，使用较低的学习率来调整两个编码器，并固定文本编码器是最佳设置。需要注意的是，当直接使用1.0×学习率来调整两个编码器时，我们观察到性能下降，这表明冻结文本编码器可以稳定训练过程。体系结构的核心，包括语言提示生成器和视觉提示生成器，旨在更好地引导预训练CLIP的知识。网络体系结构的适当设计和预训练CLIP的使用是相辅相成的。

表8. 图像编码器和文本编码器的消融研究

不同数据量的消融实验研究。为了进一步探究TCM是否可以学习到难以从增加数据中获得的额外知识，作者在包括IC13、IC15、TD、CTW、TT和MLT17等公共联合数据集上对模型进行了训练，共计13,784张图像，并在从ArT精心收集的NightTime-ArT数据集（326张图像）上进行测试。ArT的夜间示例如图5所示。结果如表9所示。结果表明，即使加入了大量的训练数据，现有方法仍然存在明显的局限性，无法应对明显与训练集分布不同的夜间数据。然而，TCM在这种情况下仍然可以表现出强大的稳健性，表明它具有不可替代的潜在泛化能力。

表9. 大量训练数据的消融实验。

图5. 作者构建NightTime-ArT数据集的示例。

参数比较的消融实验研究。为了公平比较，作者通过将DBNet的骨干网络替换为更大的ResNet来增加其参数，然后在TD500数据集上进行实验。可训练参数和FLOPs是在输入尺寸为1280×800时计算的。结果如表10所示。结果表明，相比于模型尺寸和计算开销更小的DBNet，TCMDBNet具有更好的性能，证明了它在场景文本检测中的有效性。

表10. DBNet参数比较的消融实验研究。

辅助损失的消融实验研究。作者进一步比较了在TD500数据集上采用和不采用辅助损失的结果，如表11所示。我们可以看到采用辅助损失可以获得更高的性能。结果表明，辅助损失通过对实例-语言匹配分数图施加约束有助于训练模型。此外，性能的提高表明它可能有助于让预训练CLIP的图像编码器有效地感知局部文本区域。

表11. 辅助损失的消融研究。

图6. 失败案例。红圈表示假阳性区域。

九、失败案例讨论

在图8中有一些有启发性的失败案例。实例-语言匹配分数图会生成一些非常类似于文本特征的假阳性区域，如图8中红圆圈所示，这些区域会被视为噪声。因此，下游的文本检测头需要进一步优化这个初始分数图，而不是直接使用实例-语言匹配的分数图作为最终结果。作者将把这个问题留给未来的工作来减轻实例-语言匹配的假阳性分数图。

十、总结

本文提出了TCM，可以将CLIP模型中的先验知识直接挖掘到一个场景文本检测器中，而无需预训练过程。这种新的文本检测范式揭示了使用视觉语言先验来从零-shot off-the-rack模型中寻找信息的重要性，从而引导文本检测器适应小规模数据、不同的数据分布和复杂的场景，而不依赖于精心设计的预训练任务。实验全面地证明了TCM的有效性。值得一提的是，作者还构建了一个NightTime-ArT数据集，进一步证明了TCM可以从CLIP模型中引导有用的先验知识。由于CLIP模型是一个天生友好的文本框架，将TCM扩展到场景文本识别也是未来工作的一个有前途的方向。

参考文献

[1] Alec Radford, et al. "Learning transferable visual models from natural language supervision". In ICML2021.

[2] Kaiyang Zhou , et al. "Conditional prompt learning for vision-language models”. In CVPR 2022.

[3] Kaiyang Zhou, et al. "Learning to prompt for vision-language models". In IJCV 2022.

原文作者: Wenwen Yu, Yuliang Liu, Wei Hua, Deqiang Jiang, Bo Ren, Xiang Bai

撰稿：郑晓怡编排：高学

审校：连宙辉发布：金连文

点击进入—>【计算机视觉】微信技术交流群

最新CVPP 2023论文和代码下载

后台回复：CVPR2023，即可下载CVPR 2023论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立

扫描下方二维码，或者添加微信：CVer333，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。

一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer333，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉，已汇集数千人！

▲扫码进星球

▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章