ECCV 2022 Oral | Language Matters:面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法
点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
点击进入—> CV 微信技术交流群
本文简要介绍一篇被ECCV 2022录为oral的论文“Language Matters:A Weakly Supervised Vision-Language Pre-training Approach for Scene Text Detection and Spotting”。该论文提出了一种弱监督的预训练方法oCLIP,该方法通过联合学习和对齐视觉和文本信息来获得有效的场景文本表示,可以使用弱标注的文本进行预训练(仅对图片中的部分文字进行文字标注,且不需要框标注)。在ICDAR2019-LSVT[1]数据集上,文中的预训练方法利用数据集的弱标注,在检测任务和端到端任务上分别提升了2.5%和4.8%,文中的预训练方法在多个公开数据集上超过了目前已有的其他预训练方法。
一、研究背景
二、方法原理简述
图1是oCLIP的整体框架。整个网络包含三个部分:1)图像编码器(ResNet50[2]+多头注意力层)2)字符感知文本编码器3)视觉-文本解码器。图像经过图像编码器得到图像编码,字符感知文本编码器通过对文本实例的字符进行编码得到文本实例编码。得到的图像编码和文本实例编码随后通过视觉-文本解码器进行交互建模。在训练的时候,会随机Mask掉每个文本实例中的一个字符,网络通过预测这个字符进行优化。
字符感知文本编码器
在通常的视觉-语言任务中,文本通常是用来描述图片内容的一个完整句子,句子中的单词是有很强相关性的,因此会对整个句子的单词按顺序编码。但是在OCR任务中,文本是图片中出现的文字,图片中往往包含多个文本实例,同一文本实例的字符有很强的关联,不同文本实例的字符通常是不关联的。因此不可以将所有文本实例按顺序编码。文中就提出了字符感知文本编码器对文本实例进行编码。
字符感知文本编码器对文本实例的字符进行编码,得到文本实例级别的编码向量。一张图中,给定n个标注的文本实例,每个文本实例包含一串字符,作者将字符嵌入到固定长度的向量中,并加入位置编码[3],该过程可以用公式1表示:
其中是字符编码矩阵,第i个文本实例的字符编码为,随后字符编码通过Transformer 编码器交互建模文本实例中字符的关系得到实例编码。最后文本编码器得到文本实例编码
视觉-文本解码器
文中提出了一种视觉-文本解码器,该解码器对输入图像和每个注释的文本实例之间的交互进行建模,同时忽略未标注的文本实例。解码器由6层解码层组成,文本实例编码作为Q,图像编码作为K,V,解码器没有使用自注意力层以忽略不同文本实例之间的关系。最后解码器用于预测被Mask掉的字符来优化网络。
损失函数
网络的损失函数由两部分组成:1)预测字符的分类损失和2)Batch级别的对比损失。分类损失采用交叉熵损失函数,如公式2所示,其中I和T是输入的图片和文本实例,是预测的被Mask的字符,是真实的被Mask的字符,H是交叉熵损失函数。
受CLIP[4]的启发,文中采用Batch级别的对比损失加快网络的收敛。对于一个Batch里面的N张图片和文本,构建一个的(文本,图像)矩阵。其中正确的配对有N种,其他对是错误的匹配。通过计算Image-to-text和Text-to-image的相似度来计算对比损失。相似度如公式3所示。
Batch级别的对比损失如公式4所示,采用交叉熵损失,其中是真实的相似度,正确的匹配为1,错误的匹配为0.
最终总的损失函数如公式5所示
三、主要实验结果及可视化效果
如表一、二所示,在ICDAR2019-LSVT数据集上使用文中的预训练方法对检测和端到端任务都有明显的提升。(+oCLIP :使用文中的方法在ICDAR2019-LSVT数据集的40w弱标注数据上进行预训练)
表三是使用不同标注比例的合成数据进行预训练的实验结果,其中是不进行预训练,直接用PSENet[5]在Total-Text上训练;是用PSENet在Synth Text上预训练然后再Total-Text上fine-tune;是指使用文中的预训练方法,每张图给出25%的文本标注进行预训练。可以发现文中的预训练方法效果要好于PSENet直接在Synth Text上预训练的效果,并且在不同标注比例的设置上效果也很稳定。
表三 使用Synth Text不同标注比例的文本实例预训练(PSENet在Total-Text上Fine-tune)
表四 和目前的场景文字预训练方法对比
表五 在CTW1500上和目前先进的文字检测方法对比
表六 在Total-Text上和目前先进的文字检测方法对比
表七 在ICDAR-2015上和目前先进的文字检测方法对比
表八 在ICDAR-2015和Total-Text上和目前先进的端到端方法对比
四、总结及讨论
五、相关资源
Language Matters:A Weakly Supervised Vision-Language Pre-training Approach for Scene Text Detection and Spotting 论文地址:
https://arxiv.org/abs/2203.03911
参考文献
[1] Sun Y, Ni Z, Chng C K, et al. ICDAR 2019 competition on large-scale street view text with partial labeling-RRC-LSVT. In ICDAR, pages 1557-1562, 2019.
[2] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition. In CVPR, pages 770-778, 2016.
[3] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. In Advances in Neural Information Processing Systems, pages 5998–6008, 2017.
[4] Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision. In International Conference on Machine Learning, pages 8748-8763, 2021.
[5] Wang W, Xie E, Li X, et al. Shape robust text detection with progressive scale expansion network. In CVPR, pages 9336-9345, 2019.
撰稿:黄鎏丰 编排:高 学
审校:连宙辉 发布:金连文
点击进入—> CV 微信技术交流群
CVPR/ECCV 2022论文和代码下载
后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集
后台回复:ECCV2022,即可下载CVPR 2022论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF
目标检测和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲扫码或加微信号: CVer222,进交流群
CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!
▲扫码进群
▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
微信扫码关注该文公众号作者