Redian新闻
>
ECCV 2022 Oral | ​Language Matters:面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法

ECCV 2022 Oral | ​Language Matters:面向场景文字检测和端到端识别的弱监督的视觉-语言预训练方法

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—> CV 微信技术交流群

转载自:CSIG文档图像分析与识别专委会

本文简要介绍一篇被ECCV 2022录为oral的论文“Language Matters:A Weakly Supervised Vision-Language Pre-training Approach for Scene Text Detection and Spotting”。该论文提出了一种弱监督的预训练方法oCLIP,该方法通过联合学习和对齐视觉和文本信息来获得有效的场景文本表示,可以使用弱标注的文本进行预训练(仅对图片中的部分文字进行文字标注,且不需要框标注)。在ICDAR2019-LSVT[1]数据集上,文中的预训练方法利用数据集的弱标注,在检测任务和端到端任务上分别提升了2.5%和4.8%,文中的预训练方法在多个公开数据集上超过了目前已有的其他预训练方法。

一、研究背景



我们阅读文本时,不仅会利用文本的视觉特征,还会利用到所学的语言知识。例如,我们通常通过对相应语言的了解,可以更快更容易地定位和阅读文本。这表明视觉和文本信息都有助于从自然场景图像中更好地阅读文本。因此文中提出了一种语言-图像预训练方法(oCLIP),该方法利用文本信息来学习有效的视觉文本表示,在检测和端到端识别任务上均有提升。

二、方法原理简述



图1是oCLIP的整体框架。整个网络包含三个部分:1)图像编码器(ResNet50[2]+多头注意力层)2)字符感知文本编码器3)视觉-文本解码器。图像经过图像编码器得到图像编码,字符感知文本编码器通过对文本实例的字符进行编码得到文本实例编码。得到的图像编码和文本实例编码随后通过视觉-文本解码器进行交互建模。在训练的时候,会随机Mask掉每个文本实例中的一个字符,网络通过预测这个字符进行优化。

图1 oCLIP的整体结构

字符感知文本编码器

在通常的视觉-语言任务中,文本通常是用来描述图片内容的一个完整句子,句子中的单词是有很强相关性的,因此会对整个句子的单词按顺序编码。但是在OCR任务中,文本是图片中出现的文字,图片中往往包含多个文本实例,同一文本实例的字符有很强的关联,不同文本实例的字符通常是不关联的。因此不可以将所有文本实例按顺序编码。文中就提出了字符感知文本编码器对文本实例进行编码。

字符感知文本编码器对文本实例的字符进行编码,得到文本实例级别的编码向量。一张图中,给定n个标注的文本实例,每个文本实例包含一串字符,作者将字符嵌入到固定长度的向量中,并加入位置编码[3],该过程可以用公式1表示:

其中是字符编码矩阵,第i个文本实例的字符编码为,随后字符编码通过Transformer 编码器交互建模文本实例中字符的关系得到实例编码。最后文本编码器得到文本实例编码

视觉-文本解码器

文中提出了一种视觉-文本解码器,该解码器对输入图像和每个注释的文本实例之间的交互进行建模,同时忽略未标注的文本实例。解码器由6层解码层组成,文本实例编码作为Q,图像编码作为K,V,解码器没有使用自注意力层以忽略不同文本实例之间的关系。最后解码器用于预测被Mask掉的字符来优化网络。

损失函数

网络的损失函数由两部分组成:1)预测字符的分类损失和2)Batch级别的对比损失。分类损失采用交叉熵损失函数,如公式2所示,其中I和T是输入的图片和文本实例,是预测的被Mask的字符,是真实的被Mask的字符,H是交叉熵损失函数。

受CLIP[4]的启发,文中采用Batch级别的对比损失加快网络的收敛。对于一个Batch里面的N张图片和文本,构建一个的(文本,图像)矩阵。其中正确的配对有N种,其他对是错误的匹配。通过计算Image-to-text和Text-to-image的相似度来计算对比损失。相似度如公式3所示。

Batch级别的对比损失如公式4所示,采用交叉熵损失,其中是真实的相似度,正确的匹配为1,错误的匹配为0.

最终总的损失函数如公式5所示

三、主要实验结果及可视化效果



如表一、二所示,在ICDAR2019-LSVT数据集上使用文中的预训练方法对检测和端到端任务都有明显的提升。(+oCLIP :使用文中的方法在ICDAR2019-LSVT数据集的40w弱标注数据上进行预训练)

表一 不同模型在ICDAR2019-LSVT数据集上的检测结果
表二 ICDAR2019-LSVT数据集上的端到端结果

表三是使用不同标注比例的合成数据进行预训练的实验结果,其中是不进行预训练,直接用PSENet[5]在Total-Text上训练;是用PSENet在Synth Text上预训练然后再Total-Text上fine-tune;是指使用文中的预训练方法,每张图给出25%的文本标注进行预训练。可以发现文中的预训练方法效果要好于PSENet直接在Synth Text上预训练的效果,并且在不同标注比例的设置上效果也很稳定。

表三 使用Synth Text不同标注比例的文本实例预训练(PSENet在Total-Text上Fine-tune)

表四 和目前的场景文字预训练方法对比

表五 在CTW1500上和目前先进的文字检测方法对比

表六 在Total-Text上和目前先进的文字检测方法对比

表七 在ICDAR-2015上和目前先进的文字检测方法对比

表八 在ICDAR-2015和Total-Text上和目前先进的端到端方法对比

表九 消融实验
(CAE:字符感知文本编码器, VTD:视觉-文本解码器, BCL:Batch级别对比损失)
作者在检测任务和端到端任务上验证了文中的方法在弱标注数据上预训练的有效性,并且和其他预训练方式做了对比,效果要好于其他的预训练方式。并且通过消融实验验证了部件的有效性。

四、总结及讨论



作者提出了一种弱监督的预训练方法联合学习视觉和语言信息,可以使用弱标注的文本进行预训练(仅对图片中的部分文字进行文字标注,且不需要框标注)。在多个数据集上验证了该预训练方法在检测任务和端到端任务上都有效。

五、相关资源



  • Language Matters:A Weakly Supervised Vision-Language Pre-training Approach for Scene Text Detection and Spotting  论文地址:

    https://arxiv.org/abs/2203.03911

参考文献



[1] Sun Y, Ni Z, Chng C K, et al. ICDAR 2019 competition on large-scale street view text with partial labeling-RRC-LSVT. In ICDAR, pages 1557-1562, 2019.

[2] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition. In CVPR, pages 770-778, 2016.

[3] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need. In Advances in Neural Information Processing Systems, pages 5998–6008, 2017.

[4] Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision. In International Conference on Machine Learning, pages 8748-8763, 2021.

[5] Wang W, Xie E, Li X, et al. Shape robust text detection with progressive scale expansion network. In CVPR, pages 9336-9345, 2019.


原文作者: Chuhui Xue,Yu Hao,Shijian Lu,Philip Torr,Song Bai

撰稿:黄鎏丰  编排:高 学

审校:连宙辉  发布:金连文 


点击进入—> CV 微信技术交流群


CVPR/ECCV 2022论文和代码下载


后台回复:CVPR2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:ECCV2022,即可下载CVPR 2022论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF


目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer222,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer222,进交流群


CVer学术交流群(知识星球)来了!想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料,欢迎扫描下方二维码,加入CVer学术交流群,已汇集数千人!


扫码进群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ECCV 2022 ScanRefer Challenge冠军方法!山大&美团联合提出端到端“火腿”网络, 性能首次突破40%!COLING 2022 | 融合自适应机制与自训练框架的无监督文本顺滑方法超越ConvNeXt!Conv2Former:用于视觉识别的Transformer风格的ConvNetECCV 2022 | 多教师对抗鲁棒性蒸馏方法MLNLP前沿综述分享第一期 | 美国Pinterest公司@吴凌飞:面向自然语言处理的图深度学习ECCV 2022 | 用于对抗攻击的频域模型增强方法基于无监督预训练的语音识别技术落地实践 火山语音表示有话要说端到端音视频说话人日志网络,一作解读INTERSPEECH 2022论文VideoMAE:简单高效的视频自监督预训练新范式|NeurIPS 2022MICCAI 2022 | 基于对比学习和视觉Transformer的弱监督视频肠息肉检测AMD Composable Kernel: 定制化算子融合,大幅提升AI端到端性能SIGIR 2022 | 集理解、策略、生成一体的半监督预训练对话模型全新的多模态预训练范式:微软提出GLIP统一了对象检测和短语定位任务平价买到高级感!IKEA全新 OBEGRÄNSAD系列,全系列都好看!COLING 2022 | 小米AI实验室:更有效的鲁棒性神经机器翻译训练方法IKEA x OBEGRÄNSAD联名!宜家22年最受瞩目系列开售!只需一次向前推导,深度神经网络可视化方法来了!(ECCV Workshops 2022)下一个“嫖娼”的会是谁?两条路Twitter端到端加密将使用Signal开源协议bāo huā shēng?bō huā shēng?COLING 2022 | CogBERT:脑认知指导的预训练语言模型COLING'22 Best Paper | 苏大提出:又快又准的端到端跨语义角色标注作为基于词的图解析加速训练定制化BERT,ExtremeBERT工具包助力轻松快速预训练陌上花开909 readPassage(&stranger); life.partner = strangerDoes the third world benefit from the US-China confrontation?自监督榜首!字节跳动提出视觉预训练模型dBOT,重新审视Masked Image Modeling对预训练语言模型中跨语言迁移影响因素的分析无性婚姻,为了身份嫁给了白老头--美低端生活(十)ACL'22 | 西湖大学提出:面向Aspect情感分析的离散意见树归纳方法Transformer检测神器!detrex:面向DETR系列的目标检测开源框架ECCV 2022 | 半监督学习的隐秘角落: 无监督的数据选择性标注 USL7 Papers & Radios | ECCV 2022最佳论文;Transformer在试错中自主改进爷爷 奶奶 populated college essays
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。