Redian新闻
>
顶刊TPAMI 2024!白翔团队:将CLIP模型转换为端到端文本识别器

顶刊TPAMI 2024!白翔团队:将CLIP模型转换为端到端文本识别器

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba和OCR】微信交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

本文简要介绍TPAMI 2024录用论文“Turning a CLIP Model into a Scene Text Spotter”的主要工作。这篇文章介绍了一种新方法FastTCM,专注于直接将CLIP 模型用于文本检测和端到端文本识别,无需设计特殊的预训练代理任务。

一、研究背景



大规模对比语言-图像预训练CLIP模型[1]通过利用预训练的视觉和语言知识在各种下游任务中展现了巨大的潜力。场景文本包含丰富的文本和视觉信息,与像 CLIP 这样的视觉语言大模型有着固有的联系。现有利用视觉语言预训练的工作[2-4]通常包含两个阶段:第一个阶段需要设计合适的代理任务进行预训练,充分挖掘文本知识,使得视觉编码器能够较好地感知到文本;第二个阶段再对第一个阶段预训练好的视觉编码器进行微调,使其能够较好地执行下游的文本检测或者端到端文本识别任务。这篇文章介绍了一种新方法FastTCM,专注于直接将CLIP 模型用于文本检测和端到端文本识别,无需设计特殊的预训练代理任务。

图1 现有利用视觉语言知识进行文本检测或者端到端文本识别的不同范式

二、方法原理简述



FastTCM整体框架如图2所示,包含CLIP的图像编码器、文本编码器、视觉提示模块、文本提示单元和下游的文本检测或端到端文本识别头。其中,文本提示单元包含文本提示模块和双模态相似匹配机制。首先视觉编码器对图像进行编码,得到全局视觉特征;其次,文本提示模块通过可学习的元查询和预定义的提示构造有利于下游任务的提示,并送入文本编码器编码得到文本嵌入;接着,双模态相似匹配机制计算当前图像特征和文本嵌入的相似度,并将该相似度和图像特征相乘叠加到文本嵌入生成新的文本嵌入,该机制可以根据输入的视觉图像特征动态的调整文本编码器的输出,充分挖掘CLIP中预训练的文本知识,有利于后续提取细粒度的视觉图像特征。之后的流程和会议版本的工作[5]一致。在训练时文本提示模块的参数需要参与训练优化,当训练完成时该模块参数被固定,在推理时可以将文本编码器部分的输出离线计算,以此来减少推理时间。

图2 FastTCM方法整体框架图

三、主要实验结果



作者将FastTCM应用于现有的文本检测方法和端到端文本识别方法上进行了实验验证,发现FastTCM可以应用于改进现有的场景文本检测方法和端到端文本识别方法,并且速度有所提升,同时可以提升现有方法的小样本学习能力和泛化能力。

表1 分别提升现有的文本检测方法和端到端文本识别方法的性能
表2 提升现有的文本检测方法和端到端文本识别方法上的小样本学习能力
表3 提升现有的文本检测和端到端文本识别方法上的泛化学习能力

作者进一步在旋转目标检测任务上进行了验证,并在遥感图像数据集DOTA-v1.0[6]上进行了实验,本文提出的方法依旧可以适用于遥感目标检测,下图展示了可视化结果。

图 3 在旋转目标遥感数据集DOTA-v1.0上的可视化检测结果

四、未来展望



本文提出了一种利用大规模对比语言-图像预训练 CLIP 模型来提升文本检测和端到端文本识别下游任务,对迈向通用场景的文本感知任务更近了一步,未来可以继续探索借助更强大的多模态大模型[7]的能力来实现更通用的文本感知和理解任务。

五、相关资源



论文链接:https://ieeexplore.ieee.org/document/10476714

代码:https://github.com/wenwenyu/TCM

参考文献



[1] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark, G. Krueger, and I. Sutskever, “Learning transferable visual models from natural language supervision,” in ICML, 2021.

[2] Q. Wan, H. Ji, and L. Shen, “Self-attention based text knowledge mining for text detection,” in CVPR, 2021.

[3] S. Song, J. Wan, Z. Yang, J. Tang, W. Cheng, X. Bai, and C. Yao, “Vision-language pre-training for boosting scene text detectors,” in CVPR, 2022.

[4] C. Xue, W. Zhang, Y. Hao, S. Lu, P. H. S. Torr, and S. Bai, “Language matters: A weakly supervised vision-language pretraining approach for scene text detection and spotting,” in ECCV, 2022.

[5] W. Yu, Y. Liu, W. Hua, D. Jiang, B. Ren, and X. Bai, “Turning a clip model into a scene text detector,” in CVPR, 2023.

[6] G.-S. Xia, X. Bai, J. Ding, Z. Zhu, S. J. Belongie, J. Luo, M. Datcu, M. Pelillo, and L. Zhang, “Dota: A large-scale dataset for object detection in aerial images,” in CVPR, 2017.

[7] Z. Li, , B. Yang, Q. Liu, Z. Ma, S. Zhang, J. Yang, Y. Sun, Y. Liu, and X. Bai,“Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models,”in CVPR 2024.

原文作者:Wenwen Yu, Yuliang Liu*, Xingkui Zhu, Haoyu Cao,Xing Sun, Xiang Bai

撰稿:余文文 | 排:高 学
审校:连宙辉 | 发布:金连文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba和医学影像交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和医学影像微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者医学影像+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
顶刊TPAMI 2024!计算机学会像人脑一样“听话”了!清华苑克鑫/胡晓林团队实现混合语音分离技术突破!灌水理论:5. 其实我是被高富美凡尔赛文启发或刺激顶刊TPAMI 2024!北大林宙辰团队提出具有万有逼近性质的神经网络架构的设计方法端到端模型:当AI开始掌握驾驶艺术长篇小说《太门西》连载68:第23章:血战君山(2)纯视觉+端到端,虚晃一枪?CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型奥斯卡影片《美国小说》:与这个肤浅的世界慢慢和解2024 大家减肥目标进度如何?顶刊TPAMI 2024 | PERF:一张2D全景图可合成高质量的360度3D场景道理晚点独家|元戎成为长城第二供应商,靠激进的端到端投入国家药监局关于灵莲花颗粒、丹栀逍遥胶囊、秋水健脾散、胃舒宁片转换为非处方药的公告ICLR 2024 | 冻结住的CLIP仍可作为教师模型!港大提出全新开集动作识别模型高阶泊车占比突破30%,端到端+AK2超声波雷达站上「风口」赋予机器人思考能力!北大提出自纠正多模态大模型,赋能端到端机器人操作陣前換將 兵家大忌 金廈海域 對撞危機【一週軍事雜談 】2024.02.20国内首家!端到端智驾系统车型2024年量产OCR小模型仍有机会!华科等提出VIMTS:零样本视频端到端识别新SOTA科学家培育出牛肉-水稻的“杂交”大米智能驾驶开「卷」端到端,谁能摘到皇冠上的明珠?Robert Langer加入、PayPal联创支持,英国初创以端到端平台打造「一体化CRO」产品,欲在现有监管框架内实行创新进击的“端到端”,与迎头赶上的中国企业2024 影视版水楼 (首页近期北美华语演出时间表)拆解端到端、城市NOA、舱驾一体的算力挑战!中国智能汽车算力峰会最终议程公布顶刊TPAMI 2024!黄高团队提出EfficientTrain++:高效视觉骨干训练方法小说转贴(油篓阿姨的):刚才在Costco被一个大帅哥搭讪了 来源: 楚伊人 于 2024顶刊IJCV 2024!基于概率表征的半监督对比学习框架安谋科技杨磊:抢占端侧大模型部署制高点,NPU将为端侧提供关键动力丨GenAICon 2024顶刊TPAMI 2024!PERF:一张2D全景图可合成高质量的360度3D场景俄軍攻下阿夫迪夫卡 終結頓涅次克10年苦難【邱世卿合訂本】2024.02.19这家新能源重卡“新势力”,今年要量产端到端自动驾驶CVPR 2024 | OmniParser:统一图文解析模型:文字检测识别、视觉信息抽取和表格识别国家药监局关于七叶皂苷钠搽剂处方药转换为非处方药的公告顶刊IJCV 2024!通过提问学习基于知识的新物体识别国家药监局关于众生片和强肾片转换为非处方药的公告端到端自动驾驶方案量产车,今年开卖国家药监局关于雪山胃宝胶囊和妇血康颗粒转换为非处方药的公告合成数据企业「光轮智能」获数千万Pre-A轮融资,加速端到端自动驾驶与商业出海|36氪首发医学顶刊TMI 2024!首个研究医疗AI算法公平性的眼科图像分类数据集
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。