Redian新闻
>
CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型

CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/扩散和多模态】微信交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

本文简要介绍CVPR 2024录用论文“Multi-modal In-Context Learning Makes an Ego-evolving Scene Text Recognizer”的主要工作。论文提出了自进化文本识别器E2STR,一个融合了上下文学习能力的常规大小的文本识别器,无需微调即可快速适应不同的文本识别场景。E2STR配备了一种上下文训练和上下文推理模式,不仅在常规数据集上达到了SOTA的水平,而且可以使用单一模型提升在各个场景中的识别性能,实现对新场景的快速适应,甚至超过了经过微调后专用模型的识别性能。E2STR证明,常规大小的模型足以在文本识别任务中实现有效的上下文学习能力。相关代码已开源。

一、研究背景



大语言模型(LLM)能够以一种无需微调的方式从少量示例中学习,这种方式被称为 "上下文学习"(In-context Learning)。目前只在大模型上观察到上下文学习现象,那么,常规大小的模型是否具备类似的能力呢?GPT4、Llama等大模型在非常多的领域中都表现出了杰出的性能,但很多场景受限于资源或者实时性要求较高,无法使用大模型。为了探索小模型的上下文学习能力,字节和华东师大的研究团队在场景文本识别任务上进行了研究。

场景文本识别(Scene Text Recognition)的目标是将图像中的文本内容提取出来。实际应用场景中,场景文本识别面临着多种挑战:不同的场景、文字排版、形变、光照变化、字迹模糊、字体多样性等,因此很难训练一个能应对所有场景的统一的文本识别模型。一个直接的解决办法是收集相应的数据,然后在特定场景下对模型进行微调。但是这一过程需要重新训练模型,当场景变多、领域任务变得复杂时,实际的训练、存储、维护资源则呈几何倍增长如果文本识别模型也能具备上下文学习能力,面对新的场景,只需少量标注数据作为提示,就能提升在新场景上的性能,那么上面的问题就迎刃而解。然而,场景文本识别是一个资源敏感型任务,将大模型当作文本识别器非常耗费资源,并且通过初步的实验,研究人员发现传统的训练大模型的方法在场景文本识别任务上并不适用。

为了解决这个问题,来自字节跳动和华东师大的研究团队提出了自进化文本识别器,E2STR(Ego-Evolving Scene Text Recognizer),一个融合了上下文学习能力的常规大小的文本识别器,无需微调即可快速适应不同的文本识别场景。E2STR配备了一种上下文训练和上下文推理模式,不仅在常规数据集上达到了SOTA的水平,而且可以使用单一模型提升在各个场景中的识别性能,实现对新场景的快速适应,甚至超过了经过微调后专用模型的识别性能。E2STR证明,常规大小的模型足以在文本识别任务中实现有效的上下文学习能力。

二、方法





图1介绍了E2STR的训练和推理流程

1. 基础文本识别训练

基础文本识别训练阶段采用自回归框架训练视觉编码器和语言解码器,目的为了获取文本识别能力:

2. 上下文训练

上下文训练阶段E2STR将根据文中提出的上下文训练范式进行进一步训练。在这一阶段,E2STR会学习理解不同样本之间的联系,从而从上下文提示中获取推理能力。

如图2所示,这篇文章提出 ST 策略,在场景文本数据中进行随机的分割和转换,从而生成一组 "子样本"。子样本在视觉和语言方面都是内在联系的。这些内在联系的样本被拼接成一个序列,模型从这些语义丰富的序列中学习上下文知识,从而获取上下文学习的能力。这一阶段同样采用自回归框架进行训练:

3. 上下文推理

针对一个测试样本,该框架会从上下文提示池中选择N个样本,这些样本在视觉隐空间与测试样本具有最高的相似度。具体来说,这篇文章通过对视觉token序列做平均池化,计算出图像embedding I 。然后,从上下文池中选择图像嵌入与 I 的余弦相似度最高的前N个样本,从而形成上下文提示。

上下文提示和测试样本拼接在一起送入模型,E2STR便会以一种无训练的方式从上下文提示中学得新知识,提升测试样本的识别准确率。值得注意的是,上下文提示池只保留了视觉编码器输出的token,使得上下文提示的选择过程非常高效。此外,由于上下文提示池很小,而且E2STR不需要训练就能直接进行推理,因此额外的消耗也降到了最低限度。

三、实验



实验从三个角度进行:分别是传统文本识别集、跨域场景识别、困难样本修正。

1.    传统数据集

从训练集中随机抽取很少的样本(1000个,训练集 0.025% 的样本数量)组成上下文提示池,在12个常见的场景文本识别测试集中进行的测试,结果如下:

可以发现E2STR在识别性能差不多已经饱和的传统数据集上依然有所提升,超越了SOTA模型的表现。

2.    跨域场景

跨域场景下每个测试集仅提供100个域内训练样本,无训练和微调对比结果如下,E2STR甚至超过了SOTA方法的微调结果。

3. 困难样本修正

研究人员收集了一批困难样本,对这些样本提供了10%~20%的标注,对比E2STR的无需训练的上下文学习方法和SOTA方法的微调学习方法,结果如下:

可以发现,相比于微调方法,E2STR-ICL大大降低了困难样本的错误率。

四、未来展望



E2STR证明了使用合适的训练和推理策略,小模型也可以拥有和LLM类似的In-context Learning的能力。在一些实时性要求比较强的任务中,使用小模型也可以对新场景进行快速的适应。更重要的是,这种使用单一模型来实现对新场景快速适应的方法使得构建统一高效的小模型更近了一步。

五、相关资源



论文链接:https://arxiv.org/abs/2311.13120

开源代码:https://github.com/bytedance/E2STR.git


原文作者:Zhen Zhao, Jingqun Tang, Chunhui Lin, Binghong Wu, Hao Liu, Zhizhong Zhang, Xin Tan, Can Huang, Yuan Xie


撰稿Jingqun Tang 编排:高 学
审校:连宙辉 发布:金连文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba和多模态学习交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和多模态微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者多模态+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
首个!上交&ETH提出PromptSR:基于文本提示扩散的图像超分辨率CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoTMamba超强进化体一举颠覆Transformer!单张A100跑140K上下文CVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题Niu Niu's A Journey to Overcoming Fear & Forming Connections顶刊TPAMI 2024!白翔团队:将CLIP模型转换为端到端文本识别器冰岛戈扎瀑布(godafoss),弯弯月牙ICLR 2024 | 量化和增强模态偏好影响下的多模态鲁棒性2024 新一批裁员浪潮,你的公司上榜了吗?【七绝】 似水呵有无? (八庚) 两首GPT-4劲敌Claude 3来了,上下文和多模态显著提升:OpenAI是可被超越的32K上下文,Mistral 7B v0.2 基模型突然开源了CVPR 2024 | OmniParser:统一图文解析模型:文字检测识别、视觉信息抽取和表格识别CVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务CVPR 2024 | 中科大&微软提出:迈向更统一的上下文视觉理解CVPR 2024 | 文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架2024 房价预期将持续上涨CVPR 2024 | 港理工联合OPPO提出统一且通用的视频分割大模型上海七宝古镇,乡味浓浓CVPR 2024 | 中大哈佛等提出全新训练方法CLoT,探究大模型幽默创新力ICLR 2024 | 冻结住的CLIP仍可作为教师模型!港大提出全新开集动作识别模型CVPR 2024 | 多模态合作学习的新视角:样本级模态的评估与协同顶刊IJCV 2024!通过提问学习基于知识的新物体识别精度最高降幅60%!SOTA只是假象?CVPR 2024为你揭示CLIP和LLaVA-Next等模型“骗局”!CVPR 2024 | 与任务无关的多模态数据也能提升Transformer性能!港中文&腾讯新作【龙年卜卦】古风 · 甲辰无立春(2024)北京内推 |​ 商汤研究院基础多模态大模型组招聘多模态方向算法实习生AI鲜测 | Claude 3全面升级:多模态+100万Token上下文长度,OpenAI也拦不住了CVPR 2024 | 北大&电子科大提出RCBEVDet:毫米波雷达-相机多模态的感知架构西江月 冬日观潮恆大香港覆滅:中國的一劑猛藥港中文李教授1v1科研:基于深度学习的无人机目标识别算法研究|收获一作论文与导师推荐信!CVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRF微软发布!提示工程进化为位置工程,有效提升RAG与上下文学习CVPR‘24:与任务无关的多模态数据也能提升Transformer性能|港中文&腾讯美坛活动【Poem Reading Tuesday】My Doggy Ate My Essay by Darren Sardel牛皮吹破?大模型长输入能力不能拿来做上下文学习CVPR 2024 中科院自动化所36篇入选!新主干/多模态/3D视觉/自动驾驶等全都有!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。