Redian新闻
>
CVPR 2024 | OmniParser:统一图文解析模型:文字检测识别、视觉信息抽取和表格识别

CVPR 2024 | OmniParser:统一图文解析模型:文字检测识别、视觉信息抽取和表格识别

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba和OCR】微信交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

转载自:CSIG文档图像分析与识别专委会

本文简要介绍CVPR 2024录用论文“OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition”的主要工作。这篇文章提出了一个新的统一框架,将文字领域的核心任务(文字检测识别,关键信息抽取和表格识别)巧妙融合在一起,无需额外的任务相关的定制化模块设计。

一、研究背景



随着深度学习的快速发展,模型可用训练数据规模呈指数级上升,大规模语言模型[1]和多模态模型[2]的通用理解能力得到了巨大的提高,出现了一批能解决多种任务的统一模型[3-5]。

文字图像解析涉及到多种OCR领域核心技术,如文字检测识别,关键信息抽取和表格识别,尽管有部分模型[6-7]尝试仅通过一个模型覆盖多种文字解析任务,但它们通常依赖于外部预先得到的OCR结果或缺乏文字的精确定位能力。SPTS[8]尝试将文字检测识别通过一个序列完成,但由于文字形状复杂多变以及文字内容长短不一,使用一个序列包含这些信息将会导致序列长度过长,极大降低了模型的推理效率。

这篇文章首次提出文字图像的统一解析模型OmniParser,在一个框架内解决多个任务的同时提供了精确的文本位置,模型可解释性大幅提高。同时,OmniParser将OCR基础任务检测识别与结构化序列进行解耦,通过并行化处理检测识别大幅减少了推理时间。

图1 OmniParser多任务输入输出结构形式

二、方法原理简述



OmniParser整体框架如图2所示,模型主要包含图像编码器,结构化中心点序列解码器,检测框解码器以及文本内容解码器。首先,文字图像经过图像编码器得到预处理图像特征;其次,图像特征和任务提示符(用于区分不同任务,如<S_TR>、<S_KIE>、<S_TS>分别表示表格识别、关键信息抽取、文本识别。)一起输入结构化中心点序列解码器,得到任务相关的结构化序列,该结构化序列包含丰富的信息,如表格中的行列结构以及信息抽取中的实体类别;接着,将上一步得到的结构化中心点序列中的中心点和图像特征一起输入到检测框解码器和文本内容解码器,得到中心点对应的文本包围框以及文字识别内容;最后,根据解码后的文字包围框、文本内容以及结构化中心点序列得到最终的图像解析结果。文字包围框以及内容解码可以多个中心点并行处理,同时三个编码器的设计也进一步大幅降低了模型推理时间。

图2 OmniParser整体框架图

三、主要实验结果



作者主要在三个OCR核心任务上验证了OmniParser的先进性,在文字检测识别任务上,OmniParser不仅在常规文字数据集上达到了领先的效果,在曲形文字数据集以及文字行数据集上也超越了之前的方法。

表1 文字检测识别任务上方法效果对比

在关键信息抽取任务上,OmniParser可以同时得到实体的类别信息以及精确的位置信息,在CORD以及SROIE数据集上也取得了比之前方法更好的表现,值得注意的是多数端到端抽取方法无法提供精确的文本定位能力,这削弱了方法的可解释性,部分情况下会出现较为严重的幻觉问题。表3展示了OmniParser在表格识别任务上的性能对比,其不仅可以获得准确的表格结构,同时可以得到单元格的具体位置以及文本内容,通过一次前向处理端到端的得到最终的表格解析结果。

表2 关键信息抽取任务上方法效果对比
表3 表格识别任务上方法效果对比

作者进一步探究了OmniParser在层次化文字检测任务[9]上的表现,如图3所示,从左至右分别为单词、文字行和段落级别的检测粒度,可以看到OmniParser可以准确的区分出不同层次的文字粒度信息,这仅需要针对该任务将结构化中心点序列进行相应的改造适配,模型其他部分并不需要过多改动,即可实现对新任务的高效迁移。

图3 OmniParser在层次化文字检测任务上的部分可视化结果

四、未来展望



本文提出了一种面向文字图像的统一解析框架,将OCR多个核心任务进行了形式上的统一,同时展现出对于其他OCR任务如层次化文字检测的泛化能力,对于开发OCR领域的统一大模型又近了一步,未来考虑将解码器替换为更加先进的大规模语言模型,实现更通用的文本理解能力。

五、相关资源



论文链接:https://arxiv.org/abs/2403.19128
代码:https://github.com/AlibabaResearch/AdvancedLiterateMachinery

参考文献



[1] OpenAI. ChatGPT. https://openai.com/chatgpt, 2023. Accessed: 2023-09-27.

[2] OpenAI. GPT-4V(ision) System Card. https://cdn.

openai.com/papers/GPTV_System_Card.pdf, 2023. Accessed: 2023-10-09.

[3] Hao Feng, Zijian Wang, Jingqun Tang, Jinghui Lu, Wengang Zhou, Houqiang Li, and Can Huang. Unidoc: A universal large multimodal model for simultaneous text detection, recognition, spotting and understanding.

[4] Teakgyu Hong, Donghyun Kim, Mingi Ji, Wonseok Hwang, Daehyun Nam, and Sungrae Park. Bros: A pre-trained language model focusing on text and layout for better key information extraction from documents. In Proceedings of the AAAI Conference on Artificial Intelligence, pages 1076710775, 2022.

[5] Xin Li, Yan Zheng, Yiqing Hu, Haoyu Cao, Yunfei Wu, Deqiang Jiang, Yinsong Liu, and Bo Ren. Relational representation learning in visually-rich documents. In Proceedings of the 30th ACM International Conference on Multimedia, pages 4614–4624, 2022.

[6] Geewook Kim, Teakgyu Hong, Moonbin Yim, JeongYeon Nam, Jinyoung Park, Jinyeong Yim, Wonseok Hwang, Sangdoo Yun, Dongyoon Han, and Seunghyun Park. Ocr-free document understanding transformer. In Computer Vision ECCV 2022 - 17th European Conference, Tel Aviv, Israel, October 23-27, 2022, Proceedings, Part XXVIII, pages 498–517. Springer, 2022.

[7] Haoyu Cao, Changcun Bao, Chaohu Liu, Huang Chen, Kun Yin, Hao Liu, Yinsong Liu, Deqiang Jiang, and Xing Sun. Attention where it matters: Rethinking visual document understanding with selective region concentration. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 19517–19527, 2023.

[8] Dezhi Peng, Xinyu Wang, Yuliang Liu, Jiaxin Zhang, Mingxin Huang, Songxuan Lai, Jing Li, Shenggao Zhu, Dahua Lin, Chunhua Shen, et al. Spts: single-point text spotting. In Proceedings of the 30th ACM International Conference on Multimedia, pages 4272–4281, 2022.

[9] Shangbang Long, Siyang Qin, Dmitry Panteleev, Alessandro Bissacco, Yasuhisa Fujii, and Michalis Raptis. Towards end-to-end unified scene text detection and layout analysis. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1049–1059, 2022.

原文作者:Jianqiang Wan, Sibo Song, Wenwen Yu, Yuliang Liu, Wenqing Cheng, Fei Huang, Xiang Bai, Cong Yao, Zhibo Yang

撰稿:万建强  排:高 学
审校:殷 飞  发布:金连文

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
国科大联合旷视提出OneChart,一个能为自己负责的图表解析模型精度最高降幅60%!SOTA只是假象?CVPR 2024为你揭示CLIP和LLaVA-Next等模型“骗局”!《太阳的笑容》&《可怜父母心》CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型CVPR 2024 | 字节提出视觉基础模型:ViTamin,实现多项SOTA!CVPR 2024 | 文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架CVPR 2024 | 闻声识人黑科技!从音频中想象出说话人脸,FaceChain团队出品纪念:迟到的正义终究到来了 ——2022加拿大自由卡车车队运动二周年志CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型CVPR 2024 | 港理工联合OPPO提出统一且通用的视频分割大模型检测一切!Visual Prompting:视觉提示扩展检测模型能力※※※※※※ 2024【新春对对碰】活动大合辑※※※※※※CVPR 2024 | 知识蒸馏中的Logit标准化:辅助logit-based KD算法稳定涨点2024 turbotax 最全最强攻略字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024CVPR 2024 | 中科大&微软提出:迈向更统一的上下文视觉理解CVPR 2024 满分论文!LiSA:引入语义感知的激光雷达点云视觉定位网络CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题俄軍攻下阿夫迪夫卡 終結頓涅次克10年苦難【邱世卿合訂本】2024.02.19五光十色的多模态大模型:浅探视觉-语言大模型的关键模块设计CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT捷克特雷津纳粹集中营(Terezin),翻开历史陣前換將 兵家大忌 金廈海域 對撞危機【一週軍事雜談 】2024.02.20CVPR 2024 | 浙大提出近似平均方向求解器,快速扩散模型数值采样CVPR 2024 | 更高效、更准确的拖拽编辑 Drag Your NoiseCVPR 2024 | 基于MoE的通用图像融合模型,添加2.8%参数完成多项任务WWW 2024 | 通用可识别、可解释认知诊断框架:开创全新学习者能力建模范式《中国湖》连载CVPR 2024 | SAM-6D:分割一切遇见零样本6D位姿估计CVPR 2024 中科院自动化所36篇入选!新主干/多模态/3D视觉/自动驾驶等全都有!CVPR 2024 | 腾讯提出LORS:低秩残差结构,瘦身模型不掉点!玉树临盆CVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRFCVPR 2024 | 中大哈佛等提出全新训练方法CLoT,探究大模型幽默创新力CVPR 2024高分论文:全新生成式编辑框架GenN2N,统一NeRF转换任务CVPR 2024 | 无参数无训练也能大幅涨点!港城大等提出全新小样本3D分割模型一心为人不为己CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度CVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。