中科大&字节提出UniDoc：统一的面向文字场景的多模态大模型

2023-08-31 05:08

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【OCR和多模态】交流群

在CVer微信公众号后台回复：UniDoc，可下载本论文pdf，还有交流群！

UniDoc: A Universal Large Multimodal Model for Simultaneous Text Detection, Recognition, Spotting and Understanding

论文：https://arxiv.org/abs/2308.11592

这篇文章是由中科大和字节跳动合作，在2023年8月23日上传到arXiv上的文章。这篇文章提出UniDoc，一个统一的多模态大模型（LMM）。UniDoc主要聚焦于包含文字的图像的多模态理解任务。相比于以往的多模态大模型，UniDoc具备它们所不具备的文字检测、识别、spotting(端到端OCR)的能力。此外，文章中实验表明，这些能力的学习能够彼此促进。

方法框架

如上图所示，UniDoc基于预训练的视觉大模型及大语言模型，将文字的检测、识别、spotting(图中未画出)、多模态理解等四个任务，通过多模态指令微调的方式，统一到一个框架中。具体地，输入一张图像以及一条指令（可以是检测、识别、spotting、语义理解），UniDoc提取图像中的视觉信息和文字信息，结合自然语言指令以及大语言模型的世界知识，做出相应回答。

训练数据采集

作者团队收集了大量的PPT图像，并提取其中文字实例和对应的bbox。在此基础上构建多任务的指令微调数据集。文章认为，PPT图片中文字具有各种各样的大小、字体、颜色、风格等，且PPT中视觉元素丰富多样，适合用于构建涉及文字图像的多模态任务的训练。以spotting任务为例，其指令如下图所示。其中的 term 表示”imgae“，”photo“等随机名词，以增加指令多样性。

实验结果

多模态理解

从上述六个例子可以看到，UniDoc不仅可以有效提取图像中的视觉信息、文字信息，更可以结合其丰富的世界知识进行合理地回答。

对于无文字的图像，UniDoc同样可以准确地进行问答。

在多个多模态问答基准数据集上，UniDoc实现了优越的性能。

文字检测、识别、spotting

上图中，第一行的四个case来自于WordArt数据集，第二行的四个case来自于TotalText数据集。可以看到，虽然这些行级别的文字图像呈现不同的字体以及不规则的文字分布，UniDoc仍然能够进行准确地识别。

上图中六个case中，文字存在部分的缺失，UniDoc仍然能够进行准确地识别。

上图中四个case展示了UniDoc在TotalText数据集上的检测效果。

在多个文字识别基准数据集上，UniDoc实现了优越的性能。

消融实验

有趣的消融实验：对于同一张输入图像，spotting指令（右）规避了识别指令（左）的识别遗漏现象。

参考文献

On the hidden mystery of ocr in large multimodal models. arXiv:2305.07895
Visual Instruction Tuning. arXiv:2304.08485.

在CVer微信公众号后台回复：UniDoc，可下载本论文pdf，还有交流群！

点击进入—>【OCR和多模态】交流群

ICCV / CVPR 2023论文和代码下载

后台回复：CVPR2023，即可下载CVPR 2023论文和代码开源的论文合集

后台回复：ICCV2023，即可下载ICCV 2023论文和代码开源的论文合集

OCR和多模态交流群成立

扫描下方二维码，或者添加微信：CVer333，即可添加CVer小助手微信，便可申请加入CVer-OCR或者多模态 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。

一定要备注：研究方向+地点+学校/公司+昵称（如OCR或者多模态+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群