Redian新闻
>
中科大&字节提出UniDoc:统一的面向文字场景的多模态大模型

中科大&字节提出UniDoc:统一的面向文字场景的多模态大模型

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【OCR和多模态】交流群

在CVer微信公众号后台回复:UniDoc,可下载本论文pdf,还有交流群!

UniDoc: A Universal Large Multimodal Model for Simultaneous Text Detection, Recognition, Spotting and Understanding

论文:https://arxiv.org/abs/2308.11592

这篇文章是由中科大和字节跳动合作,在2023年8月23日上传到arXiv上的文章。这篇文章提出UniDoc,一个统一的多模态大模型(LMM)。UniDoc主要聚焦于包含文字的图像的多模态理解任务。相比于以往的多模态大模型,UniDoc具备它们所不具备的文字检测、识别、spotting(端到端OCR)的能力。此外,文章中实验表明,这些能力的学习能够彼此促进。

方法框架

如上图所示,UniDoc基于预训练的视觉大模型及大语言模型,将文字的检测、识别、spotting(图中未画出)、多模态理解等四个任务,通过多模态指令微调的方式,统一到一个框架中。具体地,输入一张图像以及一条指令(可以是检测、识别、spotting、语义理解),UniDoc提取图像中的视觉信息和文字信息,结合自然语言指令以及大语言模型的世界知识,做出相应回答。

训练数据采集

作者团队收集了大量的PPT图像,并提取其中文字实例和对应的bbox。在此基础上构建多任务的指令微调数据集。文章认为,PPT图片中文字具有各种各样的大小、字体、颜色、风格等,且PPT中视觉元素丰富多样,适合用于构建涉及文字图像的多模态任务的训练。以spotting任务为例,其指令如下图所示。其中的 term 表示”imgae“,”photo“等随机名词,以增加指令多样性。

实验结果

多模态理解

从上述六个例子可以看到,UniDoc不仅可以有效提取图像中的视觉信息、文字信息,更可以结合其丰富的世界知识进行合理地回答。

对于无文字的图像,UniDoc同样可以准确地进行问答。

在多个多模态问答基准数据集上,UniDoc实现了优越的性能。

文字检测、识别、spotting

上图中,第一行的四个case来自于WordArt数据集,第二行的四个case来自于TotalText数据集。可以看到,虽然这些行级别的文字图像呈现不同的字体以及不规则的文字分布,UniDoc仍然能够进行准确地识别。

上图中六个case中,文字存在部分的缺失,UniDoc仍然能够进行准确地识别。

上图中四个case展示了UniDoc在TotalText数据集上的检测效果。

在多个文字识别基准数据集上,UniDoc实现了优越的性能。

消融实验

有趣的消融实验:对于同一张输入图像,spotting指令(右)规避了识别指令(左)的识别遗漏现象。

参考文献

  1. On the hidden mystery of ocr in large multimodal models. arXiv:2305.07895

  2. Visual Instruction Tuning. arXiv:2304.08485.

在CVer微信公众号后台回复:UniDoc,可下载本论文pdf,还有交流群!

点击进入—>【OCR和多模态】交流群


ICCV / CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

OCR和多模态交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-OCR或者多模态 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如OCR或者多模态+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
Holiday Special 七月上 望七月 ~~ poem & song by 盈盈 & AP破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型中文版开源Llama 2同时有了语言、多模态大模型,完全可商用多模态大模型迸发,创业机会和挑战在哪?丨GAIR 2023​中科大和腾讯发布首篇《多模态大语言模型综述》美东之行— 纽约的博物馆和画廊关于医学多模态大模型,你需要来学习这些最新研究更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」GPT-5来了?OpenAI被曝加急训练多模态大模型Gobi,一举狙杀谷歌Gimini!新多模态大模型霸榜!支持图文混合输入,不懂知识还能现学独家 | 哈工深新跑出一家多模态大模型公司,聂礼强、张民等 AI 大牛加盟多模态大一统、AI智能体将如何引领未来?阿里妈妈与人大高瓴学者探讨大模型趋势能「说」会「画」, VisCPM:SOTA 开源中文多模态大模型评sex comedy《No Hard Feelings》,2023新电影被水洗过的音乐娶到华人女性的,你们就偷着乐吧【夏日狂欢Fiesta】撬锁 【夜半轻私语】&【悲歌问句天】多模态大模型进展及应用 | 8月10日TF116报名百度招聘多模态大模型实习生(内推)多模态大模型的幻觉问题与评估清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?文档字越多,模型越兴奋!KOSMOS-2.5:阅读「文本密集图像」的多模态大语言模型ICCV 2023 | 通向3D感知大模型的必由之路!UniTR:统一多模态Transformer Encoder!三访英国湖区(4):有趣的徒步远足多模态大模型最全综述来了!7位微软研究员大力合作,5大主题,成文119页综述 | 多模态大模型最全综述来了!开源多模态大模型哪家强?TOP12榜单来了,GitHub揽获2.2k+星BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」节日快乐&请教抽烟烟机修理维护微软提出KOSMOS-2.5,能阅读「文本密集图像」的多模态大语言模型多模态大模型能力测评:Bard 是你需要的吗?SSLRec:统一的自监督推荐算法库清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳ICCV 2023 | 清华&天津大学提出SurroundOcc:自动驾驶的环视三维占据栅格预测曝OpenAI大模型新进展!将推出多模态大模型,新项目Gobi筹备中可可 & 香草 - 孩子们的饮食问题从感知到理解-融合语言模型的多模态大模型研究实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报AT&T客服为啥挂我电话?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。