Redian新闻
>
GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评

GPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评

公众号新闻



  新智元报道  

编辑:LRS 好困
【新智元导读】华中科技大学联合华南理工大学、北京科技大学等机构的研究人员对14个主流多模态大模型进行了全面测评,涵盖5个任务,27个数据集。

近期,多模态大模型(LMMs)在视觉语言任务方面展示了令人印象深刻的能力。然而,由于多模态大模型的回答具有开放性,如何准确评估多模态大模型各个方面的性能成为一个迫切需要解决的问题。


目前,一些方法采用GPT对答案进行评分,但存在着不准确和主观性的问题。另外一些方法则通过判断题和多项选择题来评估多模态大模型的能力。


然而,判断题和选择题只是在一系列参考答案中选择最佳答案,不能准确反映多模态大模型完整识别图像中文本的能力,目前还缺乏针对多模态大模型光学字符识别(OCR)能力的专门评测基准。


近期,华中科技大学白翔团队联合华南理工大学、北京科技大学、中科院和微软研究院的研究人员对多模态大模型的OCR能力进行了深入的研究。


并在27个公有数据集和2个生成的无语义和对比的有语义的数据集上对文字识别、场景文本VQA、文档VQA、关键信息抽取和手写数学表达式识别这五个任务上进行了广泛的实验。


论文链接:https://arxiv.org/abs/2305.07895

代码地址:https://github.com/Yuliang-Liu/MultimodalOCR


为了方便而准确地评估多模态大模型的OCR能力,本文还进一步构建了用于验证多模态大模型零样本泛化能力的文字领域最全面的评估基准OCRBench,评测了谷歌Gemini,OpenAI GPT4V以及目前开源的多个类GPT4V多模态大模型,揭示了多模态大模型直接应用在OCR领域的局限。



评测模型概述


本文对谷歌Gemini,OpenAI GPT4V在内的14个多模态大模型进行了评估。


其中BLIP2引入了Q-Former连接视觉和语言模型;Flamingo和OpenFlamingo通过引入新颖的门控交叉注意力层,使得大语言模型具备理解视觉输入的能力;LLaVA开创性地使用GPT-4生成多模态指令跟随数据,其续作LLaVA1.5通过改进对齐层和prompt设计,进一步提升LLaVA的性能。


此外,mPLUG-Owl和mPLUG-Owl2强调了图像和文本的模态协作;LLaVAR收集了富文本的训练数据,并使用更高分辨率的CLIP作为视觉编码器,以增强LLaVA的OCR能力。


BLIVA结合指令感知特征和全局视觉特征来捕捉更丰富的图像信息;MiniGPT4V2在训练模型时为不同任务使用唯一的标识符,以便轻松区分每个任务的指令;UniDoc在大规模的指令跟踪数据集上进行统一的多模态指令微调,并利用任务之间的有益交互来提高单独任务的性能。


Docpedia直接在频域而不是像素空间中处理视觉输入。Monkey通过生成的详细描述数据和高分辨率的模型架构,低成本地提高了LMM的细节感知能力。


评测指标及评测数据集


LMM生成的回复通常包含许多解释性的话语,因此完全精确的匹配或平均归一化Levenshtein相似度(ANLS)在评估LMM在Zero-Shot场景中的表现时并不适用。


本文为所有数据集定义了一个统一而简单的评估标准,即判断LMM的输出是否包含了GT;为了减少假阳性,本文进一步过滤掉所有答案少于4个字符的问答对。


文本识别(Text Recognition)


本文使用广泛采用的OCR文本识别数据集评估LMM。这些数据集包括:

(1)常规文本识别:IIIT5K、SVT、IC13;

(2)不规则文本识别:IC15、SVTP、CT80、COCOText(COCO)、SCUT-CTW1500(CTW)、Total-Text(TT);

(3)遮挡场景下的文本识别,WOST和HOST;

(4)艺术字识别:WordArt;

(5)手写文本识别:IAM;

(6)中文识别:ReCTS;

(7)手写数字串识别:ORAND-CAR-2014(CAR-A);

(8)无语义文本(NST)和语义文本(ST):ST数据集包含3000张来自IIIT5K字典的单词图像,NST数据集与ST数据集的不同之处在于单词中字符的顺序被打乱而不具备语义。


对于英文单词识别,本文使用统一的prompt:「what is written in the image?」。对于ReCTS数据集中的中文文本则使用「What are the Chinese characters in the image?」作为prompt。对于手写数字串,则使用prompt:「what is the number in the image?」。


场景文本问答(Scene Text-Centric VQA)


本文在STVQA、TextVQA、OCRVQA和ESTVQA上进行了实验。其中ESTVQA数据集被分为ESTVQA(CN)和ESTVQA(EN),分别包含中文和英文问答对。


文档问答(Document-Oriented VQA)


本文在DocVQA、InfographicVQA和ChartQA数据集上进行评估,包括了扫描文档、复杂海报以及图表。


关键信息抽取(KIE)


本文在SROIE、FUNSD和POIE数据集上进行了实验,这些数据集包括收据、表单和产品营养成分标签。KIE要求从图像中提取key-value对。


为了使LMM能够准确提取KIE数据集中给定key的正确的value,本文针对不同数据集设计了不同prompt。


对于SROIE数据集,本文使用以下prompt帮助LMM为「company」,「date」,「address」和「total」生成相应的value:「what is the name of the company that issued this receipt?」、「when was this receipt issued?」、「where was this receipt issued?」和「what is the total amount of this receipt?」。


此外,为了获取FUNSD和POIE中给定key对应的value,本文使用prompt:「What is the value for '{key}'?」。


手写数学公式识别(HMER)


评估了 HME100K数据集,在评估过程中,本文使用「Please write out the expression of the formula in the image using LaTeX format.」作为prompt。


评测结果

 

LMM在识别常规文本、不规则文本、遮挡场景下的文本和艺术字方面取得了与Supervised-SOTA相媲美的性能。


InstructBLIP2和BLIVA在WordArt数据集中的性能甚至超过了Supervised-SOTA,但LMM仍然存在较大局限。



语义依赖


LMMs在识别缺乏语义的字符组合时表现出较差的识别性能。


具体而言,LMMs在NST数据集上的准确率相比于ST数据集平均下降了57.0%,而Supervised-SOTA只下降了约4.6%。


这是因为场景文本识别的Supervised-SOTA直接识别每个字符,语义信息仅用于辅助识别过程,而LMMs主要依赖语义理解来识别单词。



例如Figure1中,LMM成功识别了单词「Message」,但错误地识别了「egaesMs」,这只是单词「Message」的重新排序。


- 手写文本


LMMs在准确识别手写文本方面存在挑战。手写文本通常因快速书写、不规则手写或低质量纸张等因素而显得不完整或模糊。平均而言,LMMs在这项任务中的性能比Supervised-SOTA差了51.9%。


- 多语言文本


在ReCTS、ESTVQA(En)和ESTVQA(Ch)上观察到的显著性能差距展示了LMMs在中文文本识别和问答方面的不足。这可能是由于中文训练数据的缺少导致的。而Monkey的语言模型和视觉编码器都经过大量中文数据的训练,因此它在中文场景中表现优于其他多模态大模型。


- 细粒度感知


目前,大多数LMMs的输入图像分辨率受限于224 x 224,与它们架构中使用的视觉编码器的输入尺寸一致。然而,高分辨率的输入图像可以捕捉到更多的图像细节,从而提供更细粒度的信息。由于BLIP2等LMMs的输入分辨率受限,它们在场景文本问答、文档问答和关键信息抽取等任务中提取细粒度信息的能力较弱。相比之下,Monkey和 DocPedia等具有更高输入分辨率的多模态大模型在这些任务中具有更好的表现。


- HMER


LMMs在识别手写数学表达式方面存在极大的挑战。这主要是由于杂乱的手写字符、复杂的空间结构、间接的LaTeX表示以及训练数据的缺乏所导致的。


OCRBench

  

完整地评估所有数据集可能非常耗时,而且一些数据集中的不准确标注使得基于准确率的评估不够精确。


鉴于这些限制,本文进一步构建了OCRBench,以方便而准确地评估LMMs的OCR能力。



OCRBench包含了来自文本识别、场景文本问答、文档问答、关键信息抽取和手写数学表达式识别这五个任务的1000个问题-答案对。


对于KIE任务,本文还在提示中进一步添加了「Answer this question using the text in the image directly.」来限制模型的回答格式。


为了确保更准确的评估,本文对OCRBench中的1000个问答对进行了人工校验,修正了错误选项,并提供了正确答案的其他候选。



其结果如Table 3所示,Gemini获得了最高分,GPT4V获得了第二名。需要注意的是,由于OpenAI进行了严格的安全审查,GPT4V拒绝为OCRBench中的84张图像提供结果。


Monkey展示了仅次于GPT4V和Gemini的OCR能力。从测试结果中,我们可以观察到,即便是GPT4V和Gemini这样最先进的多模态大模型在HMER任务上也面临困难。


此外,它们在处理模糊图像、手写文本、无语义文本和遵循任务指令方面也存在挑战。


正如图2(g)所示,即使明确要求使用图像中的文本回答,Gemini仍将「02/02/2018」解释为「2 February 2018」。 


总结


本文对LMMs在OCR任务中的性能进行了广泛的研究,包括文本识别、场景文本问答、文档问答、KIE和HMER。


本文的定量评估显示,LMM可以取得有希望的结果,特别是在文本识别方面,在某些数据集上甚至达到了SOTA。


然而,与针对特定领域的监督方法相比,仍然存在显著差距,这表明针对每个任务定制的专门技术仍然是必不可少的,因为后者使用的计算资源和数据要少得多。


本文所提出的OCRBench为评估多模态大模型的OCR能力提供了基准,揭示了多模态大模型直接运用于OCR领域的局限。


本文还为OCRBench构建了一个在线排行榜,用于展示和比较不同多模态大模型的OCR能力(加入排行榜的方式参考Github)。


参考资料:
https://github.com/Yuliang-Liu/MultimodalOCR



微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B一位逝者生前写给自己的一封信零一万物发布Yi-VL多模态语言模型并开源,测评仅次于GPT-4VWHEN A ChILD IS BORNUC伯克利等发布多模态基础模型CoDi-2;谷歌DeepMind利用AI工具发现200万种新材料丨AIGC日报北大等提出MoE-LLaVA:将多模态大模型稀疏化Agent触摸汉堡辨冷热,首次拥有类人感官!UCLA等发布3D多模态交互具身智能大模型腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法今日arXiv最热NLP大模型论文:像人一样浏览网页执行任务,腾讯AI lab发布多模态端到端Agent震惊!!!谷歌发布最强多模态大模型Gemini说一个有关Open AI的Chat GPT 创投人和我家的小故事骁龙888实时运行!美团&浙大等打造移动端多模态大模型MobileVLM无痛缓解多模态大模型幻觉!基于注意力惩罚与回退机制的解码方法「OPERA」陶大程团队联合港大等发布最新综述:374篇文献全面解析大模型知识蒸馏文末送书 | 及时雨!《多模态大模型:技术原理与实战》首发上市骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM一口气读完《沙丘》 ,零一万物宝藏API正式开箱!酷炫Demo实测,多模态中文图表体验超越GPT-4VAI早知道|ChatGPT模型大更新;阿里云发布多模态大模型;百度推多模态模型UNIMO-G零一万物 API 上线,用户反馈多模态中文图表体验超过 GPT-4VGPT-4单项仅得7.1分,揭露大模型代码能力三大短板,最新基准测试来了全球首个开源多模态医疗基础模型:人工打分平均超越GPT-4V、支持2D/3D放射影像横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%GPT谷歌发布Gemini,负责人:原生多模态大模型是AI「新品种」,正探索与机器人结合无需额外知识或训练!中科大等提出OPERA:缓解多模态大模型幻觉问题的基于注意力惩罚与回退策略的解码方法油膩思維之分析批評章诒和:谁是文化界的告密者?北京内推 | 阿里淘天集团招聘大模型/多模态大模型算法实习生多领域文献阅读超越GPT-4!深势科技发布科学文献多模态大模型Uni-SMART技术报告AI早知道|Claude计划增加图像识别;Yi-VL多模态语言模型全球开源墨大联合新华社等发布基准框架,全面评估大模型的新闻写作能力和安全依从性112页报告深挖GPT-4V!UCLA等发布全新「多模态数学推理」基准MathVista超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源好吃的清水生煎包 — 皮酥、面软,汁浓、肉香理想汽车发布史上最大更新:多模态大模型首次上车,无人泊车即将推送​AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpan首创pix2emb范式!NUS清华联合发布NExT-Chat:对话/检测/分割全能多模态大模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。