轻松拿捏4K高清图像理解！这个多模态大模型自动分析网页海报内容，打工人简直不要太方便

公众号新闻

2024-04-21 05:04

陈林投稿自凹非寺
量子位 | 公众号 QbitAI

一个可以自动分析PDF、网页、海报、Excel图表内容的大模型，对于打工人来说简直不要太方便。

上海AI Lab，香港中文大学等研究机构提出的InternLM-XComposer2-4KHD（简写为IXC2-4KHD）模型让这成为了现实。

相比于其他多模态大模型不超过1500x1500的分辨率限制，该工作将多模态大模型的最大输入图像提升到超过4K （3840 x1600）分辨率，并支持任意长宽比和336像素～4K动态分辨率变化。

发布三天，该模型就登顶Hugging Face视觉问答模型热度榜单第一。

轻松拿捏4K图像理解

先来看效果~

研究人员输入论文（ShareGPT4V: Improving Large Multi-Modal Models with Better Captions）的首页截图（分辨率为2550x3300），并询问论文哪个模型在MMBench上的性能最高。

需要注意的是，该信息在输入截图的正文文字部分并未提及，仅仅出现在一个相当复杂的雷达图中。面对这么刁钻的问题，IXC2-4KHD成功理解了雷达图中的信息，正确回答问题。

面对更加极端分辨率的图像输入（816 x 5133），IXC2-4KHD轻松理解图像包括7个部分，并准确说明了每个部分包含的文字信息内容。

随后，研究人员还在16项多模态大模型评测指标上全面测试了IXC2-4KHD的能力，其中5项评测（DocVQA、ChartQA、InfographicVQA、TextVQA、OCRBench）关注模型的高分辨率图像理解能力。

仅仅使用7B参数量，IXC2-4KHD在其中10项评测取得了媲美甚至超越GPT4V和Gemini Pro的结果，展现了不局限于高分辨率图像理解，而是对各种任务和场景的泛用能力。

△仅7B参数量的IXC2-4KHD性能媲美GPT-4V和Gemini-Pro

如何实现4K动态分辨率？

为了实现4K动态分辨率的目标，IXC2-4KHD包括了三个主要设计：

（1）动态分辨率训练：

△4K分辨率图像处理策略

在IXC2-4KHD的框架中，输入图像在保持长宽比的情况下，被随机放大到介于输入面积和最大面积（不超过55x336x336，等价于3840 x1617分辨率）的一个中间尺寸。

随后，图像被自动切块成多个336x336的区域，分别抽取视觉特征。这种动态分辨率的训练策略可以让模型适应任意分辨率的视觉输入，同时也弥补了高分辨率训练数据不足的问题。

实验表明，随着动态分辨率上限的增加，模型在高分辨率图像理解任务（InfographicVQA、DocVQA、TextVQA）上实现了稳定的性能提升，并且在4K分辨率仍然未达到上界，展现了更高分辨率进一步扩展的潜力。

（2）添加切块布局信息：

为了使模型能够适应变化丰富的动态分辨率，研究人员发现需要将切块布局信息作为额外的输入。为了实现这个目的，研究人员采取了一种简单的策略：一个特殊的‘换行’（’\n’）令牌被插入到每一行的切块之后，用于告知模型切块的布局。实验表明，添加切块布局信息，对于变化幅度比较小的动态分辨率训练（HD9代表切块区域个数不超过9）影响不大，而对于动态4K分辨率训练则可以带来显著的性能提升。