Redian新闻
>
轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便

公众号新闻
陈林 投稿自 凹非寺
量子位 | 公众号 QbitAI

一个可以自动分析PDF、网页、海报、Excel图表内容的大模型,对于打工人来说简直不要太方便。

上海AI Lab,香港中文大学等研究机构提出的InternLM-XComposer2-4KHD(简写为IXC2-4KHD)模型让这成为了现实。

相比于其他多模态大模型不超过1500x1500的分辨率限制,该工作将多模态大模型的最大输入图像提升到超过4K (3840 x1600)分辨率,并支持任意长宽比和336像素~4K动态分辨率变化。

发布三天,该模型就登顶Hugging Face视觉问答模型热度榜单第一。

轻松拿捏4K图像理解

先来看效果~

研究人员输入论文(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)的首页截图(分辨率为2550x3300),并询问论文哪个模型在MMBench上的性能最高。

需要注意的是,该信息在输入截图的正文文字部分并未提及,仅仅出现在一个相当复杂的雷达图中。面对这么刁钻的问题,IXC2-4KHD成功理解了雷达图中的信息,正确回答问题。

面对更加极端分辨率的图像输入(816 x 5133),IXC2-4KHD轻松理解图像包括7个部分,并准确说明了每个部分包含的文字信息内容。

随后,研究人员还在16项多模态大模型评测指标上全面测试了IXC2-4KHD的能力,其中5项评测(DocVQA、ChartQA、InfographicVQA、TextVQA、OCRBench)关注模型的高分辨率图像理解能力。

仅仅使用7B参数量,IXC2-4KHD在其中10项评测取得了媲美甚至超越GPT4V和Gemini Pro的结果,展现了不局限于高分辨率图像理解,而是对各种任务和场景的泛用能力。

仅7B参数量的IXC2-4KHD性能媲美GPT-4V和Gemini-Pro

如何实现4K动态分辨率?

为了实现4K动态分辨率的目标,IXC2-4KHD包括了三个主要设计:

(1)动态分辨率训练:

4K分辨率图像处理策略

在IXC2-4KHD的框架中,输入图像在保持长宽比的情况下,被随机放大到介于输入面积和最大面积(不超过55x336x336,等价于3840 x1617分辨率)的一个中间尺寸。

随后,图像被自动切块成多个336x336的区域,分别抽取视觉特征。这种动态分辨率的训练策略可以让模型适应任意分辨率的视觉输入,同时也弥补了高分辨率训练数据不足的问题。

实验表明,随着动态分辨率上限的增加,模型在高分辨率图像理解任务(InfographicVQA、DocVQA、TextVQA)上实现了稳定的性能提升,并且在4K分辨率仍然未达到上界,展现了更高分辨率进一步扩展的潜力。

(2)添加切块布局信息:

为了使模型能够适应变化丰富的动态分辨率,研究人员发现需要将切块布局信息作为额外的输入。为了实现这个目的,研究人员采取了一种简单的策略:一个特殊的‘换行’(’\n’)令牌被插入到每一行的切块之后,用于告知模型切块的布局。实验表明,添加切块布局信息,对于变化幅度比较小的动态分辨率训练(HD9代表切块区域个数不超过9)影响不大,而对于动态4K分辨率训练则可以带来显著的性能提升。

(3)推理阶段扩展分辨率

研究人员还发现,使用动态分辨率的模型,可以在推理阶段通过增加最大切块上限直接扩展分辨率,并且带来额外的性能增益。例如将HD9(最多9块)的训练模型直接使用HD16进行测试,可以在InfographicVQA上观察到高达8%的性能提升。

IXC2-4KHD将多模态大模型支持的分辨率提升到了4K的水平,研究人员表示目前这种通过增加切块个数支持更大图像输入的策略遇到了计算代价和显存的瓶颈,因此他们计划提出更加高效的策略在未来实现更高分辨率的支持。

论文链接:
https://arxiv.org/pdf/2404.06512.pdf

项目链接:
https://github.com/InternLM/InternLM-XComposer

—  —


投稿请发邮件到:

[email protected]

标题注明【投稿】,告诉我们:

你是谁,从哪来,投稿内容

附上论文/项目主页链接,以及联系方式哦

我们会(尽量)及时回复你


点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
妹子穿街走巷领“剩饭盲盒”,简直不要太丰盛!网友当场哭晕...​第一个基于Llama 3的多模态大模型!Bunny-Llama-3-8B-V上线!万字长文总结多模态大模型最新进展(Modality Bridging篇)《草原三杯酒》&《爱情雪》改革开放奇迹真的是天下无双吗?AI早知道|Apple 发布 MM1多模态大语言模型;xAI 是市场上薪酬最高的人工智能公司CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度AI早知道|元象开源首个多模态大模型XVERSE-V;信通院发布国内首个汽车大模型标准颜水成挂帅,奠定「通用视觉多模态大模型」终极形态!一统理解/生成/分割/编辑CVPR 2024 中科院自动化所36篇入选!新主干/多模态/3D视觉/自动驾驶等全都有!8B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquare上海交大新框架解锁CLIP长文本能力,多模态生成细节拿捏,图像检索能力显著提升2024年AIGC行业研究:多模态大模型与商业应用|36氪研究院拜登的美国第一和川普的美国第一疯传!某地8203原配抓渣男开房扇耳光!3段28分钟完整版4K高清流出国产多模态大模型狂飙!颜水成挂帅开源Vitron,破解图像/视频模型割裂问题多领域文献阅读超越GPT-4!深势科技发布科学文献多模态大模型Uni-SMART技术报告Mamba再下一城!Cobra:将Mamba扩展到多模态大语言模型门当户对婚姻,不向上攀跃,不向下兼容;亚马逊Ber招人难困扰荐书丨中山大学 HCP 实验室专著《多模态大模型》重磅发布北京/上海内推 | 小红书智能创作团队招聘多模态大模型算法工程师/实习生中科院,CMU,Meta等联合出品:去除LLM先验对多模态大模型的负面影响国产多模态大模型开源!无条件免费商用,性能超Claude 3 Sonnet超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源李未可科技古鉴:发布自研多模态大模型WAKE-AI,三大优化让AI眼镜交互体验升级 丨GenAICon 20244K图像理解轻松拿捏!IXC2-4KHD:开创性的大型视觉语言模型!"星”鲜出炉 | 五一【反向旅游】攻略轻松拿捏!一件高质感冰丝Polo衫,轻松拿捏“厅局风”穿搭只要千元级,人人可用百亿级多模态大模型!国产「AI模盒」秒级训练推理五光十色的多模态大模型:浅探视觉-语言大模型的关键模块设计元象首个多模态大模型 XVERSE-V 开源,刷新权威大模型榜单,支持任意宽高比输入「国家队」入局,多模态大模型企业联汇科技宣布完成新一轮数亿元战略融资文末送书 | 中山大学HCP实验室专著《多模态大模型》重磅发布工时越长越拉不出来,打工人已经没有“排便自由”了|2024打工人通便报告来自陌生人的善意
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。