Redian新闻
>
4K图像理解轻松拿捏!IXC2-4KHD:开创性的大型视觉语言模型!

4K图像理解轻松拿捏!IXC2-4KHD:开创性的大型视觉语言模型!

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba和扩散模型】微信交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

陈林 投稿自 凹非寺
转载自:量子位(QbitAI)

一个可以自动分析PDF、网页、海报、Excel图表内容的大模型,对于打工人来说简直不要太方便。

上海AI Lab,香港中文大学等研究机构提出的InternLM-XComposer2-4KHD(简写为IXC2-4KHD)模型让这成为了现实。

相比于其他多模态大模型不超过1500x1500的分辨率限制,该工作将多模态大模型的最大输入图像提升到超过4K (3840 x1600)分辨率,并支持任意长宽比和336像素~4K动态分辨率变化。

发布三天,该模型就登顶Hugging Face视觉问答模型热度榜单第一。

轻松拿捏4K图像理解

先来看效果~

研究人员输入论文(ShareGPT4V: Improving Large Multi-Modal Models with Better Captions)的首页截图(分辨率为2550x3300),并询问论文哪个模型在MMBench上的性能最高。

需要注意的是,该信息在输入截图的正文文字部分并未提及,仅仅出现在一个相当复杂的雷达图中。面对这么刁钻的问题,IXC2-4KHD成功理解了雷达图中的信息,正确回答问题。

面对更加极端分辨率的图像输入(816 x 5133),IXC2-4KHD轻松理解图像包括7个部分,并准确说明了每个部分包含的文字信息内容。

随后,研究人员还在16项多模态大模型评测指标上全面测试了IXC2-4KHD的能力,其中5项评测(DocVQA、ChartQA、InfographicVQA、TextVQA、OCRBench)关注模型的高分辨率图像理解能力。

仅仅使用7B参数量,IXC2-4KHD在其中10项评测取得了媲美甚至超越GPT4V和Gemini Pro的结果,展现了不局限于高分辨率图像理解,而是对各种任务和场景的泛用能力。

仅7B参数量的IXC2-4KHD性能媲美GPT-4V和Gemini-Pro

如何实现4K动态分辨率?

为了实现4K动态分辨率的目标,IXC2-4KHD包括了三个主要设计:

(1)动态分辨率训练:

4K分辨率图像处理策略

在IXC2-4KHD的框架中,输入图像在保持长宽比的情况下,被随机放大到介于输入面积和最大面积(不超过55x336x336,等价于3840 x1617分辨率)的一个中间尺寸。

随后,图像被自动切块成多个336x336的区域,分别抽取视觉特征。这种动态分辨率的训练策略可以让模型适应任意分辨率的视觉输入,同时也弥补了高分辨率训练数据不足的问题。

实验表明,随着动态分辨率上限的增加,模型在高分辨率图像理解任务(InfographicVQA、DocVQA、TextVQA)上实现了稳定的性能提升,并且在4K分辨率仍然未达到上界,展现了更高分辨率进一步扩展的潜力。

(2)添加切块布局信息:

为了使模型能够适应变化丰富的动态分辨率,研究人员发现需要将切块布局信息作为额外的输入。为了实现这个目的,研究人员采取了一种简单的策略:一个特殊的‘换行’(’\n’)令牌被插入到每一行的切块之后,用于告知模型切块的布局。实验表明,添加切块布局信息,对于变化幅度比较小的动态分辨率训练(HD9代表切块区域个数不超过9)影响不大,而对于动态4K分辨率训练则可以带来显著的性能提升。

(3)推理阶段扩展分辨率

研究人员还发现,使用动态分辨率的模型,可以在推理阶段通过增加最大切块上限直接扩展分辨率,并且带来额外的性能增益。例如将HD9(最多9块)的训练模型直接使用HD16进行测试,可以在InfographicVQA上观察到高达8%的性能提升。

IXC2-4KHD将多模态大模型支持的分辨率提升到了4K的水平,研究人员表示目前这种通过增加切块个数支持更大图像输入的策略遇到了计算代价和显存的瓶颈,因此他们计划提出更加高效的策略在未来实现更高分辨率的支持。

论文链接:
https://arxiv.org/pdf/2404.06512.pdf

项目链接:
https://github.com/InternLM/InternLM-XComposer

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba和多模态学习交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和多模态学习微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者多模态学习+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
视觉语言模型导论:这篇论文能成为你进军VLM的第一步免费在线体验Meta LIama 3大语言模型!GpuMall狂送10万代金券!GPU 集群规模从 4K 飙升至 24K,Meta 如何引领大规模语言模型训练突破今夏流行这件“老钱风”polo衫,自带凉感,高级时髦~轻松拿捏通勤穿搭130年只为做一件好衣服!国民POLO衫,轻松拿捏「厅局风」!轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便AI早知道|商汤发布日日新5.0大模型;微软推出小语言模型Phi-3;腾讯旗下协作SaaS产品全面接入混元大模型别卷了!新加坡考雅思,轻松拿捏!CVPR 2024|让图像扩散模型生成高质量360度场景,只需要一个语言模型谁说买不起玛莎拉蒂!百元get品牌墨镜,轻松拿捏出街造型24件绝美衬衫,百搭好穿不过时,通勤出游都拿捏!《梅》&《忘掉吧昨天》今日arXiv最热NLP大模型论文:清华大学:大语言模型的常见词僻意理解能力竟不如中学生"星”鲜出炉 | 五一【反向旅游】攻略轻松拿捏!大模型如何用因果性?最新《大型语言模型与因果推断在协作中的应用》全面综述Tech Goes Home推出开创性的倡导社区奖学金计划电影热辣滚烫相聚多伦多(三十七) 咫尺天涯开创性CVM算法破解40多年计数难题!计算机科学家掷硬币算出「哈姆雷特」独特单词CVPR 2024 | 通用视觉新突破!UC伯克利提出首个无自然语言的纯视觉大模型华中科技大学生命学院张珞颖/薛宇团队利用大型语言模型助力解析睡眠等群体活动的分子特征一件高质感冰丝Polo衫,轻松拿捏“厅局风”穿搭《Python 机器学习》作者新作:从头开始构建大型语言模型,代码已开源超越思维链:大型语言模型的X链范式综述深圳/香港/上海内推 | 商汤研究院基础语言模型团队招聘大语言模型算法研究员从文字模型到世界模型!Meta新研究让AI Agent理解物理世界ACL 2024 Findings | 视频大语言模型能理解视频中的时序信息吗?对话武汉大学李淼教授:以大模型视角看待一切机器人问题|GAIR live因为你来了考考大模型视频理解能力,中科院人大百川提出新基准合成框架LLM性能最高60%提升!谷歌ICLR 2024力作:让大语言模型学会「图的语言」视觉语音交互毫无延迟,都成精了居然还不是GPT-5?Reasoning3D:用大语言模型开启3D世界理解与交互的新篇章IEEE RAL 2024 | Safe-VLN:针对连续环境中视觉语言导航任务的避障框架俞渝谈平等;夏克立说男生也会被家暴;郝劭文回应帮别人养女儿
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。