Redian新闻
>
低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型

低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【超分和Transformer】微信交流群

扫码加入CVer知识星球可以最快学习到最新顶会顶刊上的论文ideaCV从入门到精通资料,以及最前沿项目和应用!发论文,强烈推荐!

在CVer微信公众号后台回复:Monkey,即可下载论文和代码链接!快学起来!
低成本扩大输入分辨率:探秘98亿参数多模态大模型--Monkey眼中的世界

【导读】11月,华中科技大学团队发布了新的多模态大模型——Monkey,通过专注于大分辨率,使得Monkey能够处理分辨率高达1344×896的图像,并加入了有着详细描述的高质量图文数据进行训练,帮助Monkey炼就洞察图像细节的火眼金睛,取得了与Caption和QA任务相关的16个数据集的SOTA,甚至与GPT4V相比,在密集文本问答任务上也有着亮眼的表现。

论文链接:https://arxiv.org/abs/2311.06607

代码地址:https://github.com/Yuliang-Liu/Monkey

官方demo效果展示:

Monkey在密集文本的问答任务上取得了很不错的效果,可以根据问题的要求进行推理,能够适配中文问答

在文本较少的场景中Monkey也展现了不俗的问答能力,自身拥有丰富的知识库,可以根据问题进行外推,从而回答出正确的答案

Monkey在Caption任务上同样取得了出色的结果,不仅仅是对图片进行准确详细的描述,同时能够合理发散,分析出图片所传达的一些抽象含义

以下是Monkey同GPT4V在密集文本与图表上进行问答的可视化结果展示。

下图展示了Monkey的卓越性能,在 18 个不同的数据集上进行测试的结果表明,Monkey能够很好地胜任图像描述生成、场景问答、以场景文本为中心的视觉问答和面向文档的视觉问答等任务,并在16个数据集上取得SOTA。

方法介绍:

1. 增大输入分辨率

将原始输入图片裁剪成多个图片块,再将这些图片块和原始输入图片统一到448*448的尺寸。每个图片块经过视觉编码时会加入一个专属的Lora以此更好地提取图片块的局部视觉特征,训练时仅训练Lora部分,而原始的输入图像则用于提取全局特征,以此方法达到增大输入分辨率的目的。   

2. 多级特征融合的详细描述生成方法生成高质量图文数据

主要分为五个步骤:第一步,使用BLIP2对整张图生成全局描述;第二步用 GRIT生成区域框,并提供区域中对象的名称和详细描述,同时使用PPOCR提取区域的文本框坐标和文本内容;第三步使用SAM进行分割,并送入BLIP2生成对各个物体及其组成部分的详细描述;第四步使用BLIP-2 评估过滤掉低分匹配;最后使用ChatGPT 对上述得到的描述进行总结从而得到图像的详细描述。

 

下图为使用使用多级特征融合的详细描述生成方法后得到的标注与原始CC3M标注的对比,不难看出,两种标注之间存在着较大的差距,生成的详细标注尽可能地包含了图片中的各种细节,而不像是CC3M地原始标注那样一句带过。利用这样高质量的图文数据进行训练,使得Monkey能够更好地把握图文之间的关系。   

更多的可视化对比结果与展示:

通过下图展示的Monkey在QA任务上与多种大模型的对比结果,从中我们能够更加直观地感受到Monkey强大的问答能力,能够准确地把握住问题并给出正确的回答,尤其是在密集文本问答任务上,目前的大模型或多或少都面临着一定的问题,Monkey为解决这一难题提供了一条可行的出路。

总结

Monkey提出了一种训练高效的方法,无需预训练即可有效地提高模型的输入分辨率,最高可达896 x 1344像素。为了弥补简单文本标签和高分辨率输入之间的差距,Monkey提出了一种多级特征融合的详细描述生成方法,它可以自动提供丰富的信息,以引导模型学习图像中各个物体的属性及其联系。通过这两种设计的协同作用,Monkey练就了一双火眼金睛,在多个基准测试中取得了出色的结果。

在CVer微信公众号后台回复:Monkey,即可下载论文和代码链接!快学起来!
CVPR / ICCV 2023论文和代码下载
后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

超分辨率和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-超分辨率或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如超分辨率或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
幻觉降低30%!首个多模态大模型幻觉修正工作WoodpeckerAI搞定谷歌验证码,最新多模态大模型比GPT-4V空间理解更准确 | 苹果AI/ML团队大模型+自动驾驶=?普渡大学等最新《自动驾驶领域多模态大型语言模型》综述工业异常检测大模型来了!哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型Hans Zimmer - No Time For Caution (Interstellar Soundtrack)(Dock母亲是诺贝尔奖得主,女儿获二奥运金牌,这家庭的拿奖基因太强大了阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报理想汽车发布史上最大更新:多模态大模型首次上车,无人泊车即将推送夜泊Saint Michaels,追尋童年舊夢清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?清华大学与智谱 AI 联合推出 CogAgent:基于多模态大模型的 GUI Agent,具备视觉问答、视觉定位等能力思谋进博会首秀:发布全球首个工业多模态大模型,现场与松下、江森自控签署全面战略合作刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!骁龙888实时运行,美团、浙大等打造全流程移动端多模态大模型MobileVLM猜她中不了这奖​AAAI 2024 | 首个多模态实体集扩展数据集MESED和多模态模型MultiExpan谷歌发布Gemini,负责人:原生多模态大模型是AI「新品种」,正探索与机器人结合横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%媒体基础:打开多模态大模型的新思路文末送书 | 及时雨!《多模态大模型:技术原理与实战》首发上市多模态大模型幻觉降低30%!中科大等提出首个幻觉修正架构「Woodpecker」啄木鸟AI早知道|ChatGPT模型大更新;阿里云发布多模态大模型;百度推多模态模型UNIMO-G腾讯发表多模态大模型最新综述,从26个主流大模型看多模态效果提升关键方法北大最新多模态大模型开源:在混合数据集上训练,无需修改直接用到图像视频任务不着急 不多想 守护自己的人生正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完无痛缓解多模态大模型幻觉!基于注意力惩罚与回退机制的解码方法「OPERA」北京内推 | 腾讯光子工作室群招聘多模态大模型方向实习生微软提出KOSMOS-2.5,能阅读「文本密集图像」的多模态大语言模型骁龙888实时运行!美团&浙大等打造移动端多模态大模型MobileVLMACM MM 2023 | 清华、华为联合提出MISSRec:兴趣感知的多模态序列推荐预训练无需额外知识或训练!中科大等提出OPERA:缓解多模态大模型幻觉问题的基于注意力惩罚与回退策略的解码方法震惊!!!谷歌发布最强多模态大模型Gemini将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。