低成本扩大输入分辨率！华科大提出Monkey：新的多模态大模型

2023-12-03 17:12

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【超分和Transformer】微信交流群

扫码加入CVer知识星球，可以最快学习到最新顶会顶刊上的论文idea和CV从入门到精通资料，以及最前沿项目和应用！发论文，强烈推荐！

在CVer微信公众号后台回复：Monkey，即可下载论文和代码链接！快学起来！

低成本扩大输入分辨率：探秘98亿参数多模态大模型--Monkey眼中的世界

【导读】11月，华中科技大学团队发布了新的多模态大模型——Monkey，通过专注于大分辨率，使得Monkey能够处理分辨率高达1344×896的图像，并加入了有着详细描述的高质量图文数据进行训练，帮助Monkey炼就洞察图像细节的火眼金睛，取得了与Caption和QA任务相关的16个数据集的SOTA，甚至与GPT4V相比，在密集文本问答任务上也有着亮眼的表现。

论文链接：https://arxiv.org/abs/2311.06607

代码地址：https://github.com/Yuliang-Liu/Monkey

官方demo效果展示：

Monkey在密集文本的问答任务上取得了很不错的效果，可以根据问题的要求进行推理，能够适配中文问答

在文本较少的场景中Monkey也展现了不俗的问答能力，自身拥有丰富的知识库，可以根据问题进行外推，从而回答出正确的答案

Monkey在Caption任务上同样取得了出色的结果，不仅仅是对图片进行准确详细的描述，同时能够合理发散，分析出图片所传达的一些抽象含义

以下是Monkey同GPT4V在密集文本与图表上进行问答的可视化结果展示。

下图展示了Monkey的卓越性能，在 18 个不同的数据集上进行测试的结果表明，Monkey能够很好地胜任图像描述生成、场景问答、以场景文本为中心的视觉问答和面向文档的视觉问答等任务，并在16个数据集上取得SOTA。

方法介绍:

1. 增大输入分辨率

将原始输入图片裁剪成多个图片块，再将这些图片块和原始输入图片统一到448*448的尺寸。每个图片块经过视觉编码时会加入一个专属的Lora以此更好地提取图片块的局部视觉特征，训练时仅训练Lora部分，而原始的输入图像则用于提取全局特征，以此方法达到增大输入分辨率的目的。

2. 多级特征融合的详细描述生成方法生成高质量图文数据

主要分为五个步骤：第一步，使用BLIP2对整张图生成全局描述；第二步用 GRIT生成区域框，并提供区域中对象的名称和详细描述，同时使用PPOCR提取区域的文本框坐标和文本内容；第三步使用SAM进行分割，并送入BLIP2生成对各个物体及其组成部分的详细描述；第四步使用BLIP-2 评估过滤掉低分匹配；最后使用ChatGPT 对上述得到的描述进行总结从而得到图像的详细描述。

下图为使用使用多级特征融合的详细描述生成方法后得到的标注与原始CC3M标注的对比，不难看出，两种标注之间存在着较大的差距，生成的详细标注尽可能地包含了图片中的各种细节，而不像是CC3M地原始标注那样一句带过。利用这样高质量的图文数据进行训练，使得Monkey能够更好地把握图文之间的关系。

更多的可视化对比结果与展示:

通过下图展示的Monkey在QA任务上与多种大模型的对比结果，从中我们能够更加直观地感受到Monkey强大的问答能力，能够准确地把握住问题并给出正确的回答，尤其是在密集文本问答任务上，目前的大模型或多或少都面临着一定的问题，Monkey为解决这一难题提供了一条可行的出路。

总结

Monkey提出了一种训练高效的方法，无需预训练即可有效地提高模型的输入分辨率，最高可达896 x 1344像素。为了弥补简单文本标签和高分辨率输入之间的差距，Monkey提出了一种多级特征融合的详细描述生成方法，它可以自动提供丰富的信息，以引导模型学习图像中各个物体的属性及其联系。通过这两种设计的协同作用，Monkey练就了一双火眼金睛，在多个基准测试中取得了出色的结果。

在CVer微信公众号后台回复：Monkey，即可下载论文和代码链接！快学起来！

CVPR / ICCV 2023论文和代码下载

后台回复：CVPR2023，即可下载CVPR 2023论文和代码开源的论文合集
后台回复：ICCV2023，即可下载ICCV 2023论文和代码开源的论文合集
超分辨率和Transformer交流群成立

扫描下方二维码，或者添加微信：CVer444，即可添加CVer小助手微信，便可申请加入CVer-超分辨率或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。

一定要备注：研究方向+地点+学校/公司+昵称（如超分辨率或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群


▲扫码或加微信号: CVer444，进交流群

CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

低成本扩大输入分辨率！华科大提出Monkey：新的多模态大模型

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达点击进入—>【超分和Transformer】微信交流群

AI/CV重磅干货，第一时间送达
点击进入—>【超分和Transformer】微信交流群