Redian新闻
>
NeurIPS 2023 | MQ-Det:首个支持多模态查询的开放世界目标检测大模型

NeurIPS 2023 | MQ-Det:首个支持多模态查询的开放世界目标检测大模型

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【目标检测和Transformer】交流群

作者:沁园夏(源:知乎,已授权)

https://zhuanlan.zhihu.com/p/660791012

在CVer微信公众号后台回复:MQ,可以下载本论文pdf和代码,学起来!

目录

1. MQ-Det:多模态查询的开放世界目标检测大模型
1.1 从文本查询到多模态查询
1.2 MQ-Det 即插即用的多模态查询模型架构
1.3 MQ-Det高效训练策略
1.4 实验结果:Finetuning-frree评估
1.5 实验结果:Few-shot评估
1.6 多模态查询目标检测的前景

浓缩版

目前的开放世界目标检测模型大多遵循文本查询的模式,即利用类别文本描述在目标图像中查询潜在目标。然而,这种方式往往会面临“广而不精”的问题。一图胜千言,为此,作者提出了基于多模态查询的目标检测(MQ-Det),以及首个同时支持文本描述和视觉示例查询的开放世界检测大模型。MQ-Det在已有基于文本查询的检测大模型基础上,加入了视觉示例查询功能。通过引入即插即用的门控感知结构,以及以视觉为条件的掩码语言预测训练机制,使得检测器在保持高泛化性的同时支持细粒度的多模态查询,为用户提供更灵活的选择来适应不同的场景。其简单有效的设计与现有主流的检测大模型均兼容,适用范围非常广泛。实验表明,多模态查询能够大幅度推动主流检测大模型的开放世界目标检测能力,例如在基准检测数据集LVIS上,无需下游任务模型微调,提升主流检测大模型GLIP精度约7.8%AP,在13个基准小样本下游任务上平均提高了6.3% AP。

1. MQ-Det:多模态查询的开放世界目标检测大模型

论文名称:Multi-modal Queried Object Detection in the Wild

论文:https://https://arxiv.org/abs/2305.18980

代码:github.com/YifanXu74/MQ-Det

1.1 从文本查询到多模态查询

一图胜千言:随着图文预训练的兴起,借助文本的开放语义,目标检测逐渐步入了开放世界感知的阶段。为此,许多检测大模型都遵循了文本查询的模式,即利用类别文本描述在目标图像中查询潜在目标。然而,这种方式往往会面临“广而不精”的问题。例如,(1)图1中的细粒度物体(鱼种)检测,往往很难用有限的文本来描述各种细粒度的鱼种,(2)类别歧义(“bat”既可指蝙蝠又可指拍子)。然而,以上的问题均可通过图像示例来解决,相比文本,图像能够提供目标物体更丰富的特征线索,但同时文本又具备强大的泛化性。由此,如何能够有机地结合两种查询方式,成为了一个很自然地想法。

获取多模态查询能力的难点:如何得到这样一个具备多模态查询的模型,存在三个挑战:(1)直接用有限的图像示例进行微调很容易造成灾难性遗忘;(2)从头训练一个检测大模型会具备较好的泛化性但是消耗巨大,例如,单卡训练GLIP[1]需要利用3000万数据量训练480 天。

多模态查询目标检测:基于以上考虑,作者提出了一种简单有效的模型设计和训练策略——MQ-Det。MQ-Det在已有冻结的文本查询检测大模型基础上插入少量门控感知模块(GCP)来接收视觉示例的输入,同时设计了视觉条件掩码语言预测训练策略高效地得到高性能多模态查询的检测器。

1.2 MQ-Det即插即用的多模态查询模型架构

图1 MQ-Det方法架构图

门控感知模块

如图1所示,作者在已有冻结的文本查询检测大模型的文本编码器端逐层插入了门控感知模块(GCP),GCP的工作模式可以用下面公式简洁地表示:

1.3 MQ-Det高效训练策略

基于冻结语言查询检测器的调制训练

由于目前文本查询的预训练检测大模型本身就具备较好的泛化性,作者认为,只需要在原先文本特征基础上用视觉细节进行轻微地调整即可。在文章中也有具体的实验论证发现,打开原始预训练模型参数后进行微调很容易带来灾难性遗忘的问题,反而失去了开放世界检测的能力。由此,MQ-Det在冻结文本查询的预训练检测器基础上,仅调制训练插入的GCP模块,就可以高效地将视觉信息插入到现有文本查询的检测器中。在文章中,作者分别将MQ-Det的结构设计和训练技术应用于目前的SOTA模型GLIP[1]和GroundingDINO[2],来验证方法的通用性。

以视觉为条件的掩码语言预测训练策略

作者还提出了一种视觉为条件的掩码语言预测训练策略,来解决冻结预训练模型带来的学习惰性的问题。所谓学习惰性,即指检测器在训练过程中倾向于保持原始文本查询的特征,从而忽视新加入的视觉查询特征。为此,MQ-Det在训练时随机地用[MASK] token来替代文本token,迫使模型向视觉查询特征侧学习,即:

这个策略虽然简单,但是却十分有效,从实验结果来看这个策略带来了显著的性能提升。

1.4 实验结果:Finetuning-frree评估

Finetuning-free:相比传统零样本(zero-shot)评估仅利用类别文本进行测试,MQ-Det提出了一种更贴近实际的评估策略:finetuning-free。其定义为:在不进行任何下游微调的条件下,用户可以利用类别文本、图像示例、或者两者结合来进行目标检测。

在finetuning-free的设定下,MQ-Det对每个类别选用了5个视觉示例,同时结合类别文本进行目标检测,而现有的其他模型不支持视觉查询,只能用纯文本描述进行目标检测。下表展示了在LVIS MiniVal和LVIS v1.0上的检测结果。可以发现,多模态查询的引入大幅度提升了开放世界目标检测能力。

表1 各个检测模型在LVIS基准数据集下的finetuning-free表现

从表1可以看到,MQ-GLIP-L在GLIP-L基础上提升了超过7%AP,效果十分显著!

1.5 实验结果:Few-shot评估

表2 各个模型在35个检测任务ODinW-35以及其13个子集ODinW-13中的表现

作者还进一步在下游35个检测任务ODinW-35中进行了全面的实验。由表2可以看到,MQ-Det除了强大的finetuning-free表现,还具备良好的小样本检测能力,进一步印证了多模态查询的潜力。图2也展示了MQ-Det对于GLIP的显著提升。

图2 数据利用效率对比;横轴:训练样本数量,纵轴:OdinW-13上的平均AP

1.6 多模态查询目标检测的前景

目标检测作为一个以实际应用为基础的研究领域,非常注重算法的落地。尽管以往的纯文本查询目标检测模型展现出了良好的泛化性,但是在实际的开放世界检测中文本很难涵盖细粒度的信息,而图像中丰富的信息粒度完美地补全了这一环。至此我们能够发现,文本泛而不精,图像精而不泛,如果能够有效地结合两者,即多模态查询,将会推动开放世界目标检测进一步向前迈进。MQ-Det在多模态查询上迈出了第一步尝试,其显著的性能提升也昭示着多模态查询目标检测的巨大潜力。同时,文本描述和视觉示例的引入为用户提供了更多的选择,使得目标检测更加灵活和用户友好。

参考

  1. Grounded Language-Image Pre-training 

  2. Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection 


在CVer微信公众号后台回复:MQ,可以下载本论文pdf和代码,学起来!

点击进入—>【目标检测和Transformer】交流群

ICCV / CVPR 2023论文和代码下载

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

目标检测和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer444,即可添加CVer小助手微信,便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如目标检测或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer444,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
NeurIPS 2023 | 无需配对数据就能学习!浙大等提出连接多模态对比表征C-MCR【2023 坛庆】 ⑤⑥ 花妖的鸳鸯枕縱使相逢應不識(下)曝OpenAI大模型新进展!将推出多模态大模型,新项目Gobi筹备中视觉模型+大语言模型:首个支持10K+帧长视频理解任务的新型框架TextBind:在开放世界中多轮交织的多模态指令跟随NeurIPS 2023 | 超越YOLO系列!华为提出Gold-YOLO:实时目标检测新SOTANeurIPS 2023 | 跨模态提示:微调大型预训练模型适应音视频下游任务NeurIPS 2023 | 东南大学&上交提出H2RBox-v2:旋转目标检测新网络百万奖金池!目标检测、分割、测距、融合、规划、控制等新赛事全面启动!2023中国智能网联汽车算法挑战赛(CIAC 2023)来了【2023 坛庆】山之茶全球首个支持输入20万字的大模型来了!一口气读几十个文档、一本20万字的小说破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型工业异常检测大模型来了!哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型NeurIPS 2023 | AI Agents先行者CAMEL:首个基于大模型的多智能体框架NeurIPS 2023 | 清华ETH提出首个二值化光谱重建算法厉害国的党争字节 | 大模型BuboGPT:引入视觉定位,实现细粒度多模态,已开源首个通用语音翻译系统!Meta重磅开源SeamlessM4T:支持100种语言多模态翻译,附47万小时训练数据精确率提升7.8%!首个多模态开放世界检测大模型MQ-Det登NeurIPS 2023NeurIPS 2023 | PointGPT:点云和GPT大碰撞!点云的自回归生成预训练一 个隐藏的致命杀手——羊水栓塞CNN能搞多模态了!UniRepLKNet:大核CNN一统多种模态,图像/视频/点云/时序/音频均达SOTA水平!上海内推 | 小红书多模态算法组招聘多模态CV/NLP算法实习生NeurIPS 2023 | 多模态基础大模型的高效微调「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR|NeurIPS 2023ICCV 2023 | 混合训练策略突破目标检测大模型上限,创下COCO、LVIS新SOTA吹尽黄沙不见金(七十八):重责【2023 坛庆】在我们的节日里,为未曾谋面却心心相念的朋友们献上这首寄托心声的诗!让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了重磅课程再次升级,一次性搞定大模型多模态AIGC与强化学习 --《2023秋季AIGC大模型与强化学习前沿技术实战》 招生简章NeurIPS 2023 | 王利民团队提出MixFormerV2:首个基于ViT并在CPU设备实时运行的目标跟踪器!【2023 坛庆】 ※ 烟雨行舟 ※ 夜垂云流缓 清梦醉阑珊NeurIPS 2023 | 浙大等提出C-MCR:连接多模态对比表征,无需配对数据就能学习!NeurIPS 2023 | 清华&ETH提出首个二值化光谱重建算法【2023 坛庆】贴首今天吹的笛子NeurIPS 2023 | 北大&华为提出:多模态基础大模型的高效微调中国医药界腐败的来龙去脉
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。