Redian新闻
>
精确率提升7.8%!首个多模态开放世界检测大模型MQ-Det登NeurIPS 2023

精确率提升7.8%!首个多模态开放世界检测大模型MQ-Det登NeurIPS 2023

公众号新闻



  新智元报道  

编辑:LRS
【新智元导读】MQ-Det在已有基于文本查询的检测大模型基础上,加入了视觉示例查询功能,同时保留了高泛化性能和细粒度多模态查询,在ODinW-35基准上实现SOTA性能。


目前的开放世界目标检测模型大多遵循文本查询的模式,即利用类别文本描述在目标图像中查询潜在目标,但这种方式往往会面临「广而不精」的问题。


论文链接:https://arxiv.org/abs/2305.18980

代码地址:https://github.com/YifanXu74/MQ-Det


为此,中科院自动化等机构的研究人员提出了基于多模态查询的目标检测MQ-Det,以及首个同时支持文本描述和视觉示例查询的开放世界检测大模型。


MQ-Det在已有基于文本查询的检测大模型基础上,加入了视觉示例查询功能。通过引入即插即用的门控感知结构,以及以视觉为条件的掩码语言预测训练机制,使得检测器在保持高泛化性的同时支持细粒度的多模态查询,为用户提供更灵活的选择来适应不同的场景。


其简单有效的设计与现有主流的检测大模型均兼容,适用范围非常广泛。


实验表明,多模态查询能够大幅度推动主流检测大模型的开放世界目标检测能力,例如在基准检测数据集LVIS上,无需下游任务模型微调,提升主流检测大模型GLIP精度约7.8%AP,在13个基准小样本下游任务上平均提高了6.3% AP。


从文本查询到多模态查询


一图胜千言


随着图文预训练的兴起,借助文本的开放语义,目标检测逐渐步入了开放世界感知的阶段。


为此,许多检测大模型都遵循了文本查询的模式,即利用类别文本描述在目标图像中查询潜在目标。


然而,这种方式往往会面临「广而不精」的问题。


图1 MQ-Det方法架构图


例如,图1中的细粒度物体(鱼种)检测,往往很难用有限的文本来描述各种细粒度的鱼种;类别歧义,bat既可指蝙蝠又可指拍子。


然而,以上的问题均可通过图像示例来解决,相比文本,图像能够提供目标物体更丰富的特征线索,但同时文本又具备强大的泛化性。


由此,如何能够有机地结合两种查询方式,成为了一个很自然地想法。


获取多模态查询能力的难点:如何得到这样一个具备多模态查询的模型,存在三个挑战:


1. 直接用有限的图像示例进行微调很容易造成灾难性遗忘;


2. 从头训练一个检测大模型会具备较好的泛化性但是消耗巨大,例如,单卡训练GLIP[1]需要利用3000万数据量训练480 天。


多模态查询目标检测:基于以上考虑,作者提出了一种简单有效的模型设计和训练策略——MQ-Det


MQ-Det在已有冻结的文本查询检测大模型基础上插入少量门控感知模块(GCP)来接收视觉示例的输入,同时设计了视觉条件掩码语言预测训练策略高效地得到高性能多模态查询的检测器。


MQ-Det:即插即用的多模态查询模型架构


门控感知模块


如图1所示,作者在已有冻结的文本查询检测大模型的文本编码器端逐层插入了门控感知模块(GCP),GCP的工作模式可以用下面公式简洁地表示:



对于第i个类别,输入视觉示例 v_i,其首先和目标图像 进行交叉注意力( X-MHA)得到 以增广其表示能力,而后每个类别文本 t_i 会和对应类别的视觉示例  进行交叉注意力得到 ,之后通过一个门控模块gate 将原始文本 t_i 和视觉增广后文本  融合,得到当前层的输出


这样的简单设计遵循了三点原则:(1)类别可扩展性;(2)语义补全性;(3)抗遗忘性,具体讨论可见原文。


MQ-Det高效训练策略


基于冻结语言查询检测器的调制训练


由于目前文本查询的预训练检测大模型本身就具备较好的泛化性,作者认为,只需要在原先文本特征基础上用视觉细节进行轻微地调整即可。


在文章中也有具体的实验论证发现,打开原始预训练模型参数后进行微调很容易带来灾难性遗忘的问题,反而失去了开放世界检测的能力。


由此,MQ-Det在冻结文本查询的预训练检测器基础上,仅调制训练插入的GCP模块,就可以高效地将视觉信息插入到现有文本查询的检测器中。


在文章中,作者分别将MQ-Det的结构设计和训练技术应用于目前的SOTA模型GLIP[1]和GroundingDINO[2],来验证方法的通用性。


以视觉为条件的掩码语言预测训练策略


作者还提出了一种视觉为条件的掩码语言预测训练策略,来解决冻结预训练模型带来的学习惰性的问题。


所谓学习惰性,即指检测器在训练过程中倾向于保持原始文本查询的特征,从而忽视新加入的视觉查询特征。


为此,MQ-Det在训练时随机地用[MASK] token来替代文本token,迫使模型向视觉查询特征侧学习,即:



这个策略虽然简单,但是却十分有效,从实验结果来看这个策略带来了显著的性能提升。


实验结果


Finetuning-free


相比传统零样本(zero-shot)评估仅利用类别文本进行测试,MQ-Det提出了一种更贴近实际的评估策略:finetuning-free


其定义为:在不进行任何下游微调的条件下,用户可以利用类别文本、图像示例、或者两者结合来进行目标检测。


在finetuning-free的设定下,MQ-Det对每个类别选用了5个视觉示例,同时结合类别文本进行目标检测,而现有的其他模型不支持视觉查询,只能用纯文本描述进行目标检测。


下表展示了在LVIS MiniVal和LVIS v1.0上的检测结果。可以发现,多模态查询的引入大幅度提升了开放世界目标检测能力。


表1 各个检测模型在LVIS基准数据集下的finetuning-free表现


从表1可以看到,MQ-GLIP-L在GLIP-L基础上提升了超过7%AP,效果十分显著!


Few-shot评估


表2 各个模型在35个检测任务ODinW-35以及其13个子集ODinW-13中的表现


作者还进一步在下游35个检测任务ODinW-35中进行了全面的实验。由表2可以看到,MQ-Det除了强大的finetuning-free表现,还具备良好的小样本检测能力,进一步印证了多模态查询的潜力。图2也展示了MQ-Det对于GLIP的显著提升。


图2 数据利用效率对比;横轴:训练样本数量,纵轴:OdinW-13上的平均AP


多模态查询目标检测的前景


目标检测作为一个以实际应用为基础的研究领域,非常注重算法的落地。


尽管以往的纯文本查询目标检测模型展现出了良好的泛化性,但是在实际的开放世界检测中文本很难涵盖细粒度的信息,而图像中丰富的信息粒度完美地补全了这一环。


至此我们能够发现,文本泛而不精,图像精而不泛,如果能够有效地结合两者,即多模态查询,将会推动开放世界目标检测进一步向前迈进。


MQ-Det在多模态查询上迈出了第一步尝试,其显著的性能提升也昭示着多模态查询目标检测的巨大潜力。


同时,文本描述和视觉示例的引入为用户提供了更多的选择,使得目标检测更加灵活和用户友好。


参考资料:
1. Grounded Language-Image Pre-training https://arxiv.org/abs/2112.038
2. Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection https://arxiv.org/abs/2303.05499




微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
2023 US Open 美国网球公开赛NeurIPS 2023 | 无需配对数据就能学习!浙大等提出连接多模态对比表征C-MCR2023/08最新民调,台湾人对于独立还是统一是怎么看的?红色日记 4.21-30TextBind:在开放世界中多轮交织的多模态指令跟随世界十大购物街之一的结构的浪漫体验ICCV 2023 | 混合训练策略突破目标检测大模型上限,创下COCO、LVIS新SOTA幻觉降低30%!首个多模态大模型幻觉修正工作Woodpecker阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了教育随笔(118) 我的语文教学改革之路NeurIPS 2023 | AI Agents先行者CAMEL:首个基于大模型的多智能体框架「无需配对数据」就能学习!浙大等提出连接多模态对比表征C-MCR|NeurIPS 2023让大模型看图比打字管用!NeurIPS 2023新研究提出多模态查询方法,准确率提升7.8%NeurIPS 2023 | 清华ETH提出首个二值化光谱重建算法【回国记录】半夜听到爸妈的声音US News 2023Resolution in 2023重磅课程再次升级,一次性搞定大模型多模态AIGC与强化学习 --《2023秋季AIGC大模型与强化学习前沿技术实战》 招生简章NeurIPS 2023 | 大模型时代自监督预训练的隐性长尾偏见更像人脑的新型注意力机制,Meta让大模型自动屏蔽任务无关信息,准确率提高27%曝OpenAI大模型新进展!将推出多模态大模型,新项目Gobi筹备中破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型NeurIPS 2023 | 北大&华为提出:多模态基础大模型的高效微调GPT-4完成正确率仅6%!北大等提出首个「多轮、多模态」PPT任务完成基准PPTCUC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源工业异常检测大模型来了!哈工大提出Myriad:利用视觉专家进行工业异常检测的大型多模态模型DeepMind让大模型学会归纳和演绎,GPT-4准确率提升13.7%读王朔《我看就是一场闹剧》「知识型图像问答」微调也没用?谷歌发布搜索系统AVIS:少样本超越有监督PALI,准确率提升三倍NeurIPS 2023 | 清华&ETH提出首个二值化光谱重建算法NeurIPS 2023 | MQ-Det:首个支持多模态查询的开放世界目标检测大模型一文速览NeurIPS 2023大模型/预训练/上下文学习相关Spotlight文章小模型如何比肩大模型,北理工发布明德大模型MindLLM,小模型潜力巨大NeurIPS 2023 | 浙大等提出C-MCR:连接多模态对比表征,无需配对数据就能学习!也求建议,我上周将前公司401K roll over 到了Fidelity,大概200K左右,准备买大盘股指数,该如何操作才好?NeurIPS 2023 | 跨模态提示:微调大型预训练模型适应音视频下游任务上海内推 | 小红书多模态算法组招聘多模态CV/NLP算法实习生NeurIPS 2023 | 多模态基础大模型的高效微调CNN能搞多模态了!UniRepLKNet:大核CNN一统多种模态,图像/视频/点云/时序/音频均达SOTA水平!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。