真的存在可以检测万物的模型吗?联汇科技提出了一种有趣的解决方案
你还在为你的检测模型只能检测固定类别的物体而烦恼吗?你还在为添加新的检测类别后需要从头开始训练模型而烦恼吗?你还在为标注目标检测模型的数据而烦恼吗?这说明你应该换一套思路来做目标检测啦!既然我们人类能从生活和书本中不断学习知识,那为什么模型就不可以呢?今天推荐一篇来自联汇科技首席科学家赵天成博士的最新研究成果,一起看看如何让目标检测模型像人类一样持续终生学习吧!
不知不觉,目标检测这一任务已经历了多年的发展。从传统手工设计特征,到 CNN 时代,然后再到 Transformer 时代,目前的目标检测方法能够以非常简单的范式实现超高的性能,这意味着目标检测这一任务已经发展到尽头了吗?当然不!!!相比于高精度,将目标检测任务推进到开放词汇和少样本迁移场景下,能够使得目标检测在更多的实际应用中发挥作用。那么问题来了,怎么才能实现这样一个检测开放词汇的目标和仅需少量样本就实现高性能的模型呢?
论文题目:
OmDet: Language-Aware Object Detection with Large-scale Vision-Language Multi-dataset Pre-training
https://arxiv.org/abs/2209.05946
目标检测(OD)是计算机视觉(CV)中的一项重大任务。经典的 OD 研究一直专注于改进检测器网络,以使用固定输出标签集(例如 COCO 中的 80 个类)实现更高的准确度和更低的延迟。但是,更高的准确度和更低的延迟真的是目标检测任务的尽头了吗?目标检测任务是否还有可能往其他方向发展呢?
最近,基于视觉语言预训练(VLP)的新兴研究方向一直在升级 OD 模型以解决更具挑战性的开放词汇设置,在这个设置中检测器可以通过零/少样本适应泛化到新的视觉概念。一些基于 VLP 的方法利用大规模 visual grounding 数据集进行预训练,一些工作将类别不可知区域建议网络(RPN)与零样本图像文本分类器相结合,分别用于定位和分类。这些方法都促进了开放词汇下目标检测的发展。
与以往基于 VLP 的方法利用一个大型视觉语言语料库进行预训练不同,本文探索了一种持续学习的方法,即检测器能否从许多视觉词汇量增加的 OD 数据集中逐步学习,并最终实现开放词汇检测能力。这种方法之所以吸引人,有以下几个原因:1)它开启了终身学习的可能性,因为可以通过向其提供新数据集来提高检测器的零/少样本性能;2)它具有成本效益,因为创建许多特定领域的小型数据集比创建单个大词汇量的大型数据集要便宜得多。
另一方面,来自具有不同标签的多个 OD 数据集的联合训练面临两个关键技术挑战:
1. 分类冲突:每个 OD 数据集都用其标签进行注释,经典检测器将类型分类问题制定为固定的 Softmax 层。这种设计禁止从不同的标签集学习或动态适应新任务的可能性。
2. 前景/背景不一致:由于标签集不同,因此在数据集 A 中可能会将目标建议视为前景,而在数据集 B 中将其视为背景。例如,类型“猫”在数据集 A 中,但在数据集 B 中没有。本文的研究表明,这个问题极大地损害了经典检测器的多数据集性能,因为 RPN 头部被相互冲突的 ground truth 标签所混淆。
为了应对上述挑战,作者提出了一种新颖的基于 VLP 的目标检测框架:OmDet。作者首先制定语言感知对象检测,它是 OD 任务的通用版本,即给定一个图像和一个任务(一组对象名称),检测任务中出现的对象实例。
其次,作者引入了一种新颖的深度视觉语言融合网络,以使定位和分类都具有语言感知能力,即检测器可以根据当前任务的条件动态修改其对象定位和分类行为。
最后,作者开发了一种新的多数据集训练算法,使 OmDet 能够从任意数量的 OD 数据集中学习,而不管它们的标签集如何,作者将预训练扩展到大量数据集,总词汇量超过 400 万个独特的文本标签。
所提出的方法首先在一项小规模研究中得到验证,以确认其多数据集学习能力。作者在实验中使用了四个 OD 数据集,包括 COCO、Pascal VOC、Wider Face和 Wider Pedestrian。结果表明,OmDet 不仅能够从所有数据集中学习而不会出现标签冲突,而且由于其在任务之间的知识共享,它比单个数据集检测器具有更强的性能。
然后作者进行了更大规模的研究以将 OmDet 扩展到非常大的词汇预训练。使用混合了 2000 万张图像和 400 万个独特文本标签的 OD 数据集进行预训练,其中包括人工标注和伪标签。得到的模型在最近提出的 ODinW 数据集上进行评估,该数据集涵盖了各个领域的 35 个不同的 OD 任务。
综合评估表明,与在更大数据集上预训练的 GLIP 相比,所提出的持续学习范式能够实现新的最先进的性能。此外,实验还表明,积累多个数据集以扩展到大词汇量 OD 学习是提高 OmDet 的零/少样本能力以及参数效率训练性能的有效方法。
这项工作的贡献有四个方面:
1)提出了 OmDet,一种新颖的语言感知 OD 架构和训练框架,能够有效地从任意数量的 OD 数据集中学习。
2)通过解决标签差异和前/背景不一致挑战来确认所提出的多数据集训练的有效性的实验。
3)通过同时掌握 35 个不同的下游任务,显示 OmDet 在 ODinW 数据集上的最新性能的实验。
方法
视觉Backbone
任务编码器和标签编码器
多模态检测网络
多模式检测网络(MDN)是 OmDet 的核心组件。作者部署早期融合以尽早结合来自图像和当前任务的信息,以实现强大的性能。受到 Sparse-RCNN 网络设计的启发,作者开发了一种基于迭代查询的融合机制。
为了在训练时模拟极端的多任务设置,并强制模型将其输出限制在给定任务上,在训练期间使用了一种新的任务采样策略。
1. 假设给定任务的最大尺寸为 K,对于 mini-batch 中来自数据集 d 的图像 x,首先对 k∈[1, K] 进行均匀分布的采样。
2. 设 x 中唯一对象类型的数量为 m,如果 m>k,则仅保留 k 个对象类型的随机子集,并删除此 mini-batch 的额外标注。如果 m<k,则从数据集 d 的词汇表 V 中随机选择额外的负对象类型。如果数据 d 的词汇量小于 K,则缺失负数的提醒用掩码 0 填充。
3. 使用上述采样任务和 ground truth 标注训练模型。
对于文本嵌入,作者没有使用提示(prompt)。这是因为初步研究表明使用提示模板与不使用提示模板之间没有重大区别。此外,初步研究还表明,使用单模态语言模型(例如 BERT 和 RoBERTa)与多模态语言模型(例如 CLIP)之间没有显着差异 。作者怀疑这是因为对象检测不涉及复杂的语言理解。因此,整个研究都使用了 CLIP-B/16 文本编码器。
对于任务和标签编码器,两个独立的 Transformer 用于进一步编码文本嵌入,为任务中的每个元素创建上下文集嵌入。研究表明,集合编码能够提高 OmDet 的性能。
对于视觉 Backbone,实验中使用了 Swin Transformers 和 ConvNeXt。标准 FPN 用于从视觉编码器中提取四级特征图。两个主干都在 ImageNet 21K 数据上进行了预训练。
此外,添加更多预训练数据集可显着改善零样本设置。具体来说,添加 object365 数据集可以在平均 mAP 上获得 3.7 个点的绝对增益。令人惊讶的是,将 LVIS 添加到训练前数据会使性能降低 1.1 个百分点。作者推测性能下降是由于 LVIS 数据集的嘈杂和不完整的标注。
上表总结了全模型微调的结果。结果表明,大规模多数据集预训练对于域内训练数据有限的少样本和中等样本任务特别有效。特别是对于少样本数据集,OmDet 以 6.41 的绝对 AP 点胜过 OmDet-C。而对于Big -shot任务,预训练的优势就变得不那么明显了。
上图展示了预训练中使用的词汇量大小与 ODinW 上仅使用 head-only 和 prompt tuning 的 AP 分数。
随着预训练期间包含更多视觉概念,可以观察到明显的上升曲线。这表明:
(1)多数据集预训练能够积累大量的视觉概念,这导致提取通用视觉特征的更强大的主干(由仅头部 FT 结果支持)。
赵天成博士,卡耐基梅隆大学(CMU)计算机博士,国际顶会多次最佳论文获奖者。2018微软研究院年度杰出博士获奖者之一,端到端对话系统研究领军者,UCLA电子工程系2014级全系第一毕业生,浙江大学滨江研究院Om人工智能研究中心主任、特聘研究员。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
微信扫码关注该文公众号作者