AAAI 2024 | 浙大赵天成博士团队提出全新评测基准OVDEval,全面审视开放词汇目标检测模型的泛化能力
随着近年来视觉-语言预训练的发展,目标检测领域的研究范式正在经历从确定标签集合的闭集(closed set labels)向开放词汇检测(open-vocabulary detection,简称 OVD)的转变。然而,现有的 OVD 评测方法和数据集仅限于评测 OVD 模型在不同物体类别和指代描述(referfal expression)上的泛化性,不能对 OVD 模型的能力给出系统的细粒度评估。
数据资源方面,贡献了全面而有挑战性的细粒度测试数据:OVDEval 包含 9 个子集、6 类细粒度属性,首次在 OVD 模型的评估中引入了常识、属性理解、位置理解、物体关系理解等细粒度方面的属性标签,而且包含挑战性高的难负例; 评测指标方面,设计了更适合细粒度标签的新指标 NMS-AP:指出了传统的目标检测评测指标平均准确率(Average Precision,简称 AP)在细粒度评测上的不足,设计了新指标非极大值抑制平均准确率(Non-MaximumSuppression Average Precision,简称 NMS-AP)来解决该问题,为 OVD 模型的细粒度评测提供更可靠的指标; 评测结果方面,指出了现有 OVD 模型在细粒度新任务上的泛化性有待提升:GLIP、Grounding DINO、OmDet 和 Detic 等流行的 OVD 模型在 OVDEval 上的评测结果显示,它们在除简单的物体类别外的细粒度新任务上的表现都是失败的,这表明现有 OVD 模型的泛化性能还有巨大的提升空间,为目标检测领域未来的研究指明了新方向。
日前,OVDEval 成果论文被人工智能国际顶会 AAAI 2024 录用,数据已开源。本文将详细解读 OVDEval 在开放词汇目标检测模型的评测数据资源、评测指标与对现有模型评测结果三方面的贡献。
How to Evaluate the Generalization of Detection? A Benchmark for Comprehensive Open-Vocabulary Detection
收录会议:
论文链接:
数据开源:
数据资源:首个系统的细粒度评测基准数据集,OVD研究的新灯塔
随着视觉-语言预训练技术的发展,GLIP [1]、Grounding DINO [2]、OmDet [3] 等多模态预训练模型已经可以在 COCO 这样的目标检测经典数据集上取得出色的零样本推理效果,这类预训练的开放词汇检测(open-vocabulary detection,简称 OVD)模型的性能甚至超过了部分传统的闭集有监督模型的性能 [3]。
然而,评测基准的发展却没有跟上快速提升的模型能力,研究者评估强大的 OVD 模型时依然使用 COCO、LVIS、RefCOCO 等传统目标检测和视觉定位任务的基准数据集。它们虽然对传统模型富有挑战性,但由于以下缺点,已经不适合用来评测强大的多模态预训练 OVD 模型:
1. 缺乏对模型泛化能力的系统性测试:理想的 OVD 模型应该能够理解语言输入中的细粒度语义(如物体类型、视觉属性、物体关系等),而现有的目标检测基准数据集主要关注物体类型,忽略了模型在对细粒度任务的泛化能力;
2. 缺乏符合真实应用需求的难负例:现有的视觉定位数据集假设输入文本和图像是配对的(图像中肯定有相对应的物体),而现实世界中,语言输入描述的物体可能根本在图像中不存在,OVD 模型应该能够识别这种难负例。
现有工作评估 OVD 模型时,一般只在上述数据集上测试,报告所有标签上的平均准确率(AP),无法刻画 OVD 模型对细粒度属性的建模能力和对难负例的鉴别能力。考虑到现有评测基准的缺陷,赵天成博士团队以全面刻画细粒度属性、引入有挑战性的难负例为目标,设计了名为 OVDEval 的一套新 benchmark 以评价 OVD 模型的泛化能力。
有了 OVDEval 这样一套覆盖全方位细粒度属性、并包含富有挑战性的难负例的 benchmark,OVD 模型们将迎来一场更贴合真实世界应用需求、更考验全方位泛化能力的“大考”,而目标检测领域的研究也将告别在 COCO 等较简单的传统数据集上过度刷点的困境。
▲ 高质量的评测基准数据集像灯塔一样,指引着本领域的研究航程。
评测指标:新指标NMS-AP,更适合细粒度评估的量尺
有了高质量的评测数据资源之后,我们需要考虑采取何种评测指标才能精准地量化模型能力。目标检测领域传统上一般使用平均准确率(Average Precision,简称 AP)指标,即准确率-召回率曲线下的面积。
具体来说,近期的研究工作一般使用 COCO AP,考虑了从 0.5 到 0.95(步长为 0.05)的一些列 IoU 阈值下的平均 AP 值 mAP。但是,在设计细粒度属性的目标检测评测中,作者发现存在一条欺骗 mAP 指标的“捷径”(作者称之为 AP 通胀,The Inflated AP Problem):模型可以不顾真正重要的细粒度属性,对单个物体打上所有可能的相近标签,来获取虚高的 mAP 值。
作者举的例子是,如果图像中有一辆红车和一辆蓝车,模型可以完全不顾颜色这一重要属性,给两辆车都打上“红车”和“蓝车”的 bounding box(共4个),假设 bounding box 和标签区域的 IoU 都高于 0.95,则模型在完全没有理解颜色属性的情况下,也获得了 0.5 的 mAP 值,这显然是对模型能力的高估。
为了防止 mAP 指标高估 OVD 模型的细粒度泛化能力,作者提出了使用忽视类别的非极大值抑制(C-NMS)算法来去除冗余的预测,再计算 mAP 指标,最后得到的新指标称为非极大值抑制平均准确率(Non-Maximum Suppression Average Precision,简称 NMS-AP)。
评测结果:现有OVD模型纷纷失败,期待高难度基准引领未来研发
在物体类别(object)这一最简单的维度,除了 MDETR 外,各模型的表现都很好; 然而,所有的模型在 logo/benchmark/celebrity 这三类专有名词属性上都表现很差,尤其是在 celebrity 上面,NMS-AP 值都接近 0。值得注意的是,Dectic在 logo 和 benchmark 上表现相对来说最好; 在其他包含难负例的细粒度属性对应的子集上,各模型的总体表现也很差; OmDet 在 color/material/relationship 上的的相对表现较好,可能归功于它预训练阶段使用的包含物体属性的 VAW 数据集和带物体关系的 HOI-A 数据集; GroundingDINO 在 position 上的表现远超其他模型,可能归功于其预训练阶段使用的带定位信息的 RefCOCO 数据集; 总的来说,在除 COCO(物体类型)之外的子集上,现有 OVD 模型的泛化能力都还有很大提升空间,OVDEval 这样全面的细粒度评测基准对发现模型不足、继续提升模型能力意义重大。
结语与思考
OVDEval 是一篇非常出色的 Resource & Benchmark 类型的研究工作,这类研究工作虽然较少提出新的模型和算法,但对相应的领域发展十分重要。历史上,正是有了 CV 领域的 ImageNet、NLP 领域的 GLUE 和 SuperGLUE 这样高质量的评测基准数据集,研究者们才得以快速评估、迭代新的模型和训练算法,推动了整个深度学习领域的蓬勃发展。
笔者也曾参加过 benchmark 类型的研究工作,认为该类型的杰出工作一般包含三方面的亮点:
1. 资源方面,贡献与已有数据不同的、可以揭示之前被忽略的某方面能力的新数据;
2. 评测指标方面(可选),分析现有指标是否适用于新的评测场景,如果不行,分析其失败原因、设计有效的新指标;
3. 实验评测方面,全面地评估现有前沿模型在新数据上的泛化能力,对比分析它们的成果与不足之处,为未来的改进提供 insight。
从这三个维度来看,OVDEval 都非常出色:在资源方面贡献了 OVD 这一重要领域首个系统考虑细粒度属性、包含难负例的基准数据集,在指标方面分析了 mAP 的不足、提出了对细粒度评估更有效的 NMS-AP,在实验评测方面指出了现有 OVD 模型在细粒度属性上的泛化能力还有很大提升空间,为了 OVD 领域的持续发展提供了新的基础资源和方向指引。
参考文献
[6] Zhou, Xingyi, et al. "Detecting twenty-thousand classes using image-level supervision." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022.
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者