Redian新闻
>
AAAI 2024 | 浙大赵天成博士团队提出全新评测基准OVDEval,全面审视开放词汇目标检测模型的泛化能力

AAAI 2024 | 浙大赵天成博士团队提出全新评测基准OVDEval,全面审视开放词汇目标检测模型的泛化能力

科学

随着近年来视觉-语言预训练的发展,目标检测领域的研究范式正在经历从确定标签集合的闭集(closed set labels)向开放词汇检测(open-vocabulary detection,简称 OVD)的转变。然而,现有的 OVD 评测方法和数据集仅限于评测 OVD 模型在不同物体类别和指代描述(referfal expression)上的泛化性,不能对 OVD 模型的能力给出系统的细粒度评估

由赵天成博士领衔的浙大滨江研究院团队意识到现有评测基准的不足,设计了名为 OVDEval 的全新 benchmark,以全面地重新审视 OVD 模型的泛化能力。主要贡献与亮点如下:
  • 数据资源方面,贡献了全面而有挑战性的细粒度测试数据:OVDEval 包含 9 个子集、6 类细粒度属性,首次在 OVD 模型的评估中引入了常识、属性理解、位置理解、物体关系理解等细粒度方面的属性标签,而且包含挑战性高的难负例;
  • 评测指标方面,设计了更适合细粒度标签的新指标 NMS-AP指出了传统的目标检测评测指标平均准确率(Average Precision,简称 AP)在细粒度评测上的不足,设计了新指标非极大值抑制平均准确率(Non-MaximumSuppression Average Precision,简称 NMS-AP)来解决该问题,为 OVD 模型的细粒度评测提供更可靠的指标;
  • 评测结果方面,指出了现有 OVD 模型在细粒度新任务上的泛化性有待提升GLIP、Grounding DINO、OmDet 和 Detic 等流行的 OVD 模型在 OVDEval 上的评测结果显示,它们在除简单的物体类别外的细粒度新任务上的表现都是失败的,这表明现有 OVD 模型的泛化性能还有巨大的提升空间,为目标检测领域未来的研究指明了新方向。

日前,OVDEval 成果论文被人工智能国际顶会 AAAI 2024 录用,数据已开源。本文将详细解读 OVDEval 在开放词汇目标检测模型的评测数据资源、评测指标与对现有模型评测结果三方面的贡献。

论文标题:

How to Evaluate the Generalization of Detection? A Benchmark for Comprehensive Open-Vocabulary Detection

收录会议:

AAAI 2024

论文链接:

https://arxiv.org/pdf/2308.13177.pdf

数据开源:

https://github.com/om-ai-lab/OVDEval


数据资源:首个系统的细粒度评测基准数据集,OVD研究的新灯塔

随着视觉-语言预训练技术的发展,GLIP [1]、Grounding DINO [2]、OmDet [3] 等多模态预训练模型已经可以在 COCO 这样的目标检测经典数据集上取得出色的零样本推理效果,这类预训练的开放词汇检测(open-vocabulary detection,简称 OVD)模型的性能甚至超过了部分传统的闭集有监督模型的性能 [3]

然而,评测基准的发展却没有跟上快速提升的模型能力,研究者评估强大的 OVD 模型时依然使用 COCO、LVIS、RefCOCO 等传统目标检测和视觉定位任务的基准数据集。它们虽然对传统模型富有挑战性,但由于以下缺点,已经不适合用来评测强大的多模态预训练 OVD 模型:

1. 缺乏对模型泛化能力的系统性测试:理想的 OVD 模型应该能够理解语言输入中的细粒度语义(如物体类型、视觉属性、物体关系等),而现有的目标检测基准数据集主要关注物体类型,忽略了模型在对细粒度任务的泛化能力;

2. 缺乏符合真实应用需求的难负例:现有的视觉定位数据集假设输入文本和图像是配对的(图像中肯定有相对应的物体),而现实世界中,语言输入描述的物体可能根本在图像中不存在,OVD 模型应该能够识别这种难负例。

现有工作评估 OVD 模型时,一般只在上述数据集上测试,报告所有标签上的平均准确率(AP),无法刻画 OVD 模型对细粒度属性的建模能力和对难负例的鉴别能力。考虑到现有评测基准的缺陷,赵天成博士团队以全面刻画细粒度属性、引入有挑战性的难负例为目标,设计了名为 OVDEval 的一套新 benchmark 以评价 OVD 模型的泛化能力。

OVDEval 包括九个子数据集,分别关注以下六类细粒度属性:物体类型、物体属性(包括颜色和材质)、专有名词(包括地标、Logo 和名人)、物体关系、位置和否定式描述(negation)。整个 benchmark 共有 2 万张图片,各子集统计信息如下:

▲ OVDEval九个子集的数据分布统计信息
除了物体类型这一常见属性直接采用没有负例的 COCO 测试集外,其他属性对应的子集里都提供了精心标注的难负例,也就是对某个自然语言标签,仅变换该子集关心的属性形成难负例,如物体颜色的子集中,“white shoe” 的难负例是 “blue/red/yellow/brown/green shoe”:

▲ 各种细粒度标注与相应的难负例

有了 OVDEval 这样一套覆盖全方位细粒度属性、并包含富有挑战性的难负例的 benchmark,OVD 模型们将迎来一场更贴合真实世界应用需求、更考验全方位泛化能力的“大考”,而目标检测领域的研究也将告别在 COCO 等较简单的传统数据集上过度刷点的困境。

如同当年横空出世、引领了整个计算机视觉和深度学习领域发展的 ImageNet,OVDEval 这样富有挑战性的高质量评测资源如同研究航程中的指路灯塔,将持续指引 OVD 研究的前程。

▲ 高质量的评测基准数据集像灯塔一样,指引着本领域的研究航程。



评测指标:新指标NMS-AP,更适合细粒度评估的量尺

有了高质量的评测数据资源之后,我们需要考虑采取何种评测指标才能精准地量化模型能力。目标检测领域传统上一般使用平均准确率(Average Precision,简称 AP)指标,即准确率-召回率曲线下的面积。

具体来说,近期的研究工作一般使用 COCO AP,考虑了从 0.5 到 0.95(步长为 0.05)的一些列 IoU 阈值下的平均 AP 值 mAP。但是,在设计细粒度属性的目标检测评测中,作者发现存在一条欺骗 mAP 指标的“捷径”(作者称之为 AP 通胀,The Inflated AP Problem):模型可以不顾真正重要的细粒度属性,对单个物体打上所有可能的相近标签,来获取虚高的 mAP 值。

作者举的例子是,如果图像中有一辆红车和一辆蓝车,模型可以完全不顾颜色这一重要属性,给两辆车都打上“红车”和“蓝车”的 bounding box(共4个),假设 bounding box 和标签区域的 IoU 都高于 0.95,则模型在完全没有理解颜色属性的情况下,也获得了 0.5 的 mAP 值,这显然是对模型能力的高估。

为了防止 mAP 指标高估 OVD 模型的细粒度泛化能力,作者提出了使用忽视类别的非极大值抑制(C-NMS)算法来去除冗余的预测,再计算 mAP 指标,最后得到的新指标称为非极大值抑制平均准确率(Non-Maximum Suppression Average Precision,简称 NMS-AP)

具体来说,作者在与真实标签 IoU 大于 0.5 的预测上运行了 C-NMS,来处理上面例子中提到的对同一个物体预测多个 bounding box 的问题,整体算法如下:

▲ NMS-AP指标的计算过程
下图在 GLIP 的一个 case 上展示了应用 C-NMS 前后预测结果的对比,可以看出 C-NMS 可以有效去除冗余的预测,提高 mAP 指真实衡量模型泛化性的能力:

▲ 例:NMS(非极大值抑制)可以去除 GLIP 预测结果中冗余的 bounding box,使 AP 指标更真实地反映模型的能力。


评测结果:现有OVD模型纷纷失败,期待高难度基准引领未来研发

有了 OVDEval 这样一套高质量的评测基准数据和 NMS-AP 这一适合细粒度评测的指标,作者系统测评了 GLIP [1]、Grounding DINO [2]、OmDet [3]、MDETR [4]、FIBER [5] 和 Dectic [6] 这六个具有代表性的视觉-语言预训练 OVD 模型的泛化性。主要结果如下面的主表和雷达图:

▲ 现有主流 OVD 模型在 OVDEval 上的细粒度评测结果

▲ 比较现有模型在各子集上泛化能力的雷达图
我们可以看出:
  • 在物体类别(object)这一最简单的维度,除了 MDETR 外,各模型的表现都很好;
  • 然而,所有的模型在 logo/benchmark/celebrity 这三类专有名词属性上都表现很差,尤其是在 celebrity 上面,NMS-AP 值都接近 0。值得注意的是,Dectic在 logo 和 benchmark 上表现相对来说最好;
  • 在其他包含难负例的细粒度属性对应的子集上,各模型的总体表现也很差;
  • OmDet 在 color/material/relationship 上的的相对表现较好,可能归功于它预训练阶段使用的包含物体属性的 VAW 数据集和带物体关系的 HOI-A 数据集;
  • GroundingDINO 在 position 上的表现远超其他模型,可能归功于其预训练阶段使用的带定位信息的 RefCOCO 数据集;
  • 总的来说,在除 COCO(物体类型)之外的子集上,现有 OVD 模型的泛化能力都还有很大提升空间,OVDEval 这样全面的细粒度评测基准对发现模型不足、继续提升模型能力意义重大。



结语与思考

OVDEval 是一篇非常出色的 Resource & Benchmark 类型的研究工作,这类研究工作虽然较少提出新的模型和算法,但对相应的领域发展十分重要。历史上,正是有了 CV 领域的 ImageNet、NLP 领域的 GLUE 和 SuperGLUE 这样高质量的评测基准数据集,研究者们才得以快速评估、迭代新的模型和训练算法,推动了整个深度学习领域的蓬勃发展。

笔者也曾参加过 benchmark 类型的研究工作,认为该类型的杰出工作一般包含三方面的亮点:

1. 资源方面,贡献与已有数据不同的、可以揭示之前被忽略的某方面能力的新数据;

2. 评测指标方面(可选),分析现有指标是否适用于新的评测场景,如果不行,分析其失败原因、设计有效的新指标;

3. 实验评测方面,全面地评估现有前沿模型在新数据上的泛化能力,对比分析它们的成果与不足之处,为未来的改进提供 insight。

从这三个维度来看,OVDEval 都非常出色:在资源方面贡献了 OVD 这一重要领域首个系统考虑细粒度属性、包含难负例的基准数据集,在指标方面分析了 mAP 的不足、提出了对细粒度评估更有效的 NMS-AP,在实验评测方面指出了现有 OVD 模型在细粒度属性上的泛化能力还有很大提升空间,为了 OVD 领域的持续发展提供了新的基础资源和方向指引。

我们期待后续 OVD 领域的研究者们以 OVDEval 为标杆,研发出一个真正的“六边形战士”,不惧现实世界中各种细粒度难负例的挑战。


参考文献

[1] Li, Liunian Harold, et al. "Grounded language-image pre-training." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.
[2] Liu, Shilong, et al. "Grounding dino: Marrying dino with grounded pre-training for open-set object detection." arXiv preprint arXiv:2303.05499 (2023).
[3] Zhao, Tiancheng, et al. "Omdet: Language-aware object detection with large-scale vision-language multi-dataset pre-training." arXiv preprint arXiv:2209.05946 (2022).
[4] Kamath, Aishwarya, et al. "Mdetr-modulated detection for end-to-end multi-modal understanding." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.
[5] Dou, Zi-Yi, et al. "Coarse-to-fine vision-language pre-training with fusion in the backbone." Advances in neural information processing systems 35 (2022): 32942-32956.

[6] Zhou, Xingyi, et al. "Detecting twenty-thousand classes using image-level supervision." European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022.



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
​AAAI 2024 | 视觉定位标注难?浙大赵天成博士团队提出零样本定位新SOTA模型GroundVLP浙大等团队提出全新「自我对比」策略,有效提高大模型的反思效果丢弃99%的参数!阿里团队提出语言模型合体术,性能暴涨且无需重新训练和GPUAAAI 2024 | 小红书搜索团队提出全新框架:验证负样本对大模型蒸馏的价值超148万奖金!目标检测、分割新赛事!2023 无锡国际人工智能算法大赛全面启动!目标检测方向微信交流群成立!我行我素的傻子EMNLP 2023 | 阅读顺序很重要:蚂蚁联合复旦提出全新多模态文档信息抽取模型扩散模型图像理解力刷新SOTA!字节联合复旦团队提出全新「元提示」策略Strong start 2024小红书搜索团队提出全新框架:验证负样本对大模型蒸馏的价值《大炮、病菌和一场春梦》 (10) 那一年的记忆,除了战争和瘟疫,还有我做的春梦丰原素产量达3290mg/L,元英进院士团队开发「工程菌株联合体」,通过共培养添加前体以提高产量有线电视开机广告,全面取消!零一万物 Yi 大模型最新评测,英语能力仅次于 GPT-4单GPU运行数千大模型!UC伯克利提出全新微调方法S-LoRAICLR 2024 | 微软提出全新LLM剪枝方法:参数减少25%,大幅提升计算效率AAAI 2024 | 中科院信工所提出结构化概率编码框架,有效增强预训练语言模型泛化能力TPAMI 2023 | 图神经网络在分布外图上的泛化复旦团队提出思维交流框架EoT,由CoT到EoT,可跨模型通信,表现更出色2023,报复性旅游之伦敦美女车祸和汽车安全碰撞试验New Year's fireworks 2024 LIVE: NYC's Times Square ball drop浙大提出KnowPAT框架:大模型的知识偏好对齐与垂域应用LAMM:多模态指令微调数据集、框架、评测基准NeurIPS 2023 | 北大具身智能团队提出需求驱动导航:对齐人类需求,让机器人更高效刷新多个SOTA!腾讯优图提出统一模态新架构UniM-OV3D:3D开放词汇场景理解核心产品有望成为全球首款VDC疗法,这家先行者如何探索VDC未来之路?100+目标检测必备论文,建议收藏!MIT斯坦福Transformer最新研究:过度训练让中度模型「涌现」结构泛化能力【美坛综艺秀假日篇】Best wishes for 2024!扩散模型图像理解力刷新SOTA!字节复旦团队提出全新「元提示」策略2024 rav4 油车 le四驱3D目标检测方向微信交流群成立!20个小样本目标检测涨点方法!0.3%参数推理,实现78倍加速!ETH团队提出UltraFastBERT,构筑语言模型巨人红色日记 骑车外调 5.16-23NeurIPS 2023 | 港科大&华为提出CoDA:开放词汇3D目标检测新网络希拉里厦门大学韩家淮院士团队:为什么新冠疫苗的保护时间如此之短?——有关 COVID-19 疫苗的现状及未来
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。