Redian新闻
>
AAAI 2024 | 清华提出DRM:无偏差的新类发现与定位新方法

AAAI 2024 | 清华提出DRM:无偏差的新类发现与定位新方法

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/扩散/多模态】交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文ideaCV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

转载自:晓飞的算法工程笔记

论文分析了现有的新类别发现和定位(NCDL)方法并确定了核心问题:目标检测器往往偏向已知的目标,忽略未知的目标。为了解决这个问题,论文提出了去偏差区域挖掘(DRM)方法,以互补的方式结合类无关RPN和类感知RPN进行目标定位,利用未标记数据的半监督对比学习来改进表征网络,以及采用简单高效的mini-batch K-means聚类方法来进行新类发现

论文: Debiased Novel Category Discovering and Localization

  • 论文:https://arxiv.org/abs/2402.18821

Introduction


  现有的对象检测方法是在固定类别的封闭数据集上进行训练的和评估的,而在现实场景中,对象检测器需要面对已知对象和潜在未知对象。在训练后,模型就不会识别出训练期间没有看到的任何物体,要么将未知对象视为背景,要么将其错误分类为已知类别。相比之下,人类有感知、发现和识别未知新物体的能力。因此,新类别发现(Novel Category DiscoveryNCD)问题引起了人们的广泛关注,在检测已知对象的同时还要无监督地发现新类别。

  大多数NCD方法都先对标记数据集进行预训练步骤,然后对未标记数据进行处理。虽然有效,但大多数方法仅利用已知的对象和类别进行预训练和定位,这会引入两种偏差。首先是使用封闭集训练的检测头引入的有偏差的特征表达,其次是仅在标记的封闭集上训练RPN导致的定位偏差。

  为了解决上述问题,论文提出了去偏差NCD方法来减轻特征表达和对象定位中的偏差:

  • 引入半监督对比学习方法使模型能够学习相似实例的相似特征,在将未知类对象与已知类对象区分开。
  • 提出双RPN策略来同时检测图像中的目标对象。一个RPN具有类感知能力,旨在获取已知类的准确定位信息。另一个RPN则与类别无关,旨在定位未标记的目标对象。

  论文的贡献可以总结如下:

  • 重新审视开放世界中新类别发现的问题,研究现有方法中的偏差问题。
  • 使用双对象检测器来获得良好的区域提案,可以有效地找到图像中的所有目标对象并更好地定位。
  • 设计一种半监督实例级对比学习方法以获得比以前更好的特征表达,使模型依赖于无标记的图像信息来学习图像特征。
  • 通过大量的实验的结果,表明论文的方法优于其他基线方法。

Framework Details


Overview

  整体结构如图 2 所示:

  • 通过半监督对比学习优化特征提取器,学习更通用的特征表达。
  • 通过双RPN模块生成不同的框,再使用ROI pooling来池化特征用作最终提案输入。
  • 通过聚类将具有相似特征的实例被分在一起,从而可以发现不同的未知类别。

Debiased Region Mining

  在实际任务中,论文观察到RPN的两种场景:

  • 当遇到未注释的图像时,模型倾向于将它们分类为背景而不定位任何对象。
  • 当模型识别未知物体时,它会错误地将其分类为高置信度的已知物体。

  在Faster R-CNN中,目标定位器为上游任务的分类头,提取模型感兴趣的已知类。这导致偏向于识别已知目标,严重影响模型的通用性。

  在图 3 中,展示了三种不同的RPN的定位表现:

  • 第一种为类感知RPN:此类提案对VOC中的已知对象表现出更高的置信度,从而提高了提案质量。然而,置信度一般的提案往往是聚拢的,通常只包含目标对象的一部分。因此,检测到的对象的泛化能力有限。
  • 第二种为类不可知RPN:通过删除分类头并仅在网络学习objectness来生成提案。尽管与基线相比,提案泛化有所增强,但定位VOC类别的准确性仍未达到最佳水平,并且许多提案仍然表现出聚拢现象。
  • 第三种为论文提出的合并方法:通过从两个框中选择可靠的框,对每个框的置信度进行缩放后通过NMS统一提案。该方法显着提高了提案的质量,能够在不影响已知VOC类别准确性的情况下提取更多目标对象。此外,它有效地解决了提案聚拢问题。

  论文认为,现实场景中的NCDL问题应该与开放世界中的对象检测场景更加一致,对象提取器不应受到分类头的限制。因此,论文在Faster-RCNN中额外引入类无关的RPN,可以生成更通用的对象分数并检索更多对象。该RPN将与类相关的损失替换为与类无关的损失,仅通过以下方式估计提案的objectness

  • RPN中使用centerness回归而不是分类损失。
  • ROI头中使用IoU回归而不是的分类损失。

  对不同RPN获得的两组框进行可靠性分析,发现两组框在置信区间上的分布不同,表明各有不同优缺点。因此,论文提出了Debiased Region MiningDRM)的方法,通过类感知RPN和类无关RPN获得两组不同的框。类感知RPN获得的框在已知类上具有较高的准确率,但泛化性较差,在未知类上表现不佳。另一方面,由类无关的RPN获得的框在已知类上的表现可能不如前者,但对未知类有更强的泛化能力。将这两组框结合起来,就能得到一套结合了两者优点的新框合集。

  假设两组框及其置信度分数表示为 ,分别服从两个不同的分布 ,需要将这两个分布映射到统一的 以去除不同框生成方法之间的差距。为了保留置信度较高的框并过滤掉置信度非常低的框,设置阈值 来过滤置信度。过滤后合并两组框,使用NMS合并冗余框以获得融合后的结果。

Semi-supervised Contrastive Finetuning

  在得到框后,采用实例级半监督对比学习方法来提取更通用和更具表现力的特征。

  首先,根据GT框将VOC数据集中的图像裁剪成图像块,构成标记集 。随后,在COCO验证集上生成提案并裁剪出图像块,构成未标记集 。之后,通过随机增强给每个图像块 生成两个不同的视图 ,无监督对比损失计算为:

  其中 是对应的特征, 是温度超参数。

  对于有标签的图像块,可以利用标签来形成有监督对比损失:

  其中 表示与 具有相同标签的索引。

  最后,总损失构造如下:

  该损失将用于监督特征提取器的训练。

Clustering


  在完成对未知类别对象的对比学习后,模型对获得的信息进行聚类分析,将具有相似特征的未知图像聚合成簇。

  使用类似于K-means的方法进行聚类,进行了两个修改:

  • 采用over-clustering策略,通过强制生成另一个更细粒度的未标记数据分区并增加K(估计的聚类数)来提高聚类纯度和特征质量。over-clustering有利于减少监督的介入,允许神经网络决定如何划分数据。在存在噪声数据或中间类被随机分配给相邻类别时,这种切分是有效的。
  • 在新类别发现任务中使用K-means非常耗时,采用Mini-batch K-means(大规模数据中K-means的优化算法)代替。在训练过程中随机采样数据子集来减少训练计算耗时,同时优化目标函数。

  聚类算法的主要步骤如下:

  • 提取训练数据的子集,并使用K-means构建K个聚类中心。
  • 从训练集中提取样本数据并添加到模型中,将其分配给最近的聚类中心。
  • 更新每个簇的簇中心。
  • 重复步骤2和3,直到聚类中心稳定或达到最大迭代次数。

Experiments


何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba、多模态和扩散模型交流群成立

扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer5555,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!


扫码加入星球学习


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
热电催化:一种实现废热-化学能转化的新方法 | NSR科学家提出大模型微调新方法,效果优于现有大模型参数高效微调ICLR 2024 | 阐明扩散模型中的曝光偏差问题,一行代码大幅提升生成质量浙江大学蒋超实验室在Briefings in Bioinformatics上发表可用于复杂多组学数据的功能富集新方法ECCV 2024 | 清华提出PYRA:超轻量级ViT适应&推理高效微调模块定位理论之争:张云的终极定位与捍卫ICML 2024 | 清华提出DecisionNCE,用多模态表征预训练加速具身智能WWW 2024 | 华为、清华提出个性化多模态生成新方法,让AIGC更懂你OpenAI公开破解GPT-4思维的新方法,Ilya也参与了!有不烦车子的自动停启功能的吗?2024 BMW X5ECCV 2024|有效提高盲视频去闪烁效果,美图公司&国科大提出基于 STE 新方法 BlazeBVDSIGGRAPH2024|上科大、影眸联合提出DressCode:从文本生成3D服装板片红餐产业研究院&煲仔正:煲仔饭品类发展报告2024纯加法Transformer!结合脉冲神经网络和Transformer的脉冲Transformer | NeurIPS 2023图灵奖得主Bengio:突破大模型当前局限,需要超越Scaling Law的新方法CVPR 2024 | 双手协作双物体的数据集TACO:引领可泛化手物交互的新方向Cancer Discov | 挑战常规!过度刺激癌细胞或是一种治疗癌症的新方法Flash Attention稳定吗?Meta、哈佛发现其模型权重偏差呈现数量级波动“再见,Terraform”! HashiCorp被收购后,开发者跪求 IBM:不要合并 Terraform 和 Ansible祈雨愚人节(4/1/2024)Nature重磅:大模型的谎言如何“破”?牛津团队提出新方法,无需人工监督或特定领域知识2024,哪个包会是LV的断货王?EGO全球定位护照机票夹,一键呼叫定位查找,分区收纳!太赞了~联合国开发计划署:2023-2024年人类发展报告不影响输出质量还能追踪溯源,「大模型无偏水印」入选ICLR 2024 Spotlight清华提出时间序列大模型:面向通用时序分析的生成式Transformer | ICML 2024春季观鹤:2024 科州NUS、清华提出STAR:一句话生成高质量4D Avatar,代码已开源《来到遥远的地方》&《三春序》红餐:中式米饭快餐品类发展报告2024Best CD Rates Of April 2024: Up To 5.42%Mamba遇见扩散模型!DiM:无需微调,高分辨图像生成更高效!微软&清华提出全新预训练范式,指令预训练让8B模型实力暴涨!实力碾压70B模型此心安处是吾乡再回首 (二十五)红餐&李锦记:烤串品类发展报告2024几分钟生成四维内容,还能控制运动效果:北大、密歇根提出DG4D微软联合清华提出多头混合专家机制,大幅提升专家激活率个人感慨之121 世道太黑暗
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。