Redian新闻
>
AAAI 2023 Oral | 回归元学习,基于变分特征聚合的少样本目标检测实现新SOTA

AAAI 2023 Oral | 回归元学习,基于变分特征聚合的少样本目标检测实现新SOTA

公众号新闻

机器之心专栏

腾讯优图实验室

少样本目标检测器通常在样本较多的基础类进行训练,然后在样本较少的新颖类上进行微调,其学习到的模型通常偏向于基础类,并且对新颖类样本的方差敏感。为了解决这个问题,腾讯优图实验室联合武汉大学提出了基于变分特征聚合的少样本目标检测模型 VFA,大幅刷新了 FSOD 指标。本工作已入选 AAAI 2023 Oral。


不同于传统的目标检测问题,少样本目标检测(FSOD)假设我们有许多的基础类样本,但只有少量的新颖类样本。其目标是研究如何将基础类的知识迁移到新颖类,进而提升检测器对新颖类的识别能力。


FSOD 通常遵循两阶段训练范式。在第一阶段,检测器使用丰富的基础类样本进行训练,以学习目标检测任务所需的通用表示,如目标定位和分类。在第二阶段中,检测器仅使用 少量(如 1, 2, 3...)新颖类样本进行微调。然而由于基础类和新颖类样本数量的不平衡,其学习到的模型通常偏向于基础类,进而导致新颖类目标与相似的基础类混淆。此外,由于每个新颖类只有少量样本,模型对新颖类的方差很敏感。例如,随机采样新颖类样本进行多次训练,每次的结果都会有较大的差异。因此十分有必要提升模型在少样本下的鲁棒性。


近期,腾讯优图实验室与武汉大学提出了基于变分特征聚合的少样本目标检测模型 VFA。VFA 的整体结构是基于改进版的元学习目标检测框架 Meta R-CNN++,并提出了两种特征聚合方法:类别无关特征聚合 CAA(Class-Agnostic Aggregation)变分特征聚合 VFA(Variational Feature Aggregation)


特征聚合是 FSOD 中的一个关键设计,其定义了 Query 和 Support 样本之间的交互方式。前面的方法如 Meta R-CNN 通常采用类别相关特征聚合 CSA(class-specific aggregation),即同类 Query 和 Support 样本的特征进行特征聚合。与此相反,本文提出的 CAA 允许不同类样本之间的特征聚合。由于 CAA 鼓励模型学习类别无关的表示,其降低了模型对基础类的偏向。此外,不同类之间的交互能够更好地建模类别间的关系,从而降低了类别的混淆。


基于 CAA,本文又提出了 VFA,其采用变分编码器(VAEs)将 Support 样本编码为类的分布,并从学习到的分布中采样新的 Support 特征进行特征融合。相关工作 [1] 指出类内方差(如外观的变化)在不同类之间是相似的,并且可以通过常见的分布进行建模。因此我们可以利用基础类的分布来估计新颖类的分布,进而提高少样本情况下特征聚合的鲁棒性。


VFA 在多个 FSOD 数据集上表现优于目前最好的模型,相关研究已经被 AAAI 2023 录用为 Oral



论文地址:https://arxiv.org/abs/2301.13411


VFA 模型细节


更强的基线方法:Meta R-CNN++


目前 FSOD 的工作主要可以分为两类:基于元学习(meta learning)的方法和基于微调(fine-tuning)的方法。早期的一些工作证明元学习对 FSOD 是有效的,但基于微调的方法在最近受到越来越多的关注。本文首先建立了一个基于元学习的基线方法 Meta R-CNN++,缩小了两种方法之间的差距,在某些指标上甚至超过了基于微调的方法


我们首先分析了两种方法在实现上的一些差距,以元学习方法 Meta R-CNN [2] 和基于微调的方法 TFA [3] 为例,虽然这两种方法都遵循两阶段训练范式,TFA 在微调阶段使用额外的技术优化模型:


  1. TFA 冻结了大部分网络参数,只训练最后的分类和回归层,这样模型就不会过度拟合少样本类别。

  2. TFA 不是随机初始化分类层,而是复制基础类的预训练权重,只初始化新颖类的权重。

  3. TFA 采用余弦分类器(cosine classifier)而不是线性分类器。


考虑到 TFA 的成功,我们构建了 Meta R-CNN++。如下表 1 所示,只要我们仔细处理微调阶段,元学习方法也能够取得较好的效果。因此,本文选择 Meta R-CNN++ 作为基线方法。


表一:Meta R-CNN 和 TFA 的对比与分析


类别无关特征聚合 CAA


图一:类别无关特征聚合 CAA 示意图


本文提出一个简单而有效的类别无关特征聚合方法 CAA。如上图一所示,CAA 允许不同类之间的特征聚合,进而鼓励模型学习类别无关的表示,从而减少类别间的偏向和类之间的混淆。具体来说,对于类别的每个 RoI 特征和一组 Support 特征我们随机选择一个类的 Support 特征与 Query 特征聚合:



然后我们将聚合特征提供给检测子网络以输出分类得分

变分特征聚合 VFA

图二 VFA 模型示意图

之前的工作通常将 Support 样本编码为单个特征向量来表示类别的中心。然而在样本较少且方差较大的情况下,我们很难对类中心做出准确的估计。在本文中,我们首先将 Support 特征转换为类别的分布。由于估计出的类别分布不偏向于特定样本,因此从分布中采样的特征对样本的方差有较好的鲁棒性。VFA 的框架如上图二所示。

a)变分特征学习。VFA 采用变分自编码器 VAEs [4] 来学习类别的分布。如图二所示,对于一个 Support 特征 S,我们首先使用编码器来估计分布的参数,接着从分布中通过变分推理(variational inference)采样,最后通过解码器得到重构的 Support 特征在优化 VAE 时,除了常见的 KL Loss和重构 Loss,本文还使用了一致性 Loss 使得学习到的分布保留类别信息:


b)变分特征融合。由于 Support 特征被转换为类别的分布,我们可以从分布中采样特征并与 Query 特征聚合。具体来说,VFA 同样采用类别无关聚合 CAA,但将 Query 特征与变分特征聚合在一起。给定类的 Query 特征和类的 Support 特征,我们首先估计其分布,并采样变分特征然后通过下面的公式将其融合在一起:


其中表示通道乘法,而 sig 是 sigmoid 操作的缩写。在训练阶段,我们随机选择一个 Support 特征进行聚合;在测试阶段,我们对类的个 Support 特征取平均值,并估计分布,其中

分类 - 回归任务解耦

通常情况下,检测子网络包含一个共享特征提取器和两个独立的网络:分类子网络和回归子网络在前面的工作中,聚合后的特征被输入到检测子网络中进行目标分类和边界框回归。但是分类任务需要平移不变特征,而回归需要平移协变的特征。由于 Support 特征表示的是类别的中心,具有平移不变性,因此聚合后特征会损害回归任务。

本文提出一种简单的分类 - 回归任务解耦。让表示原始和聚合后的 Query 特征,之前的方法对这两个任务都采用,其中分类分数和预测边界框定义为:


为了解耦这些任务,我们采用单独的特征提取器并使用原始的 Support 特征进行边界框回归:

 

实验评估

我们采用的数据集:PASCAL VOC、 MS COCO。评价指标:新颖类平均精度 nAP、基础类平均精度 bAP

主要结果

VFA 在两个数据集上都取得了较好的结果。如在 PASCAL VOC 数据集上(下表二),VFA 显著高于之前的方法;VFA 的 1-shot 结果甚至高于一些方法 10-shot 的结果。

表二 VFA 在 PASCAL VOC 数据集上的效果

消融实验

a)不同模块的作用。如下表三所示,VFA 的不同模块可以共同作用,提升模型的性能。

表三 不同模块的作用

b) 不同特征聚合方法可视化分析。如下图三所示,CAA 可以减小基础类与新颖类之间的混淆;VFA 在 CAA 的基础上,进一步增强了类间的区分度。

图三 相似矩阵可视化

c)更加准确的类别中心点估计。如下图四所示,VFA 可以更加准确的估计出类别的中心。且随着样本数量的减少,估计的准确度逐渐高于基线方法。这也解释了为什么我们的方法在样本少的情况下(K=1)表现的更好。

图四 估计的类别中心与真实类别中心间的距离

d)结果可视化

图五 可视化结果

结语

本文回归了基于元学习的 FSOD 中特征聚合方法,并提出了类别无关特征聚合 CAA 和变分特征聚合 VFA。CAA 可以减少基础类和新颖类之间的类别偏差和混淆;VFA 将样本转换为类别分布以实现更加鲁棒的特征聚合。本文提出的方法在 PASCAL VOC 和 MS COCO 数据集上的实验证明了其有效性。

参考文献
[1]Lin X, Duan Y, Dong Q, et al. Deep variational metric learning [C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 689-704.
[2]Yan X, Chen Z, Xu A, et al. Meta r-cnn: Towards general solver for instance-level low-shot learning [C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 9577-9586.
[3]Wang X, Huang T E, Darrell T, et al. Frustratingly simple few-shot object detection [C]//Proceedings of the 37th International Conference on Machine Learning. 2020: 9919-9928.
[4]Kingma D P, Welling M. Auto-encoding variational bayes [J]. arXiv preprint arXiv:1312.6114, 2013.

© THE END 
转载请联系本公众号获得授权
投稿或寻求报道:[email protected]


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ICLR 2023 | 高分论文!上海交大提出H2RBox:旋转目标检测新网络赴华行前检测大松绑有望即将到来!抗原检测取代核酸检测,取消航司行前查验检测报告EMNLP 2022 | 知识图谱上的问题生成:用元学习建模不同子图80+小时实习,90+小时督导,近600小时学习,助你成为心理咨询师|培养计划莫奈笔下的雪景突发:澳洲全国爆发混乱!国庆日变分裂日!澳洲总理紧急发声;大批人攻陷主流城市,冲突游行不断;City封路!议员怒斥:虚伪...CVPR 2023 | 即插即用!SQR:对于训练DETR-family目标检测的探索和思考與香港盲人輔導會的一段緣杭电小哥抢先搞定GPT读图功能,单卡就能实现新SOTA,代码已开源|CVPR2023扩散模型和Transformer梦幻联动!一举拿下新SOTA接着谈成功的人生。。。Eruope 2023国际要闻简报,轻松了解天下事(03CV发论文的机会来了!南洋理工项目招生(仅限深度学习,AI,机器学习,迁移学习方向)名声大噪的YOLO迎来YOLOv8,迅速包揽目标检测、实例分割新SOTA扩散模型和Transformer梦幻联动!替换U-Net,一举拿下新SOTA!李玟惊爆婚变分居 富商老公传劈腿嫩妹!患睡眠呼吸中止症 陈乔恩急动刀!陈赫节目录一半突阳 自嘲得了「干饭株」ICLR 2023 | 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究ICLR 2023 | H2RBox: 旋转目标检测方法超越YOLOv8!YOLOv6 v3.0实时目标检测重磅升级!国际要闻简报,轻松了解天下事(03推理速度比Stable Diffusion快2倍,生成、修复图像谷歌一个模型搞定,实现新SOTA聚合价值采样方法:以低成本获得高质量标签样本集合 | NSR​EACL 2023 | 图像文本检索:自适应特征聚合与训练目标篮球女明星格里纳回家了,还有多少人没有“回家”?RRC detection、CornerNet、M2Det、FOCS…你都掌握了吗?一文总结目标检测必备经典模型(三)R-CNN、SPP-Net、Fast R-CNN…你都掌握了吗?一文总结目标检测必备经典模型(一)转:2023 回国探亲(5)扩散模型和Transformer梦幻联动!一举拿下新SOTA,MILA博士:U-Net已死2023 春 祝姐妹们周末快乐!AAAI 2023 | 如何识别未知标签?多模态知识迁移框架实现新SOTAConagen和Natáur达成合作,生产可持续天然牛磺酸CVPR 2023 | Uni3D: 首个多数据集3D目标检测框架AAAI 2023|基于多模态标签聚合的视频检索模型TABLE,多项SOTAFastTrack Universität 2023莱比锡大学公立语言项目招生简章AAAI 2023 | 超越SOTA 3.27%,上交大等提出自适应本地聚合新方法Diffusion+目标检测=可控图像生成!华人团队提出GLIGEN,完美控制对象的空间位置从联合国对各国超额死亡人数的统计看各国抗疫的成效AAAI 2023 Oral | 如何识别未知标签?多模态知识迁移框架实现新SOTADAMO-YOLO项目原作解读:兼顾速度与精度的高效目标检测框架
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。