ECCV 2022 | 单点监督目标检测！国科大提出P2BNet：标一个点就能训练出强有力的目标检测器

2022-08-26 06:08

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

针对于单点监督的精准目标检测网络：P2BNet

目标检测只需要标一个点就行，比强监督节省标注成本，比弱监督好用！性能SOTA！

最新被ECCV 2022收录的一篇论文中，提供了一种单点监督目标检测的新框架。相对于先前最好的PSDO方法，在MS COCO数据集上提升了超过50%的平均AP，到达了22.1 AP和47.3 AP50，为拉近点监督目标检测和包围框监督目标检测之间的差距提供了可能。

图1。P2BNet-FR和检测结果的可视化。我们的P2BNet-FR可以预测复杂场景中的目标并区分属于同一类别的密集目标。（最好在彩色情况下观看。）

* Corresponding author

使用单点监督的目标检测在最近几年得到了广泛的关注。但是点监督目标检测（PSOD）和用包围框监督的目标检测在性能上仍然有很大的差距。

这篇文章，我们把如此大的性能差距归因于之前的方法没有产生高质量的提议包，然而这对多实例学习（multiple instance learning，MIL）的优化是很重要的。为了解决这些问题，我们提出了一个轻量得替换掉基于基于现成提议（OTSP）方法的网络：Point-to-Box Network(P2BNet)。

P2BNet通过anchor相似的方式，构建一个不同目标之间数量平衡的提议包。通过充分利用标注点的精准位置信息，P2BNet 构建了一个实例级别的提议包，避免了多个不同目标间的混淆。最后，一个由粗到精的级联策略被用于提高候选框和真实框（ground-truth）之间的交并比（IoU）。受益于这些策略，P2BNet能够为目标检测产生高质量的实例级别的提议框。产生的伪标注框被用于训练强监督检测器。

《Point-to-Box Network for Accurate Object Detection via Single Point Supervision》

论文：https://arxiv.org/abs/2207.06827

代码：https://github.com/ucas-vg/P2BNet

1、背景介绍

用精准得包围框标注训练的目标检测器在学术圈和工业界都得到了广泛的应用。然而，收集这些包围框的标注需要昂贵的人力成本。为了解决这些问题，弱监督目标检测(WSOD) 使用低成本的图片级别的标注来替换包围框。然而，由于缺乏关键的位置信息，受困于区分密集目标，WSOD方法在复杂的场景下目标检测表现很差。点监督目标检测（PSOD）可以提供有区分性的目标位置信息，而相对于包围框监督它更加得低成本。

图2：基于OTSP方法，图片级别的包在WSOD表面许多问题：太多的背景，混合多目标，不平衡低质量的提议框。在点标注中，过去的工作在第一阶段了绝大多数背景，在微调时把提议包分开成不同的物体。我们的P2BNet在CBP阶段产生均衡的实例级别的包，每次基于上一个阶段的结果，适应性地采样提议框，从而提升了包质量。在点标注后的数据集COCO-14上的表现。27.6AP50是基于Resnet-50骨干网络的。

最近，点监督标注在目标检测与定位、实例分割、行为定位等被广泛应用。然而，点监督目标检测和包围框监督目标检测的性能有巨大的差距。尽管很容易理解包围框标注所提供的目标位置信息比点标注更加丰富，但我们认为这不是唯一的原因。我们认为大多数PSOD方法没有充分挖掘点标注的潜力。先前的方法使用现成提议（OTSP）的方法（比如说：selective search，MCG，和EdgeBox）获得提议来构建提议包。尽管这些OTSP方法在弱监督目标检测器里被广泛应用，他们仍然存在以下问题（图2所示）：1）提议包里有太多的背景框。OTSP方法产生太多的与所以目标都没有交集的纯背景框。

2）每个目标的正例框是不平衡的。MCG产生的提议框中分配给每个目标的框的数量是不平衡的（详见论文）所示。

3）大多数提议包里的提议框与GT有着低IoU,这反映了提议的质量差（详见论文）。

4）另外，先前的PSOD方法只构建了图像级别的提议包，他们无法在MIL训练的时候无法利用点的信息，所以导致了同一个提议包里的不同目标的混淆。所有这些问题限制了构建的提议包的质量，导致了模型的低性能。

2、主要贡献

在这篇文章里，我们提出P2BNet作为OTSP方法的一个替代，来产生高质量的目标提议。P2BNet所产生的提议数量对每一个目标是平衡的，并且他们覆盖了各种尺度和长宽比的目标。另外，提议包是实例级别的而不是图像级别的，这保证了提议包中目标的排他性，因此很利于MIL训练。为了进一步提升包的质量，P2BNet设计了一个由粗到精的级联的步骤。P2BNet包括两个阶段，粗糙的伪框预测阶段（CBP）和精确的伪框修正阶段（PBR）。CBP阶段预测了目标的粗框（长和宽），PBR阶段迭代得修正了目标的尺度和位置。我们的P2BNet产生了高质量的平衡的候选框，确保了点标注在所有阶段的充分利用（在MIL训练的前，过程中，和之后）。详细的coco数据集的实验证明了我们模型的有效性和鲁棒性，其性能远远超出了先前的点监督目标检测器。我们的贡献如下：

（1）P2BNet，一个生成式的不基于OTSP的网络，被设计来预测伪框。它产生了一个类别间数量平衡的实例级别的提议框，有利于MIL训练的更好的优化。另外，P2BNet比基于OTSP的方法更加时间高效。

（2）具有着CBP阶段和PBR阶段，P2BNet提出了一个由粗到精的范式，有利于高质量框的产生和更好的预测。

（3）在单个类中心点的监督下，P2BNet-FR框架的目标检测性能比先前的最好的PSOD方法提升了超过50%的平均average precision（AP），弥补了与包围框目标检测器的性能差距，并在AP50达到可比较。

3．方法

P2B网络框架，包含P2B网络(P2BNet)和Faster R-CNN(FR)。P2BNet把点标注转化成伪框标注，并使用预测出的伪框监督训练检测器FR。我们使用Faster R-CNN的标准设定，因此下文中我们详细描述P2BNet的细节。

P2BNet的结构如图3所示，包括coarse pseudo box prediction(CBP粗伪框预测）阶段，pseudo box refinement(PBR伪框改善）阶段。CBP阶段粗略地输出目标的位置与宽高，PBR阶段迭代地微调框的尺寸和位置。整体上的优化损失函数loss是两个阶段的损失之和：

图3：P2BNet的结构。首先，为了预测粗略伪框，提议包被以标注点为中心固定采样。然后，PBR阶段，高质量的提议框和负例框被采样出来用于训练。最后伪框标注用于训练Faster R-CNN检测器。

3.1 粗伪框预测

在CBP阶段，首先，以标注点为中心，不同高和宽的提议框以anchor的形式产生。然后，提议框的特征用于训练一个MIL分类器，选取最契合的提议。最后，得分最高的前k个候选框根据top-k融合策略来进行粗伪框的预测。

图4：CBP阶段和PBR阶段采样策略的细节。PBR采样阶段的箭头代表微调。采样最终通过PBR阶段中心点调整和宽高调整实现。

3.2 伪框改善

PBR阶段的目的为微调框的宽高和位置。这个步骤可以用级联的形式迭代地进行改善以获得更好的性能。通过微调上一阶段伪框的宽高和中心点，生成更好的提议框，用于下一次模型训练。更进一步，因为正例框包是在局部生成的，负例可以通过远离正例的区域进行采样生成，来压制背景得分。PBR模型同样对前k个提议框取平均，得到改善的框——即最终的输出结果。

4 实验

4.1 性能对比

除非另有说明，否则我们的P2BNet-FR框架的默认组件是P2BNet和Faster R-CNN。我们将P2BNet-FR与现有的PSOD方法进行对比，同时选择最先进的UFO2[28] 框架作为对多个数据集和主干进行全面对比的基线。此外，为了展示PSOD方法的性能优势，我们将它们与最先进的WSOD方法进行了对比。同时，我们将经典的框监督目标检测器与PSOD方法的性能进行对比，以反映它们的性能局限性。

表1。框监督、图像监督和点监督检测器在COCO数据集上的性能对比。表示带有图像级标注的UFO2。表示我们使用原始设置再复现的性能。表示我们使用类中心点标注重新实现的UFO2。P2BNet-FR，和框监督检测器的性能是在单尺度数据集上测试的。我们的 P2BNet-FR基于具有top-4合并和一个PBR阶段的P2BNet。SS是选择性搜索[30]，PP表示[33]中定义的提议框，Free表示基于OTSP-free的方法。

4.3 消融研究

在本节中，所有消融研究都是在COCO-17数据集上进行的。除了表2(b)中的框合并策略部分和表3(c)中的不同检测器部分（k=4）外，top-k设置为k=7。

P2BNet中的训练损失。P2BNet中训练损失的消融研究如表2(a)所示。1)CBP损失。只在CBP阶段使用Lmil1，我们能得到13.7的AP和37.8的AP50。为了对比，我们引入Lpos，它将包中的所有提议框都视为正样本。我们发现它很难优化，性能也很差。它证明了我们提出的Lmil1对伪框预测的有效性。粗略的提议包可以覆盖高IoU中的大部分目标，从而降低丢失率并保证性能。然而由于尺度和纵横比的粗糙，性能仍有细化的可能，中心位置需要调整。因此，PBR 阶段应该包括Lmil2和Lneg。2)PBR损失。随着提议包的质量更好的采样（如图5所示），相应的PBR损失被引入。仅使用Lmil2，性能仅为12.7的AP和35.4的AP50。由于没有明确的负样本来抑制背景，因此引入了负损失Lneg。Lneg提高了9.0的AP和10.7的AP50的性能，表明它是必不可少的，并且它有效地进行了优化。

表2。P2BNet中训练损失的有效性：CBP阶段的Lmil1，PBR阶段的Lmil2和Lneg。Lpos和Lpesudo用于对比。

5 结论

在本文中，我们深入分析了基于OTSP的PSOD框架的缺点，并进一步提出了一种新的不基于OTSP方法的网络，称为P2BNet，以获得目标内平衡的和高质量的提议包。从粗到细的策略将伪框的预测分为CBP和PBR两个阶段。在CBP阶段，围绕标注点进行固定采样，通过实例级MIL预测粗略的伪框。PBR阶段围绕估计的框执行自适应采样，以级联方式微调预测的框。如前所述，P2BNet充分利用点信息生成高质量的提议包，更有利于优化检测器（FR）。值得注意的是，概念上简单的P2BNet-FR框架通过单点标注产生了最先进的检测性能。

图5 P2BNet的可视化。绿色的是标注点，黄色的是CBP阶段的，橙色PBR阶段的，蓝色的是真实框。复杂场景的效果也很好。图片来自于COCO17训练集。

图6 P2BNet-FR验证集的检测可视化结果。橙色是检测结果，蓝色是真实框。图片来自于COCO17的验证集。

点击进入—> CV 微信技术交流群

CVPR 2022论文和代码下载

后台回复：CVPR2022，即可下载CVPR 2022论文和代码开源的论文合集

后台回复：Transformer综述，即可下载最新的3篇Transformer综述PDF

目标检测和Transformer交流群成立

扫描下方二维码，或者添加微信：CVer6666，即可添加CVer小助手微信，便可申请加入CVer-目标检测或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。

一定要备注：研究方向+地点+学校/公司+昵称（如目标检测或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信: CVer6666，进交流群

CVer学术交流群（知识星球）来了！想要了解最新最快最好的CV/DL/ML论文速递、优质开源项目、学习教程和实战训练等资料，欢迎扫描下方二维码，加入CVer学术交流群，已汇集数千人！

▲扫码进群

▲点击上方卡片，关注CVer公众号

整理不易，请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章