TPAMI 2022 | 跨特征图注意机制的小物体语义分割技术

2023-02-14 02:02

©PaperWeekly 原创 · 作者 | Miko

本篇文章介绍一下 Stanford University 学者于 TPAMI 2022 发表的一篇关于小物体语义分割的文章。语义分割的目标是从图像中准确标识出特定类型的物体，它是众多图像/视频应用领域的基础研究。全球各大科研机构都有大量学者关注语义分割研究领域，很多先进的语义分割算法被不断的提出。但目前对于小物体的语义分割仍然是一个公认的难点，而对小物体准确的分割对于各类应用如自动驾驶、肿瘤早筛等都有至关重要的影响。

斯坦福大学 Shengtian Sang 等人提出了一种利用跨特征图注意力机制的方法提高现有语义分割模型的性能，实验表明该方法在仅增加基础模型 0.1% 参数的情况下可以提高现有语义分割模型 2%-5% 的性能，该方法对于语义分割研究领域有重要的意义。

论文标题：

Small-Object Sensitive Segmentation Using Across Feature Map Attention

论文链接：

https://ieeexplore.ieee.org/document/9906428

研究背景

由于卷积和池化操作导致的信息损失，目前基于卷积神经网络的方法对于小/薄物体的分割仍然具有挑战性。该文提出了一种交叉特征图注意力（AFMA）的方法来解决这一问题。它通过利用原始图像的不同层级特征来量化属于同一类别的小物体和大物体之间的内在关系，AFMA 可以弥补小物体的深层特征信息损失并提高模型对小物体分割的性能。该方法可以广泛的用于现有分割模型架构，并能产生比现有方法更多的可解释的特征表示。

本工作的贡献可以概括为以下几点：

1. 引入了交叉特征图注意力机制，有效地提高了模型对小物体分割的性能。

2. 提供了一种基于交叉特征图注意力机制的解释方法，该方法可以给出模型识别小物体的依据。

3. 文中提出的方法可以应用到大部分现有分割模型，在只增加少于 1% 的参数的情况下提高模型 2%-5% 的性能。

本文方法

文中提出的交叉特征图注意力是一个类似于“插件”的方法，它可以应用到大部分现有的分割模型。论文首先展示了 AFMA 结合分割模型的示意图，如图 1a 所示，该方法插入到分模型的编码部分，其输出作用于模型的解码输出。图 1b-i 给出了 AFMA 作用于不同语义分割模型的示意图。

本文方法细节如下图所示：

方法部分（a）：计算 AFMA。利用模型编码层的原始图像（Initial input）和特征图（feature maps）计算得到 AFMA。

step 1 和 step 2：分别对原始图像和特征图做卷积操作，将原始图像和特征图的维度分别转化为和，其中表示的是数据集中待分隔物体的种类。

step 3 和 step 4：分别对 1、2 得到的特征图做大小相同的“切块”操作，该操作类似于 vision Transformer 中的 patch partition 操作。如使用大小为的切块操作得到和的特征图。其中的每个图像中包含的是原始图像的信息，其中中每个图像块包含的是某种特定物体的特征图信息。

step 5：使用点积操作计算 3、4 得到的特征图，得到大小为的 AFMA。该 AFMA 保存的是原始图像图像块（可能包含小物体）和特征图特征块（可能包含大物体）之间的关系。

方法部分（b）：通过 AFMA 计算模型原始输出可能包含的小物体信息。

step 6 和 step 7：分别对分割模型的输出做平均池化（average pooling）和分块操作，得到维度为的特征图，其中每个大小的特征块包含的是模型原始结果的“压缩”结果。

step 8：计算 AFMA 和“压缩结果”的点积，该结果表示原始输出可能包含的小物体信息。

step 9 和 step 10：step 9 将切块的特征图还原到模型输出结果的尺寸，step 10 将该结果和模型的原始结果相加作为最终模型的结果。

方法部分（c）：介绍 AFMA 的金标准计算方法。该方法分别使用和（a）（b）中相同的平均池化、分块和点积操作得到维度为的 AFMA 标准答案。文中另外也给出了计算标准 AFMA 的用例图，如下图所示：

损失函数：该方法的损失函数包含两部分，一部分是分割方法传统的交叉熵损失函数；另一部分采用了 MSE 作为计算 AFMA 和标准 AFMA 之间的损失。

实验结果

该论文在广泛使用的街景数据集 CamVid，CityScapes、医学数据集 LiTS，SLATMD 及自然图像数据集 UCSDBirds 上都做了大量的对比实验。如下为 CamVid 数据集上的结果，从结果可以看到所有的现有语义分割模型在加上 AFMA 方法后对于小物体的分割性能都有提升。

文中除了给出一般论文展示的分割结果示意图以外，还给出了 AFMA 对于结果提升的原因及解释。如下图所示，AFMA 计算得到图像中的小车和大车的特征图存在较多关联，而和其他类型物体的特征图关系较少。从下图 b 可以看到，图中左前方的大车、后方的次大车以及马路中间较小的车辆都对模型最终能识别最远处的小车提供了信息。论文中作者对于 AFMA 还给出更多的实例和详细的解释。