北大研究团队提出凸面镜反射场景语义分割UDA，超越基线10个点！

2022-10-27 10:10

©PaperWeekly 原创 · 作者 | 石永杰

单位 | 北京大学智能学院

研究方向 | 计算机视觉

最近，来自北京大学的研究团队提出凸面镜反射场景无监督域适应语义分割算法，该工作也是目前学术界内第一篇有关凸面镜场景理解的工作，发表在 IEEE Transactions on Intelligent Transportation Systems（T-ITS）上，作者单位为北京大学智能学院。

论文标题：

Unsupervised Domain Adaptation for Semantic Segmentation of Urban Street Scenes Reflected by Convex Mirrors

论文链接：

https://ieeexplore.ieee.org/document/9903282

关键词：

畸变，凸面镜，语义分割，无监督域适应

研究背景

凸面镜由于可以提供大的视野，常常被用在街道拐角处或被用作汽车的乘客侧后视镜。通过反射视野盲区，凸面镜可以为行人和司机提供安全保障。

近年来，随着自动驾驶和智能交通的快速发展，如何智能地理解凸面镜反射的场景是一个重要的问题。然而 CNN 在语义分割方面取得了巨大的成就主要归功于利用大量标注数据的监督学习，然而人类在像素级的标注上所花费的时间和精力是巨大的。无监督领域适应方法（UDA）旨在将知识从标签丰富的源域转移到标签稀少的目标域，从而减少源域和目标域之间的域差距。

然而，已有方法重在缓解由渲染图像和真实图像或不同城市之间的风格带来的领域差异。对于正常图像和凸面镜反射图像而言，他们的差异主要体现在几何外观上，即凸面镜反射图像具有较大的畸变，而正常图像则没有。因此，以前的主要解决由风格差异带来域差异的无监督域适应方法，并不完全适用于解决由几何外观不同所带来的域差异。

北京大学的研究人员提出了一个框架，以缓解正常和凸面镜反射图像之间的几何域差异。他们根据凸面镜反射图像的变形特性对其进行几何建模，并提出了一个在线可微分凸面镜模拟网络层（Convex Mirror Simulation Layer，CMSL）。在 CMSL 的帮助下，分别对输入空间的低级边缘和输出空间的高级语义边界进行对抗性领域适应，以减少合成图像和真实图像之间的几何外观差距。

为了便于研究凸面镜反射图像的语义分割，作者在北京大学校园内采集数据，并贡献了一个数据集 Convex Mirror Reflection Dataset（CMR1K）。CMR1K 包含 268 张带有密集像素级语义注释的图像。实验结果表明，作者的方法在不同的源域和不同的骨干网络上都优于基线和以前的 UDA 方法。

凸面镜反射模拟层的建立

本节阐述了提出的凸面镜模拟层。作者观察到，在用凸面镜反射的场景中存在两种畸变。一种是由凸面反射面引起的径向畸变，另一种是由凸面镜的倾斜引起的透视畸变。为了模拟这两种类型的畸变，他们首先对正常图像进行径向畸变。

▲ 图2 用不同的k得到的具有不同程度变形的图像。k的绝对值越高，图像中的径向畸变就越强

然后，虚拟一个摄像机并将径向畸变的图像放在空间中。通过旋转径向畸变的图像并将其投射到图像平面，可以模拟透视畸变。

以这种方式合成的图像可能只占据了图像平面的一小部分。为了使合成的凸面镜充满整个图像区域，将倾斜的凸面镜区域进行对齐是必要的。

下面的章节将详细地描述每个过程。在此之前，不同图像预定义的符号如下表所示。

▲ 表1

2.1 模拟凸面镜的径向畸变

当正对着凸面镜拍摄时，变形程度在凸面镜的边缘较大，在中间较小。此外，整个变形是中心对称的，呈现出桶状。基于这一观察，作者选择了一个径向畸变模型来对图像进行变形操作。假设径向畸变图像中的一个点的坐标为，对应于原始图像中的坐标为，畸变模型可以用以下公式描述：

其中其中表示畸变程度，。不同的会影响到径向畸变的程度。如图 2 所示，越小，径向畸变的程度越大。

2.2 建立坐标系

为了模拟透视畸变，首先建立摄像机坐标系和世界坐标系。假设摄像机坐标系为，世界坐标系为。世界坐标系下的一点在摄像机坐标系下可以表示为，它们的关系可以由下式描述：

其中和分别是两个坐标系之间的旋转矩阵和平移向量。为简化模拟过程，设定：

和平移向量。假设摄像机的焦距为，内参数矩阵可以表示为：

则的投影可以通过以下方式得到：

建立世界坐标系中一点与其对应投影点的关系后，成像过程包括将径向畸变图像放置在平面上，并将其投影在图像平面上。接下来将通过旋转放置的径向畸变图像模拟透视畸变。

2.3 模拟凸面镜透视畸变

将径向畸变图像与其所在的坐标系分别绕和轴旋转和度。假设旋转后的坐标系为。原世界坐标系下一点在旋转后的坐标系中对应于，它们的关系为：

在上述公式中，

其中，，，。结合式 7 和式 5，可以得到：

在坐标系中，径向畸变图像在平面内，因此有。令，其中表示的列向量，。则式 8 可以写成：

假设径向畸变图像上一点与平面上一点的关系为：

事实上，这里设定。结合式 9 和式 10，可以得到径向畸变图像上一点与其投影点之间的关系为：

由于为正交矩阵，的逆为其转置，因此和分别是的第一行和第二行。将式 11 改写为：

其中表示单应矩阵。原始图像点与透视畸变图像点之间的关系可以通过式 1 和式 12 建立。

即给定任何正常图像，可设置不同的、、和来获得不同的凸面镜图像。然而，以这种方式合成的图像可能只占成像平面的一小部分，尤其是当距离非常大时。缩小的图像会破坏原始图像中的结构信息，因此，有必要在投影后对凸面镜区域（即椭圆区域）进行平移和缩放，使其能够充满整个成像区域。

2.4 凸面镜反射区域对齐

为方便对齐，需要找到椭圆的上、下、左、右边界，如图所示。假设图像经过径向畸变后，边界上的点为。根据圆的公式定义可以得到：

其中，

表示径向畸变图像边界圆的半径。事实上，畸变图像的坐标已经被归一化为，因此，并且

结合式 12 和式 13，可以得到：

其中，

将式 16 转化为其对偶形式：

其中表示椭圆的切线，并且有：

和

椭圆上边界和下边界的切线是，假设

结合式 18，可以得到：

对式 2 进行化简，可以得到：

式 23 是一个一元二次方程，两个根和分别为：

，并且，可以得到

，因此。

结合式 19，可以得到下边界

和上边界

。同理可得右边界

和左边界

。中心点坐标可表示为

。

缩放尺度可表示为：

当

，即

时，

当

，即

时，

假设对齐图像中一点坐标为，对齐变换可以表示为：

结合式 26、27 和 28，可以得到：

当

时，

当

时，

2.5 总变换表示

结合式 29、12 和 1，可以得到：

其中，当

时，

当

时，

在式 31 中，是正常图像上的一点，是模拟的凸镜图像上的对应点，是与、和有关的矩阵。通过改变、和，可以模拟凸面镜倾斜产生的透视畸变，同样地，通过改变参数可以模拟不同凸面镜的径向畸变。结合径向畸变和透视畸变即可完整地模拟凸面镜引起的变形。现有深度学习框架包含自动求导技术，只需要实现设计的 CMSL 的前向传播过程。通过将 CMSL 嵌入到所设计的算法框架中，不同的畸变参数、、和被动态优化，从而能够利用正常图像合成逼真的凸面镜图像，并减少正常图像和真实凸面镜图像之间的域差异。

凸面镜反射场景的无监督预适应语义分割

▲ 图5 北大研究人员针对凸面镜无监督域适应语义分割问题提出的算法框架

北京大学研究人员提出的凸面镜反射场景无监督域适应语义分割框架如上图所示。令表示带标签的源域样本，表示未标注的目标域凸面镜样本。

首先使用设计的变形估计器估计中潜在的畸变参数，上述过程可表示为。然后将估计的和输入设计的凸面镜模拟网络层，合成的凸面镜反射图像可以通过得到，同样可以得到变形的标签。

之后，和被送入分割网络，得到分割结果和。对于，网络可以通过监督学习进行训练。假设网络对分割结果的 Softmax 输出为

，其中和表示输出尺寸和类别数目，源域上的监督损失可以表示为：

其中，是的独热（One-hot）编码。由于没有相应的标签，为了减少域之间的差异，优化目标是使合成图像在几何外观上更接近真实图像，即让变形估计器能够获得目标域凸面镜图像的潜在畸变参数。在此基础上，分别对输入图像的边缘和分割结果的语义边界进行对抗学习。此外，熵值最小化和基于颜色的风格转换技术也被进一步用于减少由风格引起的域差异。

3.1 边缘上的对抗学习

为了使合成图像在几何外观上接近真实图像，一个直观的想法是使用判别器对输入空间中的合成图像和真实图像进行对抗学习。然而，在这种情况下，判别器可能只关注内容信息，而忽略了更重要的几何信息。为了解决这个问题，本章对输入图像进行边缘提取，并对提取的边缘图进行判别。边缘提取可以描述为：

其中是输出边缘图，表示高斯滤波器。操作可以通过 Sobel 算子实现。通过构建一个参数为的全卷积判别器网络，并将作为输入，产生域分类输出，即源域的类标签为 1，目标域的类标签为 0。然后训练判别器判别输入来自源域还是目标域，同时训练变形估计器欺骗判别器。

假设二值交叉熵分类损失被定义为：

其中是概率图，并且。判别器的训练损失为：

训练变形估计器的对抗损失为：

式 37 的原理是训练判别器，使其能够检测出凸面镜反射图像是合成数据还是真实数据，而式 38 则优化变形估计器，使利用其输出的参数合成的图像能够欺骗判别器。在这种对抗学习方法中，原始图像可以用来合成与凸面镜图像相似的图像，从而减少几何域差异。

3.2 在语义边界上对抗学习

与从原始图像中提取的边缘图相比，语义边界的边缘更加清晰。这些清晰的边缘具有强烈的几何信息，对于指导变形估计器预测畸变参数有着重要的作用。在此基础上，本章从分割结果中提取语义边界并对其进行判别。语义边界可以表示为：

假设用于判别语义边界的判别器是，与式 37 和式 38 相似，的损失可以表示为：

对应的变形估计器的损失为：

为了通过式 41 进行反向传播，需要计算式 39 的梯度。令，对给定参数的偏导数可以通过下式计算：

由于是一个不可微的函数，本章使用 Gumbel-Softmax 技巧 \supercite{jang2016categorical} 解决梯度无法回传的问题。在梯度回传过程中，用温度为的 Softmax 函数对算子近似，可以得到：

其中 Gumbel (0,1)，是一个超参数。结合式 38 和式 41，变形估计器总的损失为：

3.3 最小化加权自信息

熵最小化方法旨在将目标输出概率图的熵最小化，通过模仿源域预测的过度自信行为减少域差异。引入熵最小化技术另一个目的是减少目标分割结果的离散化，从而提取清晰的语义边界，以便于对其进行对抗学习。事实上，AdvEnt 提出了一种间接的基于加权自信息的对齐方法。加权的自信息被定义为：

假设用于判别加权自信息的判别器是，的损失函数可以通过以下方式得到：

训练分割网络的对抗损失为：

结合式 34 和式 47，分割网络的总的损失为：

3.4 图像风格转换

除了在几何形态上存在域差异，凸面镜反射图像和正常的图像在风格上也存在一定的域差异。为了减少由图像颜色、纹理等风格引起的域差异，北京大学研究人员采用一种在 LAB 色彩空间对齐的域适应方法。具体实施过程如下：给定一张源域图像，首先将其从 RGB 色彩空间转换到 LAB 色彩空间，得到，并计算的均值和方差。

对目标域图像做同样的操作，得到目标域图像在 LAB 色彩空间的均值和方差。然后计算源域图像在 LAB 色彩空间与目标域图像对齐后的表示：，并将其映射回 RGB 色彩空间得到风格转换后的源域图像。相对于 RGB 色彩空间，LAB 色彩空间具有更大的色域，因此在 LAB 色彩空间进行对齐更能在风格上接近目标域图像。

▲ 图6 作者用三种不同规格的凸面镜在北大校园内采集数据

凸面镜反射场景数据集建立

由于该工作是第一个理解凸面镜反射场景的工作，之前没有与凸面镜反射场景有关的数据集。为了促进 UDA 对凸面镜反射的街道场景进行语义分割的研究，作者在北京大学校园内采集数据，并贡献了一个数据集 CMR1K。

CMR1K 包含 1009 张凸面镜反射图像，其中 268 张图像有密集的像素级语义注释。图 7 中可以看到每个类别的精细标注的像素数量。图 8 显示了注释的数据的一些例子。CMR1K 的细节在下表中显示。

▲ 图7 CMR1K 中精细标注的像素数量（Y轴）及其相关类别（X轴）

▲ 图8 北大校园内采集的数据

▲ 表2 CMR1K 数据集细节

实验结果与分析

5.1 实验设定

在 UDA 的设置下，提出的 UDA 模型是用标记的源数据和未标记的目标数据来训练的。标记的目标数据的结果被用来评估其性能。CMR1K 作为目标域，其中 741 张未标记的图像用于训练，268 张已标记的数据用于验证提出的算法。对于源域，分别选择 Cityscapes、IDD和 GTA5。

5.2 方法整体效果分析

实验结果见下表，作者的方法在 VGG-16 主干网和 ResNet-101 主干网上都大大超过了基线方法。在 ResNet-101 主干网的情况下，实现了 78.14% 的 mIoU，超过了基线的 +10.29%。这表明在正常图像上训练的模型在测试凸面镜反射图像时效果并不好，而他们的方法可以有效地解决它们之间存在的领域转移。与基线相比，作者的方法在结构化类别（表 4 的最后一行）表现特别好。

例如，在汽车和建筑类别中，实现了 86.41% 和 80.65% 的 IoU，分别比基线高 +24.49% 和 +17.45%。这表明，基线模型在分割结构化物体方面的效果较差。提出的方法可以有效地捕捉到场景中结构化物体的变形信息，并利用这些变形信息指导源域图像合成的方向，从而缓解了这些类别中凸镜和正常图像之间的域移。

下图显示了分割结果的可视化。也可以看出，与基线相比，作者的方法在结构化类别上有更好的分割效果。例如，汽车、建筑物和电线杆即使严重变形也能被相对准确地预测出来。

▲ 表3 以 VGG-16作为骨干网络，作者的方法和以前的方法在从 Cityscapes到 CMR1K 的适应性上的性能比较

▲ 表4 以ResNet-101作为骨干网络，作者的方法和以前的方法在从 Cityscapes到 CMR1K 的适应性上的性能比较。

▲ 图9 不同方法的分割结果。可以看出，作者的方法明显优于基线和以前的方法。

以 ResNet-101 骨干网为例，作者的方法比基于特征对抗的 AdaptSeg 和基于自信息对抗的 AdvEnt 分别多出 9.02% 和 3.28%。这表明，关于中间特征和自我信息的对抗性方法不能有效地缓解正常和凸面镜反射图像之间的领域差距。与自我训练方法相比，作者的方法比 BDL和 LTIR分别多出 4.97% 和 6.72% 的 IoU。这可能是由于正常源域和扭曲的目标域之间在几何外观上的差异，这会导致生成非常嘈杂伪标签，进而导致模型在错误的方向上训练。

一般来说，传统的解决风格差异的方法在处理由几何外观差异引起的领域差距时并不有效。为了缓解这种现象，作者手动合成一系列凸面镜反射数据，即随机生成变形参数，用设计好的 CMSL 离线合成凸面镜数据，将这些数据设置为源域，并再次训练之前的方法。称这种方法为“原始方法 +CMSL”。

可以看出，基于自我训练的方法和基于对抗性学习的方法在加入 CMSL 后都得到了性能的提升。尽管如此，作者的方法仍然超过了添加 CMSL 模块的方法。下图显示了合成的凸面镜反射图像和真实图像。

与致力于解决变形图像和正常图像之间的领域差距的方法（Zhang 等人，Ye 等人）相比，作者的方法也表现出了优越性。作者认为 Zhang 等人利用了注意力机制，而不是明确地对正常图像和畸变图像之间的几何关系进行建模，而 Ye 等人提出的鱼眼模型可能与真正的凸面镜反射模型有比较大的几何域差距。

此外，作者还用 ResNet-101 分别对 IDD→CMR1K 和 GTA5→CMR1K 进行了实验，结果见下表。可以看出，作者的方法也超过了基线和以前的方法，包括” 以前的方法 +CMSL”。

▲ 图10 真实的凸面镜反射图像(第一和第三行)和相应的使用估计变形参数的合成凸面镜反射图像(第二和第四行)。可以看出，合成图像在几何外观上与真实图像很接近

▲ 表5 以 ResNet-101作为骨干网络，作者的方法和以前的方法在从 IDD到 CMR1K 的适应性上的性能比较

▲ 表6 以 ResNet-101作为骨干网络，作者的方法和以前的方法在从 GTA5到 CMR1K 的适应性上的性能比较。

5.3 消融实验

不同组件的有效性。本节将分别验证提出的框架中不同组件的有效性，即边缘上的对抗性适应、语义边界上的对抗性适应、熵最小化和风格转移。实验结果显示在下表中。从下表可以看出，当使用边缘适应而不使用语义边界适应和熵最小化时，结果是 76.51%，相对于添加了所有组件的设置（最后一行），准确性下降了 1.63%。

当使用语义边界适应而不是边缘适应时，mIoU 可以达到 73.4%，与添加所有组件相比，准确性下降了 4.74%。这表明，边缘适应比语义边界适应更有优势。同时，在语义边界适应中加入熵最小化（表 7 的第三行）将进一步改善分割结果。这可能是因为熵最小化可以减少分割结果的离散性，这反过来又增强了清晰的语义边界，提高了对抗性学习效果。第四行显示了不添加风格转移的实验结果，可以看出不添加风格转移与添加所有组件上相比，有 0.55% 的下降。

▲ 表7 对本文提出框架的不同组件进行消融研究

不同种类的变形的效果。本节将验证不同变形参数对实验结果的影响。𝛼、𝛽 和 𝑑 影响合成图像的透视畸变，而参数𝑘则影响合成图像的径向畸变。在验证 𝛼、𝛽 和 𝑑 的影响时，将 𝛼、𝛽 设为 0，𝑑 设为常数，即合成图像没有透视畸变。在验证径向畸变参数 𝑘 的影响时，将 𝑘 设为 0，即合成图像没有径向畸变。实验结果见下表。

从下表可以看出，当合成图像只包含径向畸变而没有透视畸变时（第一行），mIoU 可以达到 74.48%。与包含所有变形的实验结果相比（表 8 的最后一行），mIoU 减少了 3.66%。当合成图像包含透视畸变但不包含径向畸变时（表 8 的第二行），mIoU 为 69.33%。相对于包含所有畸变的实验结果，准确率下降了 8.81%。这表明径向畸变比透视畸变能更有效地减少域差距。下图显示了使用不同种类的变形进行分割的结果的可视化。

▲ 表8 不同变形参数的影响

▲ 图11 使用不同种类的变形的分割结果。当同时结合径向畸变和透视畸变时，能够达到最佳分割结果

小结

自动驾驶往往涉及对周围环境的感知，而凸面镜可以提供额外的信息，帮助做出驾驶决策。然而，凸面镜图像的严重失真导致现有的理解反射场景的方法精度很低，不能满足实际应用需求。

来自北京大学的研究团队基于凸面镜成像的几何特性提出了凸面镜的在线模拟层 CMSL，并将其嵌入到设计的框架中。通过对输入空间的边缘和输出空间的语义边界进行对抗性适应，使合成的凸面镜图像在几何外观上与真实图像相似，从而减少它们之间的领域差距，提高场景理解的准确性。

由于之前没有凸面镜反射场景的数据集，作者在北京大学校园内采集数据并建立了第一个凸面镜反射场景数据集 CMR1K，以支持凸面镜的研究。大量的实验表明，作者的算法可以大大超越基线和以前的 UDA 方法，这将对自动驾驶、智能交通和其他潜在的应用有很大帮助。

参考文献

AdvEnt: ADVENT: Adversarial Entropy Minimization for Domain Adaptation in Semantic Segmentation, CVPR2019：https://openaccess.thecvf.com/content_CVPR_2019/papers/Vu_ADVENT_Adversarial_Entropy_Minimization_for_Domain_Adaptation_in_Semantic_Segmentation_CVPR_2019_paper.pdf

AdaptSeg: Learning to Adapt Structured Output Space for Semantic Segmentation, CVPR2018：https://openaccess.thecvf.com/content_cvpr_2018/papers/Tsai_Learning_to_Adapt_CVPR_2018_paper.pdf

LTIR: Learning Texture Invariant Representation for Domain Adaptation of Semantic Segmentation, CVPR2020（https://openaccess.thecvf.com/content_CVPR_2020/papers/Kim_Learning_Texture_Invariant_Representation_for_Domain_Adaptation_of_Semantic_Segmentation_CVPR_2020_paper.pdf）_Minimization_for_Domain_Adaptation_in_Semantic_Segmentation_CVPR_2019_paper.pdf)

AdaptSeg: Learning to Adapt Structured Output Space for Semantic Segmentation, CVPR2018：https://openaccess.thecvf.com/content_cvpr_2018/papers/Tsai_Learning_to_Adapt_CVPR_2018_paper.pdf

LTIR: Learning Texture Invariant Representation for Domain Adaptation of Semantic Segmentation, CVPR2020：https://openaccess.thecvf.com/content_CVPR_2020/papers/Kim_Learning_Texture_Invariant_Representation_for_Domain_Adaptation_of_Semantic_Segmentation_CVPR_2020_paper.pdf

BDL: Bidirectional Learning for Domain Adaptation of Semantic Segmentation, CVPR2019：https://openaccess.thecvf.com/content_CVPR_2019/papers/Li_Bidirectional_Learning_for_Domain_Adaptation_of_Semantic_Segmentation_CVPR_2019_paper.pdf

更多阅读