ICCV 2023 | 合成图前景物体检索

2023-08-22 10:08

©PaperWeekly 原创 · 作者 | 隋佳成

单位 | 上海交通大学BCMI实验室

图像合成是照片编辑及图形设计中的一项任务，即将不同来源的前景图像与背景图像融合在一起，生成新的合成图。但是，简单地将不同来源的前景图像与背景场景拼接，很大概率不会获得看上去真实的合成图。有很多因素会影响合成图的真实感，比如前景物体和背景场景是否匹配、前景物体和背景场景亮度是否和谐等。

我们的工作侧重于解决合成图中前景和背景在语义、形状、视角等方面的匹配度问题。具体来说，用户给定一张背景图、背景中插入前景物体的位置以及前景物体的类别，通过前景物体检索模型，给出与该背景在语义、形状、视角等因素匹配的前景物体图像。

传统方法致力于使用一些人工设计的特征来找到与背景匹配的前景。这些人工设计的特征中包含有相机朝向、光照、分辨率、局部上下文信息等内容，然而，手工设计的特征的表达能力是有限的，所以其性能并不能使人满意。近年来，已经有少量的工作尝试用深度学习做前景物体检索，但无法兼顾性能与效率且缺乏公开的前景物体检索数据集。我们构建并公布了两个前景物体检索数据集。并且，我们提出了基于知识蒸馏的前景物体检索算法。

实验表明，基于知识蒸馏的前景物体检索算法在我们构建的数据集上相比已有方法取得了更好的性能，且能够兼顾性能与效率。我们的工作已被 ICCV 2023 接收，数据集和代码已开源。

论文链接：

https://arxiv.org/pdf/2308.04990.pdf

数据集和代码链接：

https://github.com/bcmi/Foreground-Object-Search-Dataset-FOSD

我们利用 Open Images 分割与检测数据子集构建了两个前景物体检索数据集，分别是合成前景物体检索数据集（S-FOSD）和真实前景物体检索数据集（R-FOSD）。Open Images 分割与检测子集提供了涵盖 350 个种类的共 280 万个实例掩码，利用实例掩码，我们能像现有的前景物体检索工作 [1,2] 那样获得前景和背景图像。不过请注意，我们的任务设定是着眼于前景与背景在语义、形状和视角等方面的匹配度，所以并不是所有分割与检测子集中的掩码都是适合用于我们的任务设定的。

为此，我们制定了一系列规则，并依据这些规则删去了部分种类和实例掩码，比如，如果某个种类中的前景图像都基本相似，那么删去此种类；如果某个种类中的前景很大概率不是独立出现的，而是作为更大物体的一部分出现，那么删去此种类；如果某个分割实例在背景中看起来太小或太大，那么删去此分割实例，等等。

下面我们将分别阐述 S-FOSD 和 R-FOSD 是如何构建的。S-FOSD 不需要任何人工标注，所以是低成本、高扩展性的。构建 S-FOSD 训练集时，我们仅需要利用原始图像和掩码得到背景图像以及前景图像，来源于同一原始图像的前景和背景很自然被认为是匹配的，如图 1（a）~（d）。

构建 S-FOSD 测试集时，我们希望兼顾测试集中图像的多样性和质量。所以对于每个类，我们首先利用在 ImageNet 上预训练的 ResNet 来提取该类所有前景图像的特征图，然后根据特征的距离将前景图像聚类成若干类，从不同的聚类簇中挑选高质量图像来构成 S-FOSD 测试集。

R-FOSD 需要人工对前景-背景对的匹配度进行标注，由于标注成本，我们仅构建 R-FOSD 测试集。R-FOSD 测试集中的前景图像沿用 S-FOSD 测试集中的前景图像，背景图则通过以图搜图来从互联网上获得。

具体来说，我们利用 S-FOSD 测试集的背景图作为查询图并获取以图搜图的结果。在此之后，我们在检索到的背景图上画一个边界框，这个边界框指示了该类型前景图像放置的位置，如图 1（f）。

对于每一对前景背景，我们将前景改变大小并放置到背景图像的查询边界框中，就生成了一个 R-FOSD 中的合成图，如图 1（h），合成图交由人工标注，并最终获得每个前景-背景对的二值化匹配度标签。最终，S-FOSD 训练集中包含来自 32 个不同种类的共 57219 对前景-背景对，S-FOSD 测试集与 R-FOSD 均包含 32 类，每类 20 张背景，200 张前景。

▲ 图1 数据集构建示例。图上为S-FOSD示例，图下为R-FOSD示例。

知识蒸馏最初被提出是作为一种模型压缩方法，知识蒸馏并不需要对已有模型进行剪枝等操作来压缩模型，而是通过构建一个轻量级的“小模型”，利用大模型的输出信息来对小模型进行监督，以达到使得小模型将大模型中的知识“蒸馏”出来的目的，这样就能使用小模型达到相近甚至相同的性能，并达到压缩模型的目的。

实际上，知识蒸馏在现有的研究中应用广泛，不仅仅是压缩模型，知识蒸馏也能用于将两个模型的优点结合起来。比如在前景物体检索任务中，基于判别器结构的模型能够达到比较好的性能但是检索速度慢，难以直接应用，而基于双编码器结构的模型检索速度快，但性能却不如判别器结构，于是我们可以使用知识蒸馏将两者的优势结合，最终兼顾性能与效率。我们的模型结构如图 2 所示。

▲ 图2 模型结构示意图

我们首先训练一个判别器 D 来预测合成图的匹配度，该判别器网络得到的判别器特征也作为“教师”指导学生网络的训练。在学生网络中，我们使用两个编码器，和分别编码背景特征和前景特征，并使用一个轻量级的知识蒸馏模块。前景和背景特征将会被输入到知识蒸馏模块中并进一步融合得到融合特征。

在训练学生网络时，我们希望融合特征与判别器特征相近，实际上，中应包含很多前景与背景的匹配度信息，因为是由以拼接合成图为输入的判别器得到的并最终预测匹配度。

最终，我们利用融合特征来预测该前景背景对的匹配度。为了增强模型在真实场景下的泛化性，我们还使用了图像增强、利用预训练的网络扩展正负样本、边界框随机扰动等方法来增强模型的鲁棒性、提高性能。在我们构建的数据库上，我们比较了我们的方法、传统的前景物体检索方法和基于深度学习的前景物体检索方法。实验结果表明我们的方法优于现有的方法。可视化结果如图 3 所示。

▲ 图3 可视化结果。左边为 S-FOSD 测试结果，右边为 R-FOSD 测试结果。五列图片从上到下分别是 CFO、UFO、GALA、FFR 和 Ours 的检索结果。

并且，我们还做了消融实验、推理时间实验、扩展到新类别上的泛化性实验、超参数实验等大量实验。关于我们方法的技术细节和全部的实验结果，请参见论文正文和补充材料。欢迎大家关注我们的数据集和方法，关注前景物体检索领域。

参考文献

[1] Zhao H, Shen X, Lin Z, et al. Compositing-aware image search[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 502-516.

[2] Zhao Y, Price B, Cohen S, et al. Unconstrained foreground object search[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 2030-2039.

更多阅读