ICCV 2023 | 合成图前景物体检索
©PaperWeekly 原创 · 作者 | 隋佳成
单位 | 上海交通大学BCMI实验室
图像合成是照片编辑及图形设计中的一项任务,即将不同来源的前景图像与背景图像融合在一起,生成新的合成图。但是,简单地将不同来源的前景图像与背景场景拼接,很大概率不会获得看上去真实的合成图。有很多因素会影响合成图的真实感,比如前景物体和背景场景是否匹配、前景物体和背景场景亮度是否和谐等。
我们的工作侧重于解决合成图中前景和背景在语义、形状、视角等方面的匹配度问题。具体来说,用户给定一张背景图、背景中插入前景物体的位置以及前景物体的类别,通过前景物体检索模型,给出与该背景在语义、形状、视角等因素匹配的前景物体图像。
传统方法致力于使用一些人工设计的特征来找到与背景匹配的前景。这些人工设计的特征中包含有相机朝向、光照、分辨率、局部上下文信息等内容,然而,手工设计的特征的表达能力是有限的,所以其性能并不能使人满意。近年来,已经有少量的工作尝试用深度学习做前景物体检索,但无法兼顾性能与效率且缺乏公开的前景物体检索数据集。我们构建并公布了两个前景物体检索数据集。并且,我们提出了基于知识蒸馏的前景物体检索算法。
实验表明,基于知识蒸馏的前景物体检索算法在我们构建的数据集上相比已有方法取得了更好的性能,且能够兼顾性能与效率。我们的工作已被 ICCV 2023 接收,数据集和代码已开源。
数据集和代码链接:
我们利用 Open Images 分割与检测数据子集构建了两个前景物体检索数据集,分别是合成前景物体检索数据集(S-FOSD)和真实前景物体检索数据集(R-FOSD)。Open Images 分割与检测子集提供了涵盖 350 个种类的共 280 万个实例掩码,利用实例掩码,我们能像现有的前景物体检索工作 [1,2] 那样获得前景和背景图像。不过请注意,我们的任务设定是着眼于前景与背景在语义、形状和视角等方面的匹配度,所以并不是所有分割与检测子集中的掩码都是适合用于我们的任务设定的。
为此,我们制定了一系列规则,并依据这些规则删去了部分种类和实例掩码,比如,如果某个种类中的前景图像都基本相似,那么删去此种类;如果某个种类中的前景很大概率不是独立出现的,而是作为更大物体的一部分出现,那么删去此种类;如果某个分割实例在背景中看起来太小或太大,那么删去此分割实例,等等。
下面我们将分别阐述 S-FOSD 和 R-FOSD 是如何构建的。S-FOSD 不需要任何人工标注,所以是低成本、高扩展性的。构建 S-FOSD 训练集时,我们仅需要利用原始图像和掩码得到背景图像以及前景图像,来源于同一原始图像的前景和背景很自然被认为是匹配的,如图 1(a)~(d)。
构建 S-FOSD 测试集时,我们希望兼顾测试集中图像的多样性和质量。所以对于每个类,我们首先利用在 ImageNet 上预训练的 ResNet 来提取该类所有前景图像的特征图,然后根据特征的距离将前景图像聚类成若干类,从不同的聚类簇中挑选高质量图像来构成 S-FOSD 测试集。
R-FOSD 需要人工对前景-背景对的匹配度进行标注,由于标注成本,我们仅构建 R-FOSD 测试集。R-FOSD 测试集中的前景图像沿用 S-FOSD 测试集中的前景图像,背景图则通过以图搜图来从互联网上获得。
具体来说,我们利用 S-FOSD 测试集的背景图作为查询图并获取以图搜图的结果。在此之后,我们在检索到的背景图上画一个边界框,这个边界框指示了该类型前景图像放置的位置,如图 1(f)。
对于每一对前景背景,我们将前景改变大小并放置到背景图像的查询边界框中,就生成了一个 R-FOSD 中的合成图,如图 1(h),合成图交由人工标注,并最终获得每个前景-背景对的二值化匹配度标签。最终,S-FOSD 训练集中包含来自 32 个不同种类的共 57219 对前景-背景对,S-FOSD 测试集与 R-FOSD 均包含 32 类,每类 20 张背景,200 张前景。
知识蒸馏最初被提出是作为一种模型压缩方法,知识蒸馏并不需要对已有模型进行剪枝等操作来压缩模型,而是通过构建一个轻量级的“小模型”,利用大模型的输出信息来对小模型进行监督,以达到使得小模型将大模型中的知识“蒸馏”出来的目的,这样就能使用小模型达到相近甚至相同的性能,并达到压缩模型的目的。
实际上,知识蒸馏在现有的研究中应用广泛,不仅仅是压缩模型,知识蒸馏也能用于将两个模型的优点结合起来。比如在前景物体检索任务中,基于判别器结构的模型能够达到比较好的性能但是检索速度慢,难以直接应用,而基于双编码器结构的模型检索速度快,但性能却不如判别器结构,于是我们可以使用知识蒸馏将两者的优势结合,最终兼顾性能与效率。我们的模型结构如图 2 所示。
▲ 图2 模型结构示意图
并且,我们还做了消融实验、推理时间实验、扩展到新类别上的泛化性实验、超参数实验等大量实验。关于我们方法的技术细节和全部的实验结果,请参见论文正文和补充材料。欢迎大家关注我们的数据集和方法,关注前景物体检索领域。
参考文献
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者