Redian新闻
>
ICCV 2023 | 合成图前景物体检索

ICCV 2023 | 合成图前景物体检索

科技

©PaperWeekly 原创 · 作者 | 隋佳成

单位 |  上海交通大学BCMI实验室


图像合成是照片编辑及图形设计中的一项任务,即将不同来源的前景图像与背景图像融合在一起,生成新的合成图。但是,简单地将不同来源的前景图像与背景场景拼接,很大概率不会获得看上去真实的合成图。有很多因素会影响合成图的真实感,比如前景物体和背景场景是否匹配、前景物体和背景场景亮度是否和谐等。


我们的工作侧重于解决合成图中前景和背景在语义、形状、视角等方面的匹配度问题。具体来说,用户给定一张背景图、背景中插入前景物体的位置以及前景物体的类别,通过前景物体检索模型,给出与该背景在语义、形状、视角等因素匹配的前景物体图像。


传统方法致力于使用一些人工设计的特征来找到与背景匹配的前景。这些人工设计的特征中包含有相机朝向、光照、分辨率、局部上下文信息等内容,然而,手工设计的特征的表达能力是有限的,所以其性能并不能使人满意。近年来,已经有少量的工作尝试用深度学习做前景物体检索,但无法兼顾性能与效率且缺乏公开的前景物体检索数据集。我们构建并公布了两个前景物体检索数据集。并且,我们提出了基于知识蒸馏的前景物体检索算法。


实验表明,基于知识蒸馏的前景物体检索算法在我们构建的数据集上相比已有方法取得了更好的性能,且能够兼顾性能与效率。我们的工作已被 ICCV 2023 接收,数据集和代码已开源。

论文链接:
https://arxiv.org/pdf/2308.04990.pdf

数据集和代码链接:

https://github.com/bcmi/Foreground-Object-Search-Dataset-FOSD


我们利用 Open Images 分割与检测数据子集构建了两个前景物体检索数据集,分别是合成前景物体检索数据集(S-FOSD)和真实前景物体检索数据集(R-FOSD)。Open Images 分割与检测子集提供了涵盖 350 个种类的共 280 万个实例掩码,利用实例掩码,我们能像现有的前景物体检索工作 [1,2] 那样获得前景和背景图像。不过请注意,我们的任务设定是着眼于前景与背景在语义、形状和视角等方面的匹配度,所以并不是所有分割与检测子集中的掩码都是适合用于我们的任务设定的。


为此,我们制定了一系列规则,并依据这些规则删去了部分种类和实例掩码,比如,如果某个种类中的前景图像都基本相似,那么删去此种类;如果某个种类中的前景很大概率不是独立出现的,而是作为更大物体的一部分出现,那么删去此种类;如果某个分割实例在背景中看起来太小或太大,那么删去此分割实例,等等。


下面我们将分别阐述 S-FOSD 和 R-FOSD 是如何构建的。S-FOSD 不需要任何人工标注,所以是低成本、高扩展性的。构建 S-FOSD 训练集时,我们仅需要利用原始图像和掩码得到背景图像以及前景图像,来源于同一原始图像的前景和背景很自然被认为是匹配的,如图 1(a)~(d)。


构建 S-FOSD 测试集时,我们希望兼顾测试集中图像的多样性和质量。所以对于每个类,我们首先利用在 ImageNet 上预训练的 ResNet 来提取该类所有前景图像的特征图,然后根据特征的距离将前景图像聚类成若干类,从不同的聚类簇中挑选高质量图像来构成 S-FOSD 测试集。


R-FOSD 需要人工对前景-背景对的匹配度进行标注,由于标注成本,我们仅构建 R-FOSD 测试集。R-FOSD 测试集中的前景图像沿用 S-FOSD 测试集中的前景图像,背景图则通过以图搜图来从互联网上获得。


具体来说,我们利用 S-FOSD 测试集的背景图作为查询图并获取以图搜图的结果。在此之后,我们在检索到的背景图上画一个边界框,这个边界框指示了该类型前景图像放置的位置,如图 1(f)。


对于每一对前景背景,我们将前景改变大小并放置到背景图像的查询边界框中,就生成了一个 R-FOSD 中的合成图,如图 1(h),合成图交由人工标注,并最终获得每个前景-背景对的二值化匹配度标签。最终,S-FOSD 训练集中包含来自 32 个不同种类的共 57219 对前景-背景对,S-FOSD 测试集与 R-FOSD 均包含 32 类,每类 20 张背景,200 张前景。

▲ 图1 数据集构建示例。图上为S-FOSD示例,图下为R-FOSD示例。


知识蒸馏最初被提出是作为一种模型压缩方法,知识蒸馏并不需要对已有模型进行剪枝等操作来压缩模型,而是通过构建一个轻量级的“小模型”,利用大模型的输出信息来对小模型进行监督,以达到使得小模型将大模型中的知识“蒸馏”出来的目的,这样就能使用小模型达到相近甚至相同的性能,并达到压缩模型的目的。


实际上,知识蒸馏在现有的研究中应用广泛,不仅仅是压缩模型,知识蒸馏也能用于将两个模型的优点结合起来。比如在前景物体检索任务中,基于判别器结构的模型能够达到比较好的性能但是检索速度慢,难以直接应用,而基于双编码器结构的模型检索速度快,但性能却不如判别器结构,于是我们可以使用知识蒸馏将两者的优势结合,最终兼顾性能与效率。我们的模型结构如图 2 所示。

▲ 图2 模型结构示意图


我们首先训练一个判别器 D 来预测合成图的匹配度,该判别器网络得到的判别器特征 也作为“教师”指导学生网络的训练。在学生网络中,我们使用两个编码器, 分别编码背景特征 和前景特征 ,并使用一个轻量级的知识蒸馏模块 。前景和背景特征将会被输入到知识蒸馏模块中并进一步融合得到融合特征

在训练学生网络时,我们希望融合特征 与判别器特征 相近,实际上, 中应包含很多前景与背景的匹配度信息,因为 是由以拼接合成图为输入的判别器得到的并最终预测匹配度。

最终,我们利用融合特征 来预测该前景背景对的匹配度。为了增强模型在真实场景下的泛化性,我们还使用了图像增强、利用预训练的网络扩展正负样本、边界框随机扰动等方法来增强模型的鲁棒性、提高性能。在我们构建的数据库上,我们比较了我们的方法、传统的前景物体检索方法和基于深度学习的前景物体检索方法。实验结果表明我们的方法优于现有的方法。可视化结果如图 3 所示。
▲ 图3 可视化结果。左边为 S-FOSD 测试结果,右边为 R-FOSD 测试结果。五列图片从上到下分别是 CFO、UFO、GALA、FFR 和 Ours 的检索结果。


并且,我们还做了消融实验、推理时间实验、扩展到新类别上的泛化性实验、超参数实验等大量实验。关于我们方法的技术细节和全部的实验结果,请参见论文正文和补充材料。欢迎大家关注我们的数据集和方法,关注前景物体检索领域。



参考文献

[1] Zhao H, Shen X, Lin Z, et al. Compositing-aware image search[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 502-516.
[2] Zhao Y, Price B, Cohen S, et al. Unconstrained foreground object search[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2019: 2030-2039.



更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
加拿大移民局更新体检要求!快收藏这份体检攻略吧!「四合一物体传送门」,向场景中可控传送物体,上交&蚂蚁出品ICCV 2023 | PointCLIP V2:结合CLIP和GPT的3D开放世界分类、分割网络ICCV 2023 | 比分割一切SAM更早实现交互式开集分割!港科大提出OpenSeeD:开放词表图像分割和检测夏夜的温柔上海交大&蚂蚁提出四合一物体传送门,向场景中可控传送物体ICCV 2023 | 从蒸馏到自蒸馏:通用归一化损失与定制软标签ICCV 2023 中国遥遥领先!华人拿下最佳论文和最佳学生论文!SAM和ControlNet开启CV新纪元!ICCV 2023 | 上交提出CCD:基于自监督字符到字符蒸馏的文本识别加拿大移民局放宽体检要求!体检细节分享ICCV 2023 | K400首次90%准确率!UniFormerV2开源:基于ViT的高效视频识别EI检索稳定!10-11月计算机国际学术会议推荐,CV/NLP/ML等多方向可投ICCV 2023 | 即插即用!上海交大提出AccFlow:跨帧光流估计框架故梦萦怀话渝州: (2)山城往事ICCV 2023 | 清华&西电提出HumanMAC:人体动作预测新范式​ICCV 2023 | 华科大提出NVDS:即插即用的视频深度预测框架对未知物体进行6D追踪和3D重建,英伟达方法取得新SOTA,入选CVPR 2023ICCV 2023 | 南开大学提出LSKNet:遥感旋转目标检测新SOTA2023 春季欧洲游 3. 法国的卢瓦尔河谷和诺曼底比Meta「分割一切AI」更早实现交互式开集分割!港科大开放词表分割大法入选ICCV 2023ICCV 2023开奖了!2160篇录用论文,Meta「分割一切」被接收ICCV 2023 | 清华&天津大学提出SurroundOcc:自动驾驶的环视三维占据栅格预测ICCV 2023 | PVT++:通用的端对端预测性跟踪框架2023 夏 北海道吃喝之旅2023 加拿大森林大火纪实胜利大会师 – 厉害的老妈在香港 (上)俄乌战况22​ICCV 2023 | APE:对CLIP进行特征提纯能够提升Few-shot性能【美国春天印象5年飞兔藏龙卧虎跨年音乐会】《岳阳楼记先天下之忧而忧》范仲淹 &《陋室铭山不在高有仙则名,水不在深有龙则灵CVPR 2023 | RCF:完全无监督的视频物体分割Light and Shadow-13 Moving WallICCV 2023 | MRN:一种多路复用路由网络的增量多语言文本识别方法ICCV 2023 | 实现实时六自由度物体跟踪,深度主动轮廓模型DeepAC来了斯年智驾再获新一轮战略融资,场景物流无人驾驶走向规模化落地|甲子光年CVPR 2023 | 完全无监督的视频物体分割 RCF斯年智驾获新创建集团战略投资,加速布局场景物流无人驾驶|36氪首发走,到巴西去(五)伊瓜苏印象ICCV 2023 | 北大提出MotionBERT:人体运动表征学习的统一视角体检前不能喝水?这项“体检须知”不但无用,还有害!SAM拿下ICCV 2023最佳论文荣誉提名奖!这些CV论文仍是顶流!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。