动机
首先,我们将一个特征匹配器的 ground-truth 匹配比喻为它的“天花板”,因为 ground-truth 匹配是匹配器输出结果的理论上界。目前的特征匹配方法着力于提高匹配器建模能力,以使匹配结果逼近 ground-truth 匹配。然而,许多问题从根本上影响着 ground-truth 匹配本身,单纯的提高建模能力并不能解决这些问题。本文从提高天花板的角度出发,希望通过从根本上提高匹配上限以设计出更优秀的匹配器。简介
我们提出了一种名为 RCM (Raising the Ceiling of Matcher)的特征匹配方法,它从三个方面提高了匹配的上限。1. RCM 引入了动态视角切换机制,通过策略性地切换图像对来解决源图像中可匹配点稀缺的问题。2. RCM 提出了无冲突粗匹配模块,通过多对一匹配策略解决目标图像中的匹配冲突。3. 通过整合半稀疏范式和由粗到细匹配架构,RCM 保留了高效率和全局搜索的优点,减轻了对关键点重复性的依赖。RCM 能使源图像中更多的可匹配点在目标图像中以穷举和无冲突的方式进行匹配,从而使 ground-truth 匹配大幅提高 260%。综合实验表明,与最先进的方法相比,RCM 表现出卓越的性能和效率。方法
下图为 RCM 的核心思想,我们将尺度变化剧烈的图像对分为两类:源图像(左)和目标图像(右)分别为 1)小尺度图像和大尺度图像,以及 2)大尺度图像和小尺度图像。
对于情况 1),小尺度图像中的共视区域面积有限,可匹配点较少,大部分关键点或网格点都位于无关的背景中,这不仅会造成计算冗余,还会从根本上限制 ground-truth 匹配的数量。所以我们设计了视角切换器,将大尺度图像切换为源图像,将所有情况 1)转换为情况 2)统一处理。对于情况 2),大量多对一匹配的情况会出现,因为大尺度图像中更多的像素对应于小尺度图像中少量的像素。然而,现有的半密集方法难以应对这一挑战,因为它们在粗匹配阶段采用一对一的匹配策略,在目标图像的每个 8 × 8 区域内最多生成一个粗匹配,同时丢弃其他可能有效的匹配。所以我们设计了无冲突的粗匹配模块,使两组特征可以进行多对一匹配,进一步突破 ground-truth 匹配数量的障碍。由上图可以看到,当视角切换器和多对一匹配组合使用时,ground-truth 匹配数量大幅提升。
2.1 视角切换器
如图,我们提出了一个名为视角切换器的二元分类网络来决定是否切换源图像和目标图像,其中采用了轻量级 CNN 来处理粗特征 和 的相关图,以感知尺度变化。其中,Pool(-) 表示平均池化,Corr(-, -) 表示通过内积计算相似度。为了监督视角切换器,我们在每对图像中随机选择 500 个 ground-truth 匹配,并计算每幅图像中点与点之间的距离。平均距离较大的图像被识别为较大尺度图像。如果初始的源图像是大尺度图像,则标签 为假,反之为真。切换器结果 的二元交叉熵损失计算公式为:经过训练,视角切换器会将大尺度图像切换为源图像,小尺度图像切换为目标图像,以保证源图像中有充足的可匹配点。当前的密集方法利用双 Softmax 算子计算粗匹配概率 ,定义为双 Softmax 算子使 的行和列之和小于或等于 1,这限制了每个特征最多只能匹配一个特征,即一对一匹配。然而,在尺度变化较大的场景中,多个点可能对应一个点,这就会导致匹配冲突。视角切换增加了匹配冲突的情况,源图像中的大量可匹配点在小尺度的目标图像中产生冲突,所以需要通过多对一匹配来实现无冲突的粗匹配。我们提出了带垃圾桶的单 Softmax 操作以使得一个目标图像特征可以匹配多个源图像特征,而一个源图像特征只能匹配一个目标图像特征或垃圾桶。首先,我们利用一组可学习的参数作为垃圾箱,表示为 ,并将其与目标图像特征连接 。垃圾桶的引入是为了匹配无 ground-truth 匹配的源图像特征,使我们的匹配器能够处理非重叠区域和遮挡。我们计算源图像特征与目标图像特征的得分矩阵为 ,然后进行单 Softmax 操作得到粗匹配概率 。带垃圾箱的多对一匹配策略可以理解为将每个源图像特征独立的匹配至其对应的目标图像特征或丢弃到垃圾箱。3.1 消融
我们绘制了训练过程中 ground-truth 匹配数量的曲线,可以看到相比于一对一匹配,多对一匹配大幅提高了 ground-truth 匹配数量,同时随着训练过程中视角切换的精度提高,ground-truth 匹配数量也在提高,最终达到了 260% 的 ground-truth 匹配数量提升。
无冲突粗匹配和视角切换器和定性结果如图所示,匹配数量大幅增加。3.2 性能-效率平衡
表中列出了最先进的匹配器的参数、运行时间和在 MegaDepth-1500 中的性能。值得注意的是,RCM 和
RCM 在性能和效率之间达到了最佳平衡。虽然 RCM 的性能落后于最精确的匹配器 RoMa,但 RCM 仅用其 8.8% 的参数和 23% 的运行时间就实现了可观的性能,更适合实时应用。相比于 LoFTR, RCM 以 46% 的运行时间和更少的参数取得了更好的性能。本文从一个新的角度出发,通过提高理论上限来增强匹配器。我们分别提出了针对源图像的动态视角切换机制和针对目标图像的无冲突粗匹配层。通过两者的结合,我们增强了源图像中可匹配点的数量,同时实现了目标图像中的无冲突匹配。定性和定量实验的结果表明,随着上限的提高,匹配器的实际性能也得到了显著增强,尤其是在具有大尺度变化特征的挑战性场景中。凭借其出色的性能和效率,我们相信 RCM 在研究和应用方面具有相当大的潜力。
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧