UniMatch项目原作解读：统一光流、立体匹配和深度估计三个任务

2022-12-26 05:12

从二维图像中理解场景的三维结构和运动信息是计算机视觉领域的一项核心研究目标，也是许多实际应用的基石。近年来，许多不同的网络结构被提出来解决几何和运动相关的任务，如深度估计、立体匹配和光流等。然而，现有的工作大多致力于设计特定的网络结构来独立解决每一个特定的任务，忽视了许多几何和运动估计任务是本质上相关的对应关系估计问题。这种针对特定任务的研究理念不可避免地导致需要处理大量的网络结构。此外，独立地研究每一项特定的任务使得无法很好地复用预训练的模型，因为各任务之间的网络结构和模型参数往往有所差异。

机器之心最新一期线上分享邀请到了苏黎世联邦理工学院与图宾根大学联合培养博士生徐豪飞，为大家解读他们CVPR 2022的Oral论文 GMFlow 及其后续工作UniMatch。

这项工作提出了一个统一模型 UniMatch 来解决三个稠密感知任务：光流、立体匹配和深度估计。作者的主要观察在于这三个任务可以通过一种显式地稠密特征匹配框架来进行统一，进而这一问题被转化为提取任务无关的、判别能力强的特征来进行匹配。为此，文章提出采用 Transformer，尤其是 cross-attention 来实现。其中 cross-attention 可以建模两张图片之间的相互依赖关系，从而极大地提升特征的质量。由于网络结构和参数在不同任务之间是共享的，因此可以很自然地支持跨任务之间的迁移。文章提出的最终模型在10个流行的数据集上取得了最好或具有竞争力的结果，同时网络结构更加简单和高效。