CVPR 2023 | EMA-VFI: 基于帧间注意力提取运动和外观信息的高效视频插帧

2023-03-17 04:03

©作者 | Guozhen Zhang

单位 | 南京大学媒体计算组

本文介绍南京大学媒体计算组最近被 CVPR 2023 接收的视频插帧方向的工作：Extracting Motion and Appearance via Inter-Frame Attention for Efficient Video Frame Interpolation（简写为EMA-VFI）。

EMA-VFI 针对视频插帧任务的特点，提出了利用帧间注意力机制来同时提取运动和外观信息，并采用了 CNN 和 Transformer 混合结构设计进行插帧性能和计算负载之间的 trade-off。在固定时间步插帧和任意时间步插帧两个子任务的多个 benchmark 里，EMA-VFI 都取得了最好的性能。同时和之前的 SOTA 方法相比，EMA-VFI 的运行时间和占用内存都有明显的减少。

论文标题：

Extracting Motion and Appearance via Inter-Frame Attention for Efficient Video Frame Interpolation

论文链接：

https://arxiv.org/pdf/2303.00440.pdf

代码链接：

https://github.com/MCG-NJU/EMA-VFI

研究动机

视频插帧（Video Frame Interpolation, VFI）任务的目标是给定连续的两帧，生成这两帧之间的固定时刻的帧或者任意时刻的帧。顾名思义，VFI 最直接的用途就是用来提高帧率，经常和视频超分方法用来同时提升视频的空间和时间上的分辨率。

VFI 和其他常见的视频修复任务（如视频超分、视频去噪等）最大的不同就是 VFI 任务要生成原本不存在的帧，而其他视频修复任务要修复一张原本存在的帧，这样的不同也让插帧任务的设计思路无法直接借鉴视频复原方法的思路。

▲ 图1. 插帧算法中不同特征提取范式之间的比较

为了生成两帧之间的某一帧，从直觉上理解，VFI 算法首先需要建模两帧之间的运动关系，然后将两帧中对应区域的外观信息依靠建立好的运动关系汇聚到要生成的帧上。因此，设计高效地提取两帧之间的运动信息和外观信息的方法对于一个好的VFI算法来说是至关重要的。经过充分调研，我们发现目前 VFI 算法提取这两种信息的方式可以分为两类，如图 1。

第一种范式（如图 1 中的 (a)），也是最常见的一类设计，直接将两帧按通道拼在一起，经过重复的网络模块提取出特征，这个特征既用来建模运动也用来表征外观，我们在此将这样的提取范式称为混合提取（mixed extraction）。

尽管混合提取范式设计十分简洁，但因为要隐式地提取两种信息，往往对特征提取模块的设计和容量都有较高的要求。同时，因为没有显示的运动信息，也无法直接得到任意时刻运动建模所需的运动信息，这种范式限制了任意时刻插帧的能力。

第二种范式（如图 1 中的 (b)），采用了串行提取两种信息的思路，首先先提取每一帧的单独的外观信息，再利用两者的外观信息提取运动信息。这种提取范式需要针对每一种信息单独设计提取模块，往往会引入额外计算开销，并且无法像混合提取范式一样只需堆叠相同的模块就可以提升性能。同时，这样得到的外观特征没有很好地进行帧间信息的交互，而这种交互对于生成中间帧是至关重要的。

这里我们提出了疑问：是否存在能够同时显式地提取两种信息，且设计简洁有效的范式呢？如图 1 中的 (c)，我们希望设计一个模块，能够同时显式地提取运动信息和两帧之间交互过的外观信息，并且可以像混合提取范式一样只需通过控制模块的个数和容量来控制性能。

方法介绍

▲ 图2.(a) 利用帧间注意力提取两种特征; (b) 搭配帧间注意力的Transformer模块

利用帧间注意力（Inter-Frame Attention, IFA）提取两种特征

在本文中，我们提出利用帧间的注意力机制来同时提取运动信息和两帧之间的交互过的外观信息。具体来说，如图 2 中的（a），对于当前帧中的任何一个区域，我们将其作为注意力机制中的查询（query），并将其在另一帧的空间上的相邻的所有区域作为键和值（key&value）来推导出代表其当前区域与另一帧相邻区域的注意力图。

随后，该注意力图被用来汇总邻居的外观特征，并和当前区域的外观特征进行聚合，从而得到同一个区域在两帧不同位置的外观信息的聚合特征（Inter-Frame Appearance Feature）。此外，注意力图也被用来对另一帧的相邻区域的位移进行加权，以获得当前区域从当前帧到相邻帧的近似运动向量（Motion Vector），并经过一个线性层得到两帧之间的运动特征。

这样，通过一次注意力操作，我们通过注意力图的复用同时独立的提取出了两种特征。值得注意的是，这样得到的外观特征没有混淆位置信息，所以可以进一步在此基础上提取新的外观信息和运动信息。

遵循目前主流的结构设计思路，我们将帧间注意力机制放在了 Transformer 的结构中，如图 2 中的（b）。这样的设计让我们只需要改变特征的通道数和 Transformer block 的个数就能控制提取的两种特征的质量和多样性（具体细节请参考原文）。

▲ 图3. 得到的运动向量和估计的光流之间的比较

为了验证我们设计的帧间注意力机制确实可以建模相似区域之间的相关度，我们将通过 IFA 得到的运动向量和最终估计得到的光流进行比较。如图 3，可以发现，尽管有一些噪声，但通过 IFA 直接提取的运动向量（右图）和估计的光流（左图）具有高度的一致性，这进一步证明了 IFA 确实能够分辨不同区域的外观信息，并且得到的运动特征可以作为估计两帧之间的光流的强而有效的先验。

结合CNN和Transformer的架构设计

▲ 图4. 整体架构图

尽管 IFA 可以同时提取运动信息和交互的外观信息，但由于实际中 VFI 往往输入的分辨率很高，在全分辨率的图片上使用 IFA 所带来的计算开销是难以承受的。如图 4，受到最近一些将 CNN 与 Transformer 架构融合的工作的启发，我们采用了一套简洁有效的方案来减轻计算开销：利用 CNN 提取高分辨率的 low-level 信息，利用搭载着 IFA 的 Transformer 在低分辨率下提取运动信息和帧间的外观信息。

这样的设计允许我们通过调整 CNN 和 Transformer 的比例来控制性能和计算开销之间的权衡，同时 CNN 提取的 low-level 信息也为 IFA 建模帧间的关系打下了良好的基础（具体设计细节和参数请参考原文）。

实验结果

关于固定插帧（生成两帧之间的中间帧）的性能比较如图 5：

▲ 图5. 固定时刻插帧性能比较

关于任意时刻插帧的性能比较如图 6：

▲ 图6. 任意时刻插帧性能比较

可以从结果看出来我们提出方法在两个子任务的不同数据集上都有较大的性能提升。图 7 是和之前 SOTA 方法 VFIFormer 的运行速度和占用内存的比较，我们的方法随着输入尺寸的增大，计算开销有了成倍的减少：

▲ 图7. 我们的模型与VFIFormer计算开销的比较

图 8 是固定时刻插帧效果的视觉对比，可以发现在一些大位移运动的情况下，我们提出的方法能够更好地生成中间帧：

▲ 图8. 和之前方法的固定时刻插帧效果比较

图 9 是任意时刻插帧效果的视觉对比，可以发现我们的算法相比于之前的算法具有更好的时间一致性：

▲ 图9. 和之前方法的任意时刻插帧效果比较

关于 IFA 的消融：为了验证利用 IFA 提取两种信息的设计是有效的，我们试过将 IFA 变成利用自注意力机制对每一帧单独提取外观信息（SFA）和两帧混合提取特征（Mixed）。如图 10，利用 IFA 提取外观特征的方式相比于 SFA 和 Mixed 的范式在性能上提升巨大，这验证了 IFA 的有效性。同时，相比与串行提取的范式（SFA 提取外观特征+BCV 提取运动特征），利用 IFA 同时提取两种特征在需要更小计算开销的同时具备更好的性能。

▲ 图10. 关于IFA的消融

关于运动特征的消融：为了进一步验证 IFA 提取的运动信息对于运动关系的建模是有效的，我们用单纯的时间 t 代替运动特征作为估计任意时刻光流估计的线索。如图 11，相比于单纯的时间 t，在基本相同的计算开销下，使用 IFA 提取的运动特征来指引任意时刻的光流估计的整体性能要明显更优，这充分证明其有效性。

▲ 图11. 关于运动特征的消融

关于 CNN&Transformer 混合结构设计的消融：为了探索 CNN 与 Transformer 混合设计的性能-计算开销之间的平衡关系，我们在不同分辨率的特征尝试分别使用两种结构进行试验。如图 12，可以发现在分辨率最低的两个阶段使用 Transformer 就已经取得很好的性能，并且计算开销也可以接受，这也作为了我们模型的默认设置。