ICCV 2023 | 复旦&微软提出ILA：基于可学习隐式对齐的时序建模方法

公众号新闻

2023-09-03 19:09

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达
点击进入—>【视频理解和Transformer】交流群

Implicit Temporal Modeling with Learnable Alignment for Video Recognition

在CVer微信公众号后台回复：ILA，可下载本论文pdf和代码

论文：https://arxiv.org/abs/2304.10465

Github：https://github.com/Francis-Rings/ILA

贡献总结：

（1）我们提出用于视频理解的隐式可学习对齐（ILA）模块。我们的隐式时序建模可以无缝插入现有的视觉Transformer模型。它利用粗粒度对齐作为关键时序信号，从而以较低的计算成本实现出色的时序建模。

（2）我们通过实验表明这种简单的隐式语义帧对齐已经编码了时序关系的核心特征，这可以消除传统时序自注意力对cross-frame cross-location时序建模不足的问题。

如下图所示，与之前的视频理解模型方法相比，ILA模型在FLOPs和Rank-1实现了更好的trade-off，我们的方法为CLIP从图像处理领域到视频理解领域搭建了一座富有潜力的桥梁。

1. 任务背景与动机

视频识别被认为是视频理解的最基本组成部分之一。许多下游任务严重依赖于基本识别模型，例如动作定位、检测和视频对象跟踪。由于视频技术的巨大潜力，它已经被广泛应用，成为过去几年的一个活跃的研究方向。人们提出了各种方法，包括基于卷积的方法和基于Transformer的方法。最近对比语言图像预训练（CLIP）在视频领域表现出了强大的性能。研究员尝试将将强大的CLIP模型应用于视频任务，将识别性能提升到了一个全新的水平，展现了其通用的表示能力。

一般来说，现有的方法设计了各种时序建模方案来探索 CLIP 的潜力，包括factorized temporal attention和temporal cross attention。所有这些定制方法都旨在设计轻量级时序模块以重用CLIP模型。虽然取得了相当大的改进，但时序建模方法仍然依赖于复杂的自注意力，我们认为这在基于 CLIP的框架中是不必要的。

在本文中，我们重新思考时序建模在基于CLIP的通用视频识别框架中的作用。与依赖时序注意力的现有方法不同，我们假设在执行成对帧对齐时可以得出重要的运动和动作线索。因此，可以避免昂贵或不足的时序注意力，而不会损害性能。因为显式patch级别的帧语义级别对齐非常耗时且效率低下，所以我们仅优先考虑隐式和粗粒度帧语义对齐，旨在涉及重要的时序特征信号。

鉴于此，我们提出了一种新颖的隐式可学习对齐（ILA）方法来实现高效的视频识别。更具体地说，ILA采用可学习的掩码来对齐两个相邻帧的特征。对齐是在交互点的帮助下实现的，该交互点是使用以帧对为条件的卷积模块预测的。基于该点，生成指示相邻帧的紧密交互的对应区域。掩码被定义为暗示哪个区域包含重要信息的权重图。然后，我们在掩码中的交互点周围分配较高的权重，同时为其他位置分配较低的权重，抑制其中不相关的特征。通过利用生成的掩码对帧表示进行加权，获得粗粒度对齐的特征，如下图所示。值得注意的是所有上述操作都是在帧对之间并行执行的，以提高速度。我们的方法被插入到视觉变压器的每个空间块中，并形成隐式时空注意力（IST）块，它允许在不使用传统时序自注意力的情况下进行时序建模。

2. 方法

隐式时空注意力（IST）块采用基于隐式掩码的对齐组件来对齐两个帧之间的语义特征。之前的研究通过匈牙利匹配探索了patch级对齐，但其性能有限且效率低下。一方面，显式patch级别对齐侧重于跨帧的patch强一致性，这可能消除有益的时序交互信息。另一方面，这种对齐必须以立方时间复杂度逐帧操作，从而产生大量的计算开销。相反，我们的隐式对齐试图增强有利的时序互信息，进而通过学习的掩码抑制不相关的信息。因此，我们的ILA保留了关键的时序线索，同时允许灵活高效的计算。

如上图所示，在第l个块中，我们对每一个输入片段进行复制从而组成一组输入帧对序列。然后每对特征表示沿着通道维度连接，并进一步馈送到专用的轻量级卷积模块中，用于预测两个交互点：

其中Conv()中包含一系列卷积层、归一化层和池化层，两个交互点表示两帧中语义最相似的位置，即表示具有有利互信息的区域。我们假设位置离交互点越近，涉及的时序信息就越多，相反，远离交互点的位置可能包含冗余和不相关的信息，应该抑制这些信息。最终，两个对齐掩码通过赋予更靠近交互点的位置更高的权重来生成，更加具体而言，对于一个在中的空间位置，它的权重计算如下：

其中dist()是计算距离的函数，都是超参数，对于的权重计算是同理于，值得注意的是所有位置的坐标都缩放到范围[-1,1]以方便掩码计算，被对齐后的特征表示是通过依据对齐掩码的权重赋值来计算获得：

我们假设对齐的特征可以隐式地保留互信息，并且已经编码了基本的时序信息，可以利用这些信息来建模跨帧的时序关系。但是直接拿来替换原始的会影响模型的性能，因为更关注时序交互区域而忽略空间相关性。我们将看成一个特殊的时序特征信号，我们对最终的对齐特征进行了两种特征融合的尝试，第一种是我们将对齐后的特征表示进行平均池化成一个token后拼接回原始的帧特征表示，拼接后的特征表示被输入到CLIP的空间自注意模块中进行进一步的空间特征建模，第二种是直接将对齐特征输入到MLP后，把输出特征直接与原始的原始的帧特征表示进行相加来实现隐式的时序建模，本文选择第一种特征融合方式。

我们的简单对齐隐式地将跨帧跨位置交互引入到模型中，从而捕获语义丰富的动作。我们发现，原始的成对交互已经包含了足够的信息来建模复杂的时序关系，这可以消除视频中昂贵的时间自注意力。因此，ILA块中没有额外的时序自注意力建模设计。

3. 实验概述：方法部分

由于篇幅限制，我们主要介绍ILA在Something-Something v2上面的表现，Something-Something v2相比于其他的数据集，对模型的时序建模能力要求更高，具体结果如下表所示，与在Kinetics-400上预训练的方法相比，在CLIP上预训练的方法通常会产生较弱的结果。例如，X-CLIP-B的准确率仅达到57.8%，而MViTv1-B在类似的计算下产生更高的结果（64.7%）。同样，EVL-ViT-B的结果也不尽人意（61.7%）。这种现象可归因于三个因素：(1) X-CLIP和EVL中的时序建模不足，为了追求高效率，X-CLIP和EVL在CLIP特征之上采用帧级或局部时间注意力，这不可避免地消极影响结果。(2)调整CLIP的权重非常具有挑战性，小的扰动很容易损害原始CLIP。我们假设原因是Something-Something v2是一个语义相对较小的数据集，即使为CLIP权重分配很小的学习率，为其他模块的权重分配很大的学习率，模型仍然容易遇到梯度爆炸。这种现象降低了参数的灵活性调整，导致模型训练不足。(3)与CLIP数据上的预训练相比，Kinetics上的预训练可以带来显着的优势。

如下表所示，ILA-ViT-B（8帧）达到了与MViTv1-B相当的65.0%，远高于X-CLIP和EVL。此外，ILA-ViT-L/14@336px 获得了可喜的性能，即top-1上的 70.2%和top-5上的 91.8%。它在top-1上的性能比EVL-ViT-L/14@336px高出2.2%，帧数减少了2倍，FLOPs减少了2倍以上。这表明所提出的隐式对齐可以以较低的计算成本对时序信息进行全面建模。

互信息比较。在我们的ILA中，我们假设ILA可以增强帧之间的互信息，从而提高识别性能。在这里，我们将最后一个视觉层中ILA的互信息与其他方法进行比较。具体而言，我们计算了相邻帧之间的平均Wasserstein距离（Earth Mover's Distance），该距离表示从原始分布转换成目标分布的过程中，系统需要做功的大小，该距离与互信息负相关。

4. 实验概述：可视化部分

互信息的可视化。我们通过绘制以点为中心的边界框来可视化每个视频帧上的交互点，如下图所示，边界框表示具有丰富有利互信息的区域，其中移动框显示了跟踪移动对象的能力潜力。

特征表示可视化。为了研究三种时序建模方法（Divided ST Attention、ATA 和 ILA）的质量，我们分别可视化它们的中间和最后特征图，如下图所示，这三种方法都捕获了静态语义特征，例如桌子上的静态花朵。此外，我们提出的ILA更关注插花的动作区域（例如，下面的第一幅图中最后一行的第5帧），而不是桌子上的静态花。这表明我们的ILA可以利用可学习掩模来实现隐式时序建模，重点关注重要的运动区域。对于Divided ST Attention，模型更喜欢关注静态对象而不是重要动作。而在ATA中，模型试图集中于位置不准确的不连续区域，可能的原因是 ATA 使用基于patch移动的对齐方式，这可能会破坏语义分布的连续性。

在CVer微信公众号后台回复：ILA，可下载本论文pdf和代码

点击进入—>【视频理解和Transformer】交流群

ICCV / CVPR 2023论文和代码下载

后台回复：CVPR2023，即可下载CVPR 2023论文和代码开源的论文合集

后台回复：ICCV2023，即可下载ICCV 2023论文和代码开源的论文合集

视频理解和Transformer交流群成立

扫描下方二维码，或者添加微信：CVer333，即可添加CVer小助手微信，便可申请加入CVer-视频理解或者Transformer 微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。

一定要备注：研究方向+地点+学校/公司+昵称（如视频理解或者Transformer+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群