NeurIPS 2022 | 基于对齐引导时间注意力机制的视频动作识别

公众号新闻

2022-10-21 05:10

©作者 | 张海涛

单位 | 重庆邮电大学

研究方向 | 视频理解

论文标题：

Alignment-guided Temporal Attention for Video Action Recognition

收录会议：

NeurIPS 2022

论文链接：

https://arxiv.org/abs/2210.00132

引言

1.1 问题与动机

无论是图片的前景还是背景都随着时间的迁移在帧上面发生变化，所以视频理解的任务需要对时间信息的建模。然而，以前的工作对时间建模提出了两种分支：时空分解的（2D+1D）操作和时空联合的 3D 操作（操作指 Attention or Convolution）。前者在计算效率上有优势但在识别效果上不足，后者在识别效果上有优势但在计算效率上不足。故而，建立不同帧的时间交互出现了效率和效用的窘境。

所以，本文作者从信息论的角度出发，提出了要对相邻帧最相似的部分进行 1D Temporal Operations，这样会使得两帧的互信息最大化从而提取到更多任务相关的特征。本文本质还是时空分解的（2D+1D）操作，不过是想办法增强了时间特征的提取，从而提高识别准确度。

原有的时间操作（Attention）是固定空间位置的。如粉色线条所示，相同位置的 patch 随着时间的迁移语义发生了变化，这样建立时间联系是没有意义的。我们希望像绿色线条那样，始终对相似的 patch 建立时间联系。所以，本文想对相邻帧的 patch 进行对齐（Alignment）。所谓对齐，就是把相似的 patch 放在同一个位置。

1.2 解决方案

本文实现的是 patch 层面的对齐，因为它采用的 Vision Transformer 作为主干网络。为了保证计算效率，还是采用了时空注意力分解的结构，不同的是在进行时间注意力计算之前先对相邻帧的 token 对齐，计算完之后为了避免空间结构的破坏又执行逆对齐操作还原空间顺序，如上图 c 所示。

方法

2.1 KMA

KMA (Kuhn-Munkres Algorithm) 是图论中的经典算法，旨在解决二部图的最优匹配问题（哪两个 Token 最相似）。KMA 中采用了匈牙利算法，它解决二部图的最大匹配（尽可能使得 T-1 时刻的 Token 和 T 时刻的 Token 两两配对且不重复）。这里，我们从匈牙利算法讲起。

2.1.1 匈牙利算法

二部图：设 G=(V,E) 是一个无向图，如果顶点 V 可分割为两个互不相交的子集 (U,V)，并且图中的每条边（i,j）所关联的两个顶点 i 和 j 分别属于这两个不同的顶点集 (i in U, j in V)，则称图 G 为一个二部图。简单的说，就是顶点被划分两个集合（U,V），边的左顶点一定属于 U 集合，右顶点一定属于 V 集合。在本文中，U 集合是 的所有 token，V 集合是 的所有 token，边表示 U 中 token 和 V 中 token 的余弦相似度。

匹配、完美匹配、最大匹配：设 G 是非空无环图，，M 中的任意两条边均不相邻则称 M 是图 G 的一个匹配。M 中边相关联的节点称为饱和点，否则称为非饱和点，如 G 的结点都是 M 的饱和点，则称 M 是完美匹配。

最大匹配就是匹配中的边数达到最大。完美匹配一定是最大匹配，反之则不成立。简单来说，匹配就是不相邻边的集合（相邻边会使节点重复），而完美匹配就是包含了所有节点的且不相邻的边的集合。完美匹配的意义就是将 U,V 集合中的节点两两配对，且不重复使用节点。最大匹配就是找到了所有的匹配，但是节点可能没用完。

交错路径和增广路径：给定 G 的一个匹配 M，若路径 P 的边交替出现 M 中的边和非 M 中的边，则称 P 是交错路径。给定一个交错路径 P，它的起始点都是非饱和点则称 P 为增广路径。

如下图，其中黑粗线表示匹配。｛1，2，3｝和｛1，2，3，4，5｝都是交错路径（一条含匹配边一条不含），但是｛1，2，3｝不是增广路径，因为｛1，2，3｝的起点（1 的左端点）是非饱和点（与匹配无关），而终点（3 的右端点）是饱和点（与匹配 4 相关）。而｛1，2，3，4，5｝是一条增广路径。

增广路径对匈牙利算法至关重要。从上图可以看出，｛1，2，3，4，5｝是一条增广路径，其中｛2，4｝是匹配。现在可以撤销 {2，4} 匹配，增加｛1，3，5｝匹配，显然｛1，3，5｝是不相邻的边符合匹配定义。所以，根据这条增广路径我们获得了更大的匹配。匈牙利算法目的是求解最大匹配，即图 G 不再存在 M 的增广路径。

匈牙利算法：

设 G 是具有二部划分的二部图：

任给初始匹配
若饱和，则是最大匹配，结束算法；否则，进入 3
在点中寻找一个非饱和点，令，
若停止，找到一个不饱和的最大匹配；否则任选一点
若是的饱和点执行 6；否则，求从到的增广路径，执行，转 2
是的饱和点一定存在边，执行，，转 4

例题：

2.1.2 Kuhn-Munkres 算法

可行顶标和平凡顶标：已知是具有二部划分的完全加权二部图，映射满足对的每条边，，其中是边的权重，则称是的可行定标。平凡顶标则是特殊的可行：

顶标，它的思想是 x 取最大边的权重，y 取 0，即：

可行定标的作用是生成 等子图 。

在等子图 上执行匈牙利算法，若得到完美匹配 M，则 M 是 G 的最优匹配。这是图论中的定理，在此不证明了。

若没得到完美匹配，匈牙利算法终止于，则令：

用去调整可行顶标：

再用生成新的等子图，再执行匈牙利算法求解最大匹配。

重复上述过程，直到最大匹配是完美匹配是，产生最优匹配。图论证明，由于最优匹配一定存在，所以 KM 算法一定会终止。

例题：

已知完全二部图，其中，

，其邻接矩阵为：

2.1.3 回归论文

上面用比较大的篇幅介绍匈牙利算法和 KM 算法，因为它是本文提出的对齐概念实现的核心技术。现在我们看看文章的具体做法：

文章将上一帧的 tokens 看成集合 ，下一帧的 tokens 看成集合 ，它们之间的余弦相似度看成带权边，可作为邻接矩阵，这就是一个带权的完全二部图。用 KMA 可以求解其最优匹配，即找到前后帧最相似的 token一一匹配起来。One-hot Binary Mask A 描述了这种匹配关系，红色块是 1 表示匹配，白色块为 0。Align 与 De-Align 可定义为：

注意，逆对齐操作是和对齐后的序列做矩阵乘法，从上图可以看出矩阵 A 是正交矩阵（任意两列计算内积为 0），则。

2.2 理论证明

本文从信息论的角度证明了对齐后可增大相邻帧的互信息，从而使得帧在时间维度能够共享更多的任务有关信息，这样有利于提取出时间上有用的特征。

现将相邻两帧看成随机变量和，它们之间的互信息可定义为：

再将互信息定义在 patch 层面：

由于给定图片 patch 出现的概率是确定的，则：

其中表示对齐后的 patch。那么可进一步简化为：

设对齐后的表示为，那么对齐后的互信息可定义为：

注意我们认为，因为对齐只改变了 patch 的顺序，但是没有改变 patch 里面含有的特征，所以信息熵应该是相同的。现在可以看到，对齐前的互信息和对齐后的互信息唯一的区别在于减号后面的条件熵不同，关键在于和的不同。由于对齐后 patch 高度相似，那么它们产生的条件概率也应该更大（已知该位置是苹果，下一帧该位置还是苹果的可能性更大一些），即：

由于信息熵是负对数，则：

最后推导得到，对齐后的互信息更大些：

总结：对齐后相邻帧相同位置的 patch 高度相似，由于用已知信息推相似信息概率自然会大一些，所以对齐后的条件熵会小一些，那么减去小的值，互信息自然会大一些。互信息刻画了两个随机变量的相似度，在这里相邻两帧的互信息更大意味着它们在时间维度有更多的共享信息。

实验

在此不赘述论文中的所有实验，只谈谈有启发性的实验。

ATA 的通用性和 de-aligment 的有效性：

首先可以看出，ATA 在 MLP，Convolution，ViT 架构中都有效果。其次在时间建模方面，ATA 要远超 Averaging，略好与 Attetion。由于 Attention 建立了帧与帧间的全局联系，那么它包含的互信息也是较大的（Attention 其实也是一种对齐方法），这说明了增大互信息确实能够更好地理解视频。

另外可以观察到，在 MLP 和 Conv 架构中使用 de-alignment 的效果和不使用的效果差异明显，这是因为 MLP 和 Conv 依赖于局部的空间模式，需要空间结构的完整性。而在 ViT 架构中，不使用 de-alignment 的效果差异并不大，这是因为 Transformer 能建立全局的空间联系，对于空间结构的破坏具有一定的容忍度。

互信息比较：

明显看到，没有任何时序建模时，互信息极低。简单，增加 Averaging 后互信息剧增，这说明时序建模的有效性可能就是因为增大了相邻帧的互信息。另外，ATA 的互信息略微高于 Attention，而且 ATA 是没有参数的，说明其优势。最重要的是验证了，Aligment 确实可以增加相邻帧的互信息，并且使得分类效果更好。