Redian新闻
>
NeurIPS 2022 | 基于对齐引导时间注意力机制的视频动作识别

NeurIPS 2022 | 基于对齐引导时间注意力机制的视频动作识别

公众号新闻

©作者 | 张海涛

单位 | 重庆邮电大学

研究方向 | 视频理解



论文标题:
Alignment-guided Temporal Attention for Video Action Recognition
收录会议:
NeurIPS 2022

论文链接:

https://arxiv.org/abs/2210.00132




引言


1.1 问题与动机


无论是图片的前景还是背景都随着时间的迁移在帧上面发生变化,所以视频理解的任务需要对时间信息的建模。然而,以前的工作对时间建模提出了两种分支:时空分解的(2D+1D)操作和时空联合的 3D 操作(操作指 Attention or Convolution)。前者在计算效率上有优势但在识别效果上不足,后者在识别效果上有优势但在计算效率上不足。故而,建立不同帧的时间交互出现了效率和效用的窘境。

所以,本文作者从信息论的角度出发,提出了要对相邻帧最相似的部分进行 1D Temporal Operations,这样会使得两帧的互信息最大化从而提取到更多任务相关的特征。本文本质还是时空分解的(2D+1D)操作,不过是想办法增强了时间特征的提取,从而提高识别准确度。


原有的时间操作(Attention)是固定空间位置的。如粉色线条所示,相同位置的 patch 随着时间的迁移语义发生了变化,这样建立时间联系是没有意义的。我们希望像绿色线条那样,始终对相似的 patch 建立时间联系。所以,本文想对相邻帧的 patch 进行对齐(Alignment)。所谓对齐,就是把相似的 patch 放在同一个位置。


1.2 解决方案



本文实现的是 patch 层面的对齐,因为它采用的 Vision Transformer 作为主干网络。为了保证计算效率,还是采用了时空注意力分解的结构,不同的是在进行时间注意力计算之前先对相邻帧的 token 对齐,计算完之后为了避免空间结构的破坏又执行逆对齐操作还原空间顺序,如上图 c 所示。



方法

2.1 KMA

KMA (Kuhn-Munkres Algorithm) 是图论中的经典算法,旨在解决二部图的最优匹配问题(哪两个 Token 最相似)。KMA 中采用了匈牙利算法,它解决二部图的最大匹配(尽可能使得 T-1 时刻的 Token 和 T 时刻的 Token 两两配对且不重复)。这里,我们从匈牙利算法讲起。


2.1.1 匈牙利算法

二部图:设 G=(V,E) 是一个无向图,如果顶点 V 可分割为两个互不相交的子集 (U,V),并且图中的每条边(i,j)所关联的两个顶点 i 和 j 分别属于这两个不同的顶点集 (i in U, j in V),则称图 G 为一个二部图。简单的说,就是顶点被划分两个集合(U,V),边的左顶点一定属于 U 集合,右顶点一定属于 V 集合。在本文中,U 集合是 的所有 token,V 集合是 的所有 token,边表示 U 中 token 和 V 中 token 的余弦相似度。


匹配、完美匹配、最大匹配:设 G 是非空无环图,,M 中的任意两条边均不相邻则称 M 是图 G 的一个匹配。M 中边相关联的节点称为饱和点,否则称为非饱和点,如 G 的结点都是 M 的饱和点,则称 M 是完美匹配

最大匹配就是匹配中的边数达到最大。完美匹配一定是最大匹配,反之则不成立。简单来说,匹配就是不相邻边的集合(相邻边会使节点重复),而完美匹配就是包含了所有节点的且不相邻的边的集合。完美匹配的意义就是将 U,V 集合中的节点两两配对,且不重复使用节点。最大匹配就是找到了所有的匹配,但是节点可能没用完。


交错路径和增广路径:给定 G 的一个匹配 M,若路径 P 的边交替出现 M 中的边和非 M 中的边,则称 P 是交错路径。给定一个交错路径 P,它的起始点都是非饱和点则称 P 为增广路径


如下图,其中黑粗线表示匹配。{1,2,3}和{1,2,3,4,5}都是交错路径(一条含匹配边一条不含),但是{1,2,3}不是增广路径,因为{1,2,3}的起点(1 的左端点)是非饱和点(与匹配无关),而终点(3 的右端点)是饱和点(与匹配 4 相关)。而{1,2,3,4,5}是一条增广路径。



增广路径对匈牙利算法至关重要。从上图可以看出,{1,2,3,4,5}是一条增广路径,其中{2,4}是匹配。现在可以撤销 {2,4} 匹配,增加{1,3,5}匹配,显然{1,3,5}是不相邻的边符合匹配定义。所以,根据这条增广路径我们获得了更大的匹配。匈牙利算法目的是求解最大匹配,即图 G 不再存在 M 的增广路径。


匈牙利算法:

设 G 是具有二部划分 的二部图:
  1. 任给初始匹配   
  2. 饱和 ,则是最大匹配,结束算法;否则,进入 3
  3. 点中寻找一个非饱和点 ,令   
  4. 停止,找到一个不饱和 的最大匹配;否则任选一点  
  5. 的饱和点执行 6;否则,求从 的增广路径 ,执行 ,转 2
  6. 的饱和点一定存在边 ,执行 ,转 4

例题:



2.1.2 Kuhn-Munkres 算法


可行顶标和平凡顶标:已知 是具有二部划分 的完全加权二部图,映射 满足对 的每条边 ,其中 是边的权重,则 称是 可行定标平凡顶标则是特殊的可行:

顶标,它的思想是 x 取最大边的权重,y 取 0,即:



可行定标的作用是生成 等子图


在等子图 上执行匈牙利算法,若得到完美匹配 M,则 M 是 G 的最优匹配。这是图论中的定理,在此不证明了。

若没得到完美匹配,匈牙利算法终止于 ,则令:


去调整可行顶标:


再用 生成新的等子图 ,再执行匈牙利算法求解最大匹配。

重复上述过程,直到最大匹配是完美匹配是,产生最优匹配。图论证明,由于最优匹配一定存在,所以 KM 算法一定会终止。

例题:

已知完全二部图 ,其中 ,其邻接矩阵为:



2.1.3 回归论文

上面用比较大的篇幅介绍匈牙利算法和 KM 算法,因为它是本文提出的对齐概念实现的核心技术。现在我们看看文章的具体做法:



文章将上一帧的 tokens 看成集合 ,下一帧的 tokens 看成集合 ,它们之间的余弦相似度看成带权边,可作为邻接矩阵,这就是一个带权的完全二部图。用 KMA 可以求解其最优匹配,即找到前后帧最相似的 token一一匹配起来。One-hot Binary Mask A 描述了这种匹配关系,红色块是 1 表示匹配,白色块为 0。Align 与 De-Align 可定义为:



注意,逆对齐操作 和对齐后的序列做矩阵乘法,从上图可以看出矩阵 A 是正交矩阵(任意两列计算内积为 0),则

2.2 理论证明


本文从信息论的角度证明了对齐后可增大相邻帧的互信息,从而使得帧在时间维度能够共享更多的任务有关信息,这样有利于提取出时间上有用的特征。



现将相邻两帧看成随机变量 ,它们之间的互信息可定义为:



再将互信息定义在 patch 层面:



由于给定图片 patch 出现的概率是确定的,则:


其中 表示对齐后的 patch。那么 可进一步简化为:



设对齐后的表示为 ,那么对齐后的互信息可定义为:




注意我们认为 因为对齐只改变了 patch 的顺序,但是没有改变 patch 里面含有的特征,所以信息熵应该是相同的。现在可以看到,对齐前的互信息 和对齐后的互信息 唯一的区别在于减号后面的条件熵不同,关键在于 的不同。由于对齐后 patch 高度相似,那么它们产生的条件概率也应该更大(已知该位置是苹果,下一帧该位置还是苹果的可能性更大一些),即:



由于信息熵是负对数,则:



最后推导得到,对齐后的互信息更大些:



总结:对齐后相邻帧相同位置的 patch 高度相似,由于用已知信息推相似信息概率自然会大一些,所以对齐后的条件熵会小一些,那么减去小的值,互信息自然会大一些。互信息刻画了两个随机变量的相似度,在这里相邻两帧的互信息更大意味着它们在时间维度有更多的共享信息。




实验


在此不赘述论文中的所有实验,只谈谈有启发性的实验。


ATA 的通用性和 de-aligment 的有效性:



首先可以看出,ATA 在 MLP,Convolution,ViT 架构中都有效果。其次在时间建模方面,ATA 要远超 Averaging,略好与 Attetion。由于 Attention 建立了帧与帧间的全局联系,那么它包含的互信息也是较大的(Attention 其实也是一种对齐方法),这说明了增大互信息确实能够更好地理解视频


另外可以观察到,在 MLP 和 Conv 架构中使用 de-alignment 的效果和不使用的效果差异明显,这是因为 MLP 和 Conv 依赖于局部的空间模式,需要空间结构的完整性。而在 ViT 架构中,不使用 de-alignment 的效果差异并不大,这是因为 Transformer 能建立全局的空间联系,对于空间结构的破坏具有一定的容忍度


互信息比较:



明显看到,没有任何时序建模时,互信息极低。简单,增加 Averaging 后互信息剧增,这说明时序建模的有效性可能就是因为增大了相邻帧的互信息。另外,ATA 的互信息略微高于 Attention,而且 ATA 是没有参数的,说明其优势。最重要的是验证了,Aligment 确实可以增加相邻帧的互信息,并且使得分类效果更好。




总结


本文的核心思想是将相邻帧的 Token 或 Patch 对齐,即将高度相似的 Patch/Token 放在相同位置上。


这种方法,从信息论的角度是增大了互信息,从直觉来说是让相邻帧在时间维度共享更多有用的语义信息。


我认为可改进之处在于 KMA,它的时间复杂度是 ,引入的计算量偏大了。

考虑是否用可学习的方式求解完全二部图的最优匹配并降低时间复杂度。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
NeurIPS 2022 | 何恺明团队新作:MAE扩展到视频!学习时空表示,最优Mask比例高达90%!从理论走向实用!马毅教授NeurIPS 2022新作:稀疏卷积性能和稳健性超越ResNet买房风波(4)NeurIPS 2022 | DetCLIP:开放域检测新方法,推理效率提升20倍!ACM MM2022|腾讯基于自适应区域选择和通道参考的视频盲水印,高效对抗各类攻击NeurIPS 2022 | PointTAD: 基于稀疏点表示的多类别时序动作检测框架NeurIPS 2022 | 基于最优子集的神经集合函数学习方法EquiVSetNeurIPS 2022|探明图对比学习的“游戏规则”:谱图理论视角NeurIPS 2022 | 一种基于毒性样本敏感性的有效后门防御!NeurIPS 2022 | 将通信带宽降低至十万分之一,上海交大提出新一代协作感知方法首次突破30FPS!天大、清华和卡迪夫联合提出基于单RGB相机的全新三维表示方法FOF|NeurIPS 2022中国现在到底有多厉害?NeurIPS 2022|图对比学习的结构公平性初探NeurIPS 2022 | 基于精确差异学习的图自监督学习NeurIPS 2022 | AutoMTL:第一个自动化多任务学习编程框架!Enjoy Hamburger:注意力机制比矩阵分解更好吗?MICCAI 2022 | 基于对比学习和视觉Transformer的弱监督视频肠息肉检测NeurIPS 2022 | 谷歌用贝叶斯优化做巧克力曲奇!还跟自家食堂签了约...CIKM 2022最佳论文:融合图注意力机制与预训练语言模型的常识库补全将通信带宽降低至十万分之一,NeurIPS 2022论文提出新一代协作感知方法NeurIPS 2022 | 基于解耦因果子结构学习的去偏差图神经网络中国工业化大跃进运动功不可磨NeurIPS 2022 | Rebuttal起死回生!对攻击者的攻击:一种真实场景下的防御NeurIPS 2022 | 开放域检测新方法DetCLIP,推理效率提升20倍NeurIPS 2022 | 首个将视觉、语言和音频分类任务进行统一的半监督分类学习基准「稀疏编码」从理论走向实用!马毅教授NeurIPS 2022新作:稀疏卷积性能和稳健性超越ResNetNeurIPS 2022 | 用变分编码器生成周期图,时间、空间复杂度最低NeurIPS 2022 | 马里兰、北大等机构提出量子算法用于采样对数凹分布和估计归一化常数网上情缘,你给我百万,我许你情深 (多图)患者男性,72岁,确诊为胰腺癌,吸烟史30年……,该病人麻醉诱导时应特别注意的是:小米:大西瓜,小番茄,和其他。NeurIPS 2022 | ConvMAE:当Masked卷积遇见何恺明的MAENeurIPS 2022 Oral | 基于最优子集的神经集合函数学习方法EquiVSetNeurIPS 2022 | 量子算法用于采样对数凹分布和估计归一化常数VideoMAE:简单高效的视频自监督预训练新范式|NeurIPS 2022
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。