最新综述：视频数据的无监督域适应

2022-12-27 06:12

©作者 | 许悦聪

单位 | 新加坡科技研究局

研究方向 | 视频迁移学习、领域自适应

深度学习随着大数据的不断产生在日常生活生产中发挥着愈来愈重要的作用。针对视频分析的深度学习方法更是随着各类大型数据集和大型预训练模型的推广，以及在安防、自动驾驶、智慧医疗等领域的广泛应用，而有了深刻且大幅的发展。但是，当前深度视频分析仍然极度依赖大型带标签的训练数据集进行模型训练和检测。在进行对模型效果检测的时候，我们常假定我们的测试集的数据分布与我们训练集的数据分布是高度相似甚至是一致的。

然而这种假定在实际模型应用中往往并不成立。从大型数据集组建的训练集（或源域）与从实际生产生活数据中组建的测试集（或目标域）往往有着不可忽略的差异（即域分布差异）。域分布差异导致在源域训练的模型在目标域上的表现差强人意，进而无法被运用到实际数据和实际场景中。为了解决由于域分布差异带来的对模型表现的负面影响，深度域适应任务被提出。

其旨在通过一定的方法找到源域与目标域之间的相似之处，降低源域与目标域之间的域分布差异，实现域间分布对齐，从而使一个在源域上训练的深度模型能被更好的运用在目标域上，或者说能使一个深度模型将其在源域中获取的只是迁移并运用在目标域中，增强模型的可迁移性及泛化能力。同时，由于数据标注极耗人力与物力，在实际应用中往往能获取的更多是无标签的数据。所以，我们在这里更多讨论的是当目标域是无标签的情况，即深度无监督域适应任务。

当前，对深度无监督域适应任务的研究已经在图像领域有着诸多成果，并仍然是当前的热门研究课题之一。但是对于深度视频无监督域适应任务的研究却少得多。究其原因，可以归结为视频所蕴含的信息非常繁杂，既包括每一帧的静态空间信息，也包括了横跨数帧甚至贯穿整个视频的动态动作信息。除此之外，视频也还包括各种模态的信息，比如环境声、人物语言等等。在带来更多信息的同时，每一类信息亦会导致更严重的域分布差异。

也正因为域分布差异会产生于包括静态空间信息的各种模态的信息，当前的各种仅针对空间信息域分布差异而设计的域适应方案无法被有效的直接应用于解决视频的域分布差异问题，也就无法被用于深度视频无监督域适应。我们针对深度视频无监督适应进行了深入的研究，并提出了全新的方案与全新的数据集，希望能进一步推动深度视频无监督域适应任务的发展。在本文中我们会对这个方案以及我们所提出的数据集进行介绍 [1]。

与此同时，最基础的深度视频无监督域适应任务设定中对域适应的场景做出了诸多假定和限制，比如限制源域与目标域的标签必须是一致的（或者说在同一个标签空间下）。这些假定和限制可能与日常生产与生活应用不符，大大降低了所提出的域适应方案的实用性。

为此，我们也对深度视频无监督域适应中各种更实用的场景进行了研究。这些更实用的场景都对原有的最基础的设定进行了修改和松绑，使其更符合现实应用的可能情况，提高了所提出的域适应方案的实用性。在本文中我们会对我们所研究的各类更实用设定下深度视频无监督域适应任务及其所对应的数据集进行介绍 [2][3]。

另外，当前深度视频无监督域适应任务大多以动作识别作为下游任务。本文中所介绍的方法也都以动作识别作为下游任务以判断深度视频无监督域适应方案的效果。需要指出的是目前也有研究基于其他视频下游任务比如视频目标检测和语义分割。我们在对深度视频域适应的综述及其对应的汇总库（见下面链接）进行了介绍，欢迎大家查阅。

论文标题：

Video Unsupervised Domain Adaptation with Deep Learning: A Comprehensive Survey

论文链接：

https://arxiv.org/abs/2211.10412

Github:

https://github.com/xuyu0010/awesome-video-domain-adaptation

TNNLS-22：基于视频中时空相关性信息进行域间对齐实现深度视频无监督域适应 [1]

论文链接：

https://arxiv.org/pdf/2107.04932

项目链接：

https://xuyu0010.github.io/vuda.html

我们认为对源/目标域视频进行对齐使其域分布差异减少实质上就是对齐源/目标域中与视频（或者更准确的说，动作）相关的特征。在以往的深度无监督域适应方案中，很多的改进都源于此论断，体现为对时态特征（temporal feature）进行更明确的甚至单独的进行对齐（比如 TA3N [4]）。但是，这样的改进是否足以实现较好的视频无监督域适应呢？

其实不然，在视频中仍有很多与动作有关的特征理应被加以利用，在域适应过程中加以对齐。其中时空像素关系（pixel spatiotemporal correlation）与视频中所蕴含的动作信息高度相关。这在 Non-local Neural Network [5] 中及其后面的诸多动作识别网络，比如 TSM [6] 都有所证明。但是不同域，或者更广泛的说不同场景下的相同动作的时空像素关系也会表现得非常不一样，如下图所示：

在这篇文章中，我们提出利用对齐时空像素关系的特征及信息来实现视频域适应的方法，称为：Adversarial Correlation Adaptation Network（ACAN）。其中，对齐时空像素关系特征与对齐视频中更常用的诸如空间特征（spatial feature）和时态特征的方法是类似的。于此同时，虽然在同一个域中同一个动作所产生的时空像素关系特征理应非常相似，但是我们观察到这种特征在源/目标域中几乎必然存在异常值。

这些个别的异常的时空像素关系特征会对视频域适应产生负面的影响，降低所训练网络的迁移能力。为了减低这些异常值的影响，在这篇文章中我们引入了像素关系差异（Pixel Correlation Discrepancy——PCD）对整体的时空像素关系信息的分布进行进一步的对齐。下图展示了我们的 ACAN 网络结构：

其中，ACAN-Base 采用对抗式域适应方式（adversarial-based，经典代表 DANN [7]，ADDA [8]）对视频的整体特征以及时空像素关系特征进行域适应。

对抗式域适应方式简单来说就是加入一个域分类器，并在训练中与特征提取器进行对抗，其训练目标是让特征提取器中提取可分辨的（discriminative）特征，同时此类特征无法被域分类器准确分类为源域或者目标域，即源域和目标域因为极为近似故而可以看作已经遵循同一种数据分布，并被视为对齐。此类方式在域适应研究中较为常用，实现方式也较为简单。

虽然 ACAN-Base 在特征层面上特征利用了时空像素关系进行视频域适应，但是正如前面所提，源/目标域中所存在的时空像素关系特征异常值会对域适应训练后所得到的模型的可迁移性产生不利的影响。为此，我们提出应进一步的对齐时空像素关系信息的分布。

那么这里问题的关键就是如何表述这种时空像素信息及其分布。我们采用如下图所示的（参考 Non-local Neural Network）结构获得一个像素关系矩阵（Pixel Correlation Matrix ），其中的任意一点坐标所代表的数值即为在视频时空中点与点之间的相关性。

而这个信息的整体分布可由这个信息的协方差计算得到，在实践中我们利用格拉姆矩阵（Gram Matrix），并试图减小源域与目标域的时空像素关系格拉姆矩阵之间的期望距离来对齐源域与目标域之间的时空像素关系信息，定义为。但是直接计算出格拉姆矩阵及其之间的距离是一个极其耗费算力的运算。

为了减少算力，我们参考格拉姆矩阵在神经网络风格迁移 [9] 中的如下定理即：减少格拉姆矩阵之间的期望距离等同于对构建了格拉姆矩阵的矩阵进行分布对齐。基于此定理，对的减少可以等同于减少源/目标域的像素关系矩阵的分布差，而此分布则被定义在了再生核希尔伯特空间（Reproducing Kernel Hibert Space）中。这里我们定义我们的像素关系差异（PCD）为等效于 Lvs 的一个描述时空像素信息差的差异（discrepancy）并定义为：

其中是在再生核希尔伯特空间上动作类的分布的期望特征。我们进一步利用特征核函数可以更简单直接的对 PCD 即等效于对进行计算和最小化，从而与 ACAN-Base 一道实现更好的视频域适应效果。

同时，在本文中我们也提出了一个新的跨域动作识别数据集：HMDB-ARID 数据集。我们集合了 HMDB51 [10] 这个经典的数据集与一个非常不一样的黑暗视频数据集 ARID [11]，ARID 仍是迄今为止据我们所知唯一一个针对黑暗视频进行动作识别任务的数据集。

这两个数据集风格迥异，之间的域分布差异较大，故而要实现将在 HMDB51 中训练得到的模型适应到 ARID 是极富挑战性的。下图展示了这个数据集中所包含的所有 11 个动作及其在 HMDB51（上）与 ARID（下）的对比。本数据集在这里开放下载：

https://xuyu0010.github.io/vuda.html

我们所提出的 ACAN 在 UCF-HMDB（full）[4] 以及 HMDB-ARID 中进行测试，都取得了较好的效果。相较于将在源域中得到的模型直接适应到目标域（即 Source-Only）的表现，我们所提出的 ACAN 都取得了不小的提升。

总而言之，本文提出了 ACAN，一个利用对齐时空像素关系的特征及信息来实现视频域适应的方法，并同时推出了一个具有相较其他跨域动作识别数据集具有更大域分布差异的 HMDB-ARID 数据集。我们的方法在这个数据集以及一个更为常用的 UCF-HMDB（full）数据集上都取得了不错的表现。

ICCV-21：充分利用视频中的时序信息进行视频局部域适应 [2]

论文链接：

https://openaccess.thecvf.com/content/ICCV2021/papers/Xu_Partial_Video_Domain_Adaptation_With

代码链接：

https://github.com/xuyu0010/PATAN

项目主页：

https://xuyu0010.github.io/pvda.html

近两三年已经有越来越多的研究涉及到深度视频无监督域适应，研究如何能更有效的迁移和适应所训练的视频模型，感兴趣的可参见我们前面所提及的汇总与综述。但是，在实际应用之中绝大部分的方法都无法直接进行落地应用。一大原因是当前所关注研究的视频无监督域适应任务设定了诸多的设想与限制使其与现实需求与场景有不小的差异。

比如说，在进行深度视频无监督域适应任务时候，我们设想源域与目标域的标签空间完全一致，即源域有什么标签目标域会有完全一样的一套标签。但是在实际应用中我们的适应策略往往是从一个较大的数据集适应/迁移到一个较小的数据集（正如在图像识别领域在大型的 ImageNet 数据集进行预训练后迁移到更小的具体场景数据集中）。

在这种情况下，我们往往会遇到的情况反而是源域的标签会包含目标域的标签，即源域不仅含有目标域的标签，也含有一些只有在源域出现的相对于目标域的域外标签（outlier classes/labels）。在这种情况下进行无监督域适应的任务被成为局部域适应（Partial Domain Adaptation）。

使当前对一般无监督域适应有效的方法无法在局部域适应取得较好表现得一个重要原因就是域外标签会对适应过程产生副作用，具体表现为使目标域中的数据对齐到源域中为标签为域外标签的数据，造成负适应（negative transfer）。在图像局部域适应中这种负适应仅可能由空间特征造成，而在视频局部域适应中，这种负适应还可能由时序特征造成。

下图展现了一个非常简单的例子：由于在两个域中“走”与“跑”的视频都是从摄像头近端向远端移动的场景，故而直觉上来说他们的时序信息（时序特征）很可能会比较相似。这就进一步导致在目标域中的关于“跑”的视频通过对齐到源域中的“走”的视频引发负适应。

对于实现有效的图像局部域适应，一个关键的步骤是对目标域外标签进行过滤，尽最大可能降低这些标签对局部域适应的负面影响。而由于在视频局部域适应中负适应会额外的被时序特征引发，所以如何在视频局部域适应中最大程度的利用时序信息成为了解决视频局部域适应问题的关键所在。我们认为应该：1）从视频中获取相对高效而又鲁棒的时序特征；2）充分利用时序特征并连同空间特征对目标域外标签进行过滤。

为了实现第一点我们采用了一个非常简单但又非常有效的时序特征提取法：时序关系模块（Temporal Relation Module [12]）。采用这个特征提取法的原因是其通过不同帧间关系获取动作信息的思路与人类通过识别视觉世界两个状态之间的时间推移关系并推断出视频两帧之间发生的情况非常相向。

时序关系模块及时序关系网络（Temporal Relation Network TRN）也已在之前的视频无监督域适应工作 [4] 中得到了应用与检验。简单来说 TRN 作为特征提取器时提取的全局时序特征是由局部时序特征结合而来，而其局部时序特征是通过组合不同帧从而得到不同的帧间关系获得，如下图所示。

单纯的直接利用 TRN 作为骨架就希望得到好的时序特征是不切实际的，毕竟每个局部特征都应该对全局特征有不同的影响。由于目标域外标签过滤是解决视频局部域适应的关键，所以我们认为我们所要关注的即是对这个过滤起到更加关键作用的局部时序特征。这些局部时序特征之所以能对目标域外标签进行有效过滤是因为他们能较好的区分自己是否属于目标域标签亦或是目标域外标签。

故而这些局部特征的分类预测应该是较为确定的，即他们的预测熵应该较小。根据这个我们设计了一个标签注意力机制（label attention），通过计算每个局部特征的分类预测置信度（预测熵值的负数）来对局部特征赋予权重，即标签注意力。这个注意力还会在置信度基础上加上残差连接赋予更高的稳定性并被限制在一定范围之间。对于一个标记为的局部时序特征他的标签注意值为：

而我们构建最后的全局时序特征是将所有的局部时序特征加权求和得到，如下图所示：

在构建完一个较为鲁棒且带标签注意力机制的时序特征后，我们利用时序和空间特征对目标域外标签进行过滤。这个过滤的过程实质上是一个对源域标签进行赋权的过程，其中赋予目标域标签更大的权重而赋予目标域外标签更小甚至接近 0 的权重（称之为类权重）。

这种权重的另一层解释即为每个源域标签与目标域标签重合的概率。一种非常直接而又有效的获取权重的方式即为获取目标数据在源域标签的预测。如果目标域标签的预测皆为准确的，则与目标域标签重合的源域标签所对应的预测概率会远大于目标域外标签的预测概率。

下图展示了我们所提出的基于对抗式域适应方式（与 ACAN 所用的策略一样），利用带注意力机制的时序特征的 Partial Adversarial Temporal Attentive Network（PATAN）。

可以注意到我们从目标域数据的三种特征获取类权重：空间特征的预测以及带/不带标签注意力机制的全局时序特征的预测。所获得的类权重（在图中被标记为）会被用于源域数据的空间/全局时序特征所对应的分类器的交叉熵损失函数以及源域/目标域数据所对应的空间/全局时序特征对应的域分类器的交叉熵损失函数。

相比起视频无监督域适应仍有诸如 UCF-HMDB（small/full）、HMDB-ARID 以及利用 Epic-Kitchens [13] 所提出的跨域动作识别数据集，视频局部域适应没有任何能符合其数据特征的跨域动作识别数据集。

为了进一步促进视频局部域适应的研究，我们提出了三套数据集，涵盖了不同的数据量（大型、小型）和不同的域分布差异。这三个分别为基于 UCF101 [14] 和 HMDB51 的 UCF-HMDB（partial），基于 Mini-Kinetics [15] 和 UCF101 的 MiniKinetics-UCF，以及基于 HMDB51 和 ARID 的 HMDB-ARID（partial）。这三组不同的数据集的对比以及一些样例图如下所见：

所有的数据都可以通过这里进行下载：

https://xuyu0010.github.io/pvda.html

我们在所提出的三套数据集都进行了实验并验证了我们的方法相对于基于图像局部域适应所提出的方法以及基于视频无监督域适应所提出的方法都有不小的提升。我们也验证了我们的方法确实能更准确的对各个源域标签赋权，尽可能减小目标域外标签所造成的负适应影响。

总而言之，本文提出了 PATAN，一个充分利用视频中的时序信息进行视频局部域适应的方法，并同时推出了三套涵盖了不同的数据量（大型、小型）和不同的域分布差异的视频局部域适应数据集。我们的方法在所提出的三套数据集都取得了不俗的表现。

ECCV-22：利用时序信息一致性进行视频无源域适应 [3]

论文链接：

https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136940144.pdf

代码链接：

https://github.com/xuyu0010/ATCoN

项目主页：

https://xuyu0010.github.io/sfvda.html

除了在数据/标签设定上与实际应用可能有所差异导致当前视频无监督域适应的诸多方法无法被应用于实际场景中，其实还有其他原因使他们的实用场景收到限制。其中比较严重的问题在于当前的视频无监督域适应方法（也包括针对诸如视频局部域适应方法等其他视频域适应场景的方法）都需要持续的访问源域视频数据。但在实际上，在适应网络过程中访问源域视频数据并不总是可行。

比如说在用于异常行为识别（anomaly action detection）的网络常被用于医院中，而为了降低采集/注释数据的工作量往往希望一个网络能被直接适应到不同医院。但是为了保护医院中病人的隐私数据，在适应到目标医院的过程中源医院的数据是不可能被共享给目标医院的。否则会产生非常严重的隐私问题。

而且因为视频所包含的信息远比一张图片所包含的信息多，故而能持续访问到源域视频数据的视频无监督域适应方式所涉及到的侵犯隐私问题会比图像中的无监督域适应所涉及到的侵犯隐私问题更为严重。为了解决当前视频无监督域适应的隐私侵犯问题，我们提出并研究视频无源域适应问题，即在不访问源域视频数据而只访问源视频模型的情况下如何将模型适应到一个没有标签注释的目标域中。

既然无法访问到源域视频，那么任何需要对齐（无论是明确的还是模糊的）源域数据分布与目标域数据分布的方法都是不可行的。一种可行的方案则是让目标域信息去对齐源视频模型中所包含的语义信息。

用更直白的话描述就是如果目标域的数据分布已经与源域数据分布（当然现在这个具体的数据分布是未知的）对齐了，那么源视频模型会呈现出什么样的表现或者情况。同时要注意的是，由于视频包含比图像更多模态的信息（最明显的是包含时序信息），故而在提出利用对齐语义信息进行视频无源域适应的方法应充分利用多模态信息（此处尤指时序信息）。

正如我们在第二部分 PATAN 所展示的，视频的全局时序特征可以由多个局部时序特征构成（也可以被称为多个片段时序信息）。我们认为：对于同一个视频而言其表现的动作信息是唯一的时候，其时序信息也应贯穿整个信息，即其多个局部时序特征之间理应是较为一致的，我们称以上的这个假定为跨时序假定（cross-temporal hypothesis）。

直观来说，如果不同的局部时序特征互相之间完全不一致（差异较大），这就意味着局部时序特征之间所包含的语义信息并不一致。而将这些局部时序特征进行整合而获取的全局时序特征也会包含模糊的语义信息而变得没有辨识性。我们与 PATAN 一文一样采用 TRN 作为特征采集的骨架网络并利用这个网络对源域视频采集了多个局部时序特征。

如下图所示，我们可以观察到虽然不同的局部时序特征并不完全是一模一样的，但是其大致的图案是相当相似的，而这也印证了我们所提出的跨时序假定。

简而言之，如果源域视频模型被成功的适应到了目标域中，那么我们所获取的目标域特征理应符合跨时序假定，即目标域的局部时序特征之间也应具有一致性。这也就是我们解决视频无源域适应所采取的学习策略。这种一致性包含两方面的一致性：特征的一致性以及相对隐藏在源视频中的源域数据分布的相关性的一致性。而这种相关性可以直观的理解为利用源分类器所获取的目标域特征的预测结果（概率）。

同时，我们也意识到相比起直接求和或者求平均去融合局部时序特征，对局部时序特征进行加权融合能产生更鲁棒有效的全局时序特征。而在视频无源域适应中，我们选择对目标域中的局部时序特征与源域的相关性的置信度作为权重指标，以期与源域相关性更确信的局部时序特征能帮助全局时序特征更准确的明确与源域之间的相关性并进行对源域语义信息的对齐。

综上，我们在本文中提出了一个基于时序信息一致性的网络并包含了基于与源域数据分布相关性的置信度的注意力机制，称为 Attentive Temporal Consistent Network（ATCoN，读作@Con）。其结构如下图所示：

为了获取目标视频模型我们首先要获取一个源视频模型。如前面所言我们采用与 PATAN 一致的 TRN 作为这个源视频模型的骨架使其能提取局部和全局的时序信息。同时，为了增强源视频模型的可迁移性及其所获取特征的辨识性，我们借鉴了图像无源域适应方法 SHOT [16] 中的策略在训练源视频模型时采用了标签平滑。

在获得了源视频模型后，源域中的视频数据将在之后的整个适应与测试过程中无法被访问。同时，我们的目标视频模型采用了完全相同的骨架，其特征提取部分（）的参数由源视频模型的特征提取部分的参数进行初始化，而其分类器直接采用源视频模型的分类器（），并且这个分类器不会被更新。

为了获取我们的目标视频模型及其对应的目标全局时序特征，我们让目标域中的局部时序特征满足跨时序假定，使其特征之间及源预测概率之间保持一致性（即黄色的 Feature Consistency 以及绿色的 Source Prediction Consistency）。其中如果局部时序特征之间是一致的，则其正则化后两两之间的互相关矩阵（cross-correlation matrix）应接近一个单位矩阵。

而局部时序特征的源预测概率一致性则通过缩小该视频中所包含的每个局部时序特征的源预测概率与所有局部时序特征的平均源预测概率之间的 KL 散度（Kullback-Leibler divergence）实现。同时，由于全局时序特征也应包含与局部时序特征一样的动作信息，所以这种源预测概率的一致性也被扩展到全局时序特征。

除了保证局部时序特征满足跨时序假定，我们还提出了基于目标域局部时序特征与源域的相关性的置信度的注意力机制。本质上就是基于目标域局部时序特征的源预测概率的置信度的注意力机制。同时，为了进一步提高我们所提出的 ATCoN 的表现，我们亦参照其他诸如 SHOT 的方法并加入了互信息最大化（Information Maximization）并基于循环 -means 聚类得到伪标签进行自监督（将目标源预测概率接近于这个伪标签）。

我们发现目前在视频无监督域适应领域其实并没有像图像中的 DomainNet 一样大型的基于多个有着明显数据分布差异的域的大型跨域动作识别数据集。所以在一篇有关视频多源域域适应的文章中我们额外的提出了两套更为大型更为综合的跨域动作识别数据集：Daily-DA（有关日常动作，基于 HMDB51，ARID，Moments-in-Time [17]，Kinetics [18]）以及 Sports-DA（有关运动动作，基于 UCF101，Kinetics，Sports-1M [19]）。

相关文章目前在审，我们也会在接收后第一时间和大家分享。我们数据已经可以通过这里进行下载：

https://xuyu0010.github.io/msvda.html

我们将我们所提出的 ATCoN 方法在 UCF-HMDB（full）以及这两套大型跨域动作识别数据集进行了综合的测试，并发现我们的方法在利用了时序信息一致性后取得了非常好的表现，超过了针对图像无源域适应的所有方案，甚至还包括能访问到源域视频的普通视频无监督域适应方案。

总而言之，本文提出了 ATCoN，一个利用了时序信息一致性进行视频无源域适应的方法，从而能大大的缓解一般视频无监督域适应所带来的视频数据隐私侵犯问题。这套方法促使目标时序特征满足跨时序假定，使目标时序特征有较高的辨识性，从而在三套数据集都取得了不俗的表现。

总结

在本文中，我们介绍了我们三篇针对视频无监督域适应及其各类更实用设定的研究进行了介绍，包括针对一般视频无监督域适应的 ACAN [1]，针对视频局部域适应的 PATAN [2] 以及针对视频无源域适应的 ATCoN [3]。

同时，我们也介绍了我们为促进视频无监督域适应提出的诸多数据集：HMDB-ARID，UCF-HMDB（partial），MiniKinetics-UCF，HMDB-ARID（partial），Daily-DA 以及 Sports-DA。我们希望通过我们的介绍大家对视频无监督域适应有初步的了解并对这个能被利用到各领域的使训练视频模型会能通过摆脱视频标签注释变得更为简易的方向产生兴趣。

参考文献

[1] Xu, Y., Cao, H., Mao, K., Chen, Z., Xie, L., & Yang, J. (2022). Aligning correlation information for domain adaptation in action recognition. IEEE Transactions on Neural Networks and Learning Systems. https://arxiv.org/pdf/2107.04932

[2] Xu, Y., Yang, J., Cao, H., Chen, Z., Li, Q., & Mao, K. (2021). Partial video domain adaptation with partial adversarial temporal attentive network. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 9332-9341). https://openaccess.thecvf.com/content/ICCV2021/papers/Xu_Partial_Video_Domain_Adaptation_With_Partial_Adversarial_Temporal_Attentive_Network_ICCV_2021_paper.pdf

[3] Xu, Y., Yang, J., Cao, H., Wu, K., Wu, M., & Chen, Z. (2022). Source-Free Video Domain Adaptation by Learning Temporal Consistency for Action Recognition. In European Conference on Computer Vision (pp. 147-164). Springer, Cham. https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136940144.pdf

[4] Chen, M. H., Kira, Z., AlRegib, G., Yoo, J., Chen, R., & Zheng, J. (2019). Temporal attentive alignment for large-scale video domain adaptation. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 6321-6330). http://openaccess.thecvf.com/content_ICCV_2019/html/Chen_Temporal_Attentive_Alignment_for_Large-Scale_Video_Domain_Adaptation_ICCV_2019_paper.html

[5] Wang, X., Girshick, R., Gupta, A., & He, K. (2018). Non-local neural networks. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 7794-7803). http://openaccess.thecvf.com/content_cvpr_2018/html/Wang_Non-Local_Neural_Networks_CVPR_2018_paper.html

[6] Lin, J., Gan, C., Wang, K., & Han, S. (2020). TSM: Temporal shift module for efficient and scalable video understanding on edge devices. IEEE transactions on pattern analysis and machine intelligence. https://ieeexplore.ieee.org/abstract/document/9219141/

[7] Ganin, Y., Ustinova, E., Ajakan, H., Germain, P., Larochelle, H., Laviolette, F., ... & Lempitsky, V. (2016). Domain-adversarial training of neural networks. The journal of machine learning research, 17(1), 2096-2030. https://www.jmlr.org/papers/volume17/15-239/15-239.pdf

[8] Tzeng, E., Hoffman, J., Saenko, K., & Darrell, T. (2017). Adversarial discriminative domain adaptation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 7167-7176). http://openaccess.thecvf.com/content_cvpr_2017/html/Tzeng_Adversarial_Discriminative_Domain_CVPR_2017_paper.html

[9] Li, Y., Wang, N., Liu, J., & Hou, X. (2017). Demystifying neural style transfer. arXiv preprint arXiv:1701.01036. https://arxiv.org/abs/1701.01036

[10] Kuehne, H., Jhuang, H., Garrote, E., Poggio, T., & Serre, T. (2011, November). HMDB: a large video database for human motion recognition. In 2011 International conference on computer vision (pp. 2556-2563). IEEE. https://ieeexplore.ieee.org/abstract/document/6126543/

[11] Xu, Y., Yang, J., Cao, H., Mao, K., Yin, J., & See, S. (2021, January). Arid: A new dataset for recognizing action in the dark. In International Workshop on Deep Learning for Human Activity Recognition (pp. 70-84). Springer, Singapore. https://xuyu0010.github.io/arid.html

[12] Zhou, B., Andonian, A., Oliva, A., & Torralba, A. (2018). Temporal relational reasoning in videos. In Proceedings of the European conference on computer vision (ECCV) (pp. 803-818). https://openaccess.thecvf.com/content_ECCV_2018/papers/Bolei_Zhou_Temporal_Relational_Reasoning_ECCV_2018_paper.pdf

[13] Munro, J., & Damen, D. (2020). Multi-modal domain adaptation for fine-grained action recognition. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 122-132). http://openaccess.thecvf.com/content_CVPR_2020/papers/Munro_Multi-Modal_Domain_Adaptation_for_Fine-Grained_Action_Recognition_CVPR_2020_paper.pdf

[14] Soomro, K., Zamir, A. R., & Shah, M. (2012). UCF101: A dataset of 101 human actions classes from videos in the wild. arXiv preprint arXiv:1212.0402. https://arxiv.org/pdf/1212.0402

[15] Xie, S., Sun, C., Huang, J., Tu, Z., & Murphy, K. (2018). Rethinking spatiotemporal feature learning: Speed-accuracy trade-offs in video classification. In Proceedings of the European conference on computer vision (ECCV) (pp. 305-321). http://openaccess.thecvf.com/content_ECCV_2018/papers/Saining_Xie_Rethinking_Spatiotemporal_Feature_ECCV_2018_paper.pdf

[16] Liang, J., Hu, D., & Feng, J. (2020, November). Do we really need to access the source data? source hypothesis transfer for unsupervised domain adaptation. In International Conference on Machine Learning (pp. 6028-6039). PMLR. http://proceedings.mlr.press/v119/liang20a/liang20a.pdf

[17] Monfort, M., Andonian, A., Zhou, B., Ramakrishnan, K., Bargal, S. A., Yan, T., ... & Oliva, A. (2019). Moments in time dataset: one million videos for event understanding. IEEE transactions on pattern analysis and machine intelligence, 42(2), 502-508. https://arxiv.org/pdf/1801.03150

[18] Carreira, J., & Zisserman, A. (2017). Quo vadis, action recognition? a new model and the kinetics dataset. In proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 6299-6308). https://openaccess.thecvf.com/content_cvpr_2017/papers/Carreira_Quo_Vadis_Action_CVPR_2017_paper.pdf

[19] Karpathy, A., Toderici, G., Shetty, S., Leung, T., Sukthankar, R., & Fei-Fei, L. (2014). Large-scale video classification with convolutional neural networks. In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition (pp. 1725-1732). https://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Karpathy_Large-scale_Video_Classification_2014_CVPR_paper.pdf

更多阅读