最新综述:视频数据的无监督域适应
深度学习随着大数据的不断产生在日常生活生产中发挥着愈来愈重要的作用。针对视频分析的深度学习方法更是随着各类大型数据集和大型预训练模型的推广,以及在安防、自动驾驶、智慧医疗等领域的广泛应用,而有了深刻且大幅的发展。但是,当前深度视频分析仍然极度依赖大型带标签的训练数据集进行模型训练和检测。在进行对模型效果检测的时候,我们常假定我们的测试集的数据分布与我们训练集的数据分布是高度相似甚至是一致的。
然而这种假定在实际模型应用中往往并不成立。从大型数据集组建的训练集(或源域)与从实际生产生活数据中组建的测试集(或目标域)往往有着不可忽略的差异(即域分布差异)。域分布差异导致在源域训练的模型在目标域上的表现差强人意,进而无法被运用到实际数据和实际场景中。为了解决由于域分布差异带来的对模型表现的负面影响,深度域适应任务被提出。
其旨在通过一定的方法找到源域与目标域之间的相似之处,降低源域与目标域之间的域分布差异,实现域间分布对齐,从而使一个在源域上训练的深度模型能被更好的运用在目标域上,或者说能使一个深度模型将其在源域中获取的只是迁移并运用在目标域中,增强模型的可迁移性及泛化能力。同时,由于数据标注极耗人力与物力,在实际应用中往往能获取的更多是无标签的数据。所以,我们在这里更多讨论的是当目标域是无标签的情况,即深度无监督域适应任务。
当前,对深度无监督域适应任务的研究已经在图像领域有着诸多成果,并仍然是当前的热门研究课题之一。但是对于深度视频无监督域适应任务的研究却少得多。究其原因,可以归结为视频所蕴含的信息非常繁杂,既包括每一帧的静态空间信息,也包括了横跨数帧甚至贯穿整个视频的动态动作信息。除此之外,视频也还包括各种模态的信息,比如环境声、人物语言等等。在带来更多信息的同时,每一类信息亦会导致更严重的域分布差异。
也正因为域分布差异会产生于包括静态空间信息的各种模态的信息,当前的各种仅针对空间信息域分布差异而设计的域适应方案无法被有效的直接应用于解决视频的域分布差异问题,也就无法被用于深度视频无监督域适应。我们针对深度视频无监督适应进行了深入的研究,并提出了全新的方案与全新的数据集,希望能进一步推动深度视频无监督域适应任务的发展。在本文中我们会对这个方案以及我们所提出的数据集进行介绍 [1]。
与此同时,最基础的深度视频无监督域适应任务设定中对域适应的场景做出了诸多假定和限制,比如限制源域与目标域的标签必须是一致的(或者说在同一个标签空间下)。这些假定和限制可能与日常生产与生活应用不符,大大降低了所提出的域适应方案的实用性。
为此,我们也对深度视频无监督域适应中各种更实用的场景进行了研究。这些更实用的场景都对原有的最基础的设定进行了修改和松绑, 使其更符合现实应用的可能情况,提高了所提出的域适应方案的实用性。在本文中我们会对我们所研究的各类更实用设定下深度视频无监督域适应任务及其所对应的数据集进行介绍 [2][3]。
另外,当前深度视频无监督域适应任务大多以动作识别作为下游任务。本文中所介绍的方法也都以动作识别作为下游任务以判断深度视频无监督域适应方案的效果。需要指出的是目前也有研究基于其他视频下游任务比如视频目标检测和语义分割。我们在对深度视频域适应的综述及其对应的汇总库(见下面链接)进行了介绍,欢迎大家查阅。
论文标题:
Video Unsupervised Domain Adaptation with Deep Learning: A Comprehensive Survey
https://arxiv.org/abs/2211.10412
https://github.com/xuyu0010/awesome-video-domain-adaptation
TNNLS-22:基于视频中时空相关性信息进行域间对齐实现深度视频无监督域适应 [1]
项目链接:
我们认为对源/目标域视频进行对齐使其域分布差异减少实质上就是对齐源/目标域中与视频(或者更准确的说,动作)相关的特征。在以往的深度无监督域适应方案中,很多的改进都源于此论断,体现为对时态特征(temporal feature)进行更明确的甚至单独的进行对齐(比如 TA3N [4])。但是,这样的改进是否足以实现较好的视频无监督域适应呢?
其实不然,在视频中仍有很多与动作有关的特征理应被加以利用,在域适应过程中加以对齐。其中时空像素关系(pixel spatiotemporal correlation)与视频中所蕴含的动作信息高度相关。这在 Non-local Neural Network [5] 中及其后面的诸多动作识别网络,比如 TSM [6] 都有所证明。但是不同域,或者更广泛的说不同场景下的相同动作的时空像素关系也会表现得非常不一样,如下图所示:
在这篇文章中,我们提出利用对齐时空像素关系的特征及信息来实现视频域适应的方法,称为:Adversarial Correlation Adaptation Network(ACAN)。其中,对齐时空像素关系特征与对齐视频中更常用的诸如空间特征(spatial feature)和时态特征的方法是类似的。于此同时,虽然在同一个域中同一个动作所产生的时空像素关系特征理应非常相似,但是我们观察到这种特征在源/目标域中几乎必然存在异常值。
这些个别的异常的时空像素关系特征会对视频域适应产生负面的影响,降低所训练网络的迁移能力。为了减低这些异常值的影响,在这篇文章中我们引入了像素关系差异(Pixel Correlation Discrepancy——PCD)对整体的时空像素关系信息的分布进行进一步的对齐。下图展示了我们的 ACAN 网络结构:
其中,ACAN-Base 采用对抗式域适应方式(adversarial-based,经典代表 DANN [7],ADDA [8])对视频的整体特征以及时空像素关系特征进行域适应。
对抗式域适应方式简单来说就是加入一个域分类器,并在训练中与特征提取器进行对抗,其训练目标是让特征提取器中提取可分辨的(discriminative)特征,同时此类特征无法被域分类器准确分类为源域或者目标域,即源域和目标域因为极为近似故而可以看作已经遵循同一种数据分布,并被视为对齐。此类方式在域适应研究中较为常用,实现方式也较为简单。
https://xuyu0010.github.io/vuda.html
ICCV-21:充分利用视频中的时序信息进行视频局部域适应 [2]
https://openaccess.thecvf.com/content/ICCV2021/papers/Xu_Partial_Video_Domain_Adaptation_With
代码链接:
项目主页:
https://xuyu0010.github.io/pvda.html
ECCV-22:利用时序信息一致性进行视频无源域适应 [3]
论文链接:
https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136940144.pdf
https://github.com/xuyu0010/ATCoN
https://xuyu0010.github.io/sfvda.html
https://xuyu0010.github.io/msvda.html
总结
参考文献
[1] Xu, Y., Cao, H., Mao, K., Chen, Z., Xie, L., & Yang, J. (2022). Aligning correlation information for domain adaptation in action recognition. IEEE Transactions on Neural Networks and Learning Systems. https://arxiv.org/pdf/2107.04932
[2] Xu, Y., Yang, J., Cao, H., Chen, Z., Li, Q., & Mao, K. (2021). Partial video domain adaptation with partial adversarial temporal attentive network. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 9332-9341). https://openaccess.thecvf.com/content/ICCV2021/papers/Xu_Partial_Video_Domain_Adaptation_With_Partial_Adversarial_Temporal_Attentive_Network_ICCV_2021_paper.pdf
[3] Xu, Y., Yang, J., Cao, H., Wu, K., Wu, M., & Chen, Z. (2022). Source-Free Video Domain Adaptation by Learning Temporal Consistency for Action Recognition. In European Conference on Computer Vision (pp. 147-164). Springer, Cham. https://www.ecva.net/papers/eccv_2022/papers_ECCV/papers/136940144.pdf
[4] Chen, M. H., Kira, Z., AlRegib, G., Yoo, J., Chen, R., & Zheng, J. (2019). Temporal attentive alignment for large-scale video domain adaptation. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 6321-6330). http://openaccess.thecvf.com/content_ICCV_2019/html/Chen_Temporal_Attentive_Alignment_for_Large-Scale_Video_Domain_Adaptation_ICCV_2019_paper.html
[5] Wang, X., Girshick, R., Gupta, A., & He, K. (2018). Non-local neural networks. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 7794-7803). http://openaccess.thecvf.com/content_cvpr_2018/html/Wang_Non-Local_Neural_Networks_CVPR_2018_paper.html
[6] Lin, J., Gan, C., Wang, K., & Han, S. (2020). TSM: Temporal shift module for efficient and scalable video understanding on edge devices. IEEE transactions on pattern analysis and machine intelligence. https://ieeexplore.ieee.org/abstract/document/9219141/
[7] Ganin, Y., Ustinova, E., Ajakan, H., Germain, P., Larochelle, H., Laviolette, F., ... & Lempitsky, V. (2016). Domain-adversarial training of neural networks. The journal of machine learning research, 17(1), 2096-2030. https://www.jmlr.org/papers/volume17/15-239/15-239.pdf
[8] Tzeng, E., Hoffman, J., Saenko, K., & Darrell, T. (2017). Adversarial discriminative domain adaptation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 7167-7176). http://openaccess.thecvf.com/content_cvpr_2017/html/Tzeng_Adversarial_Discriminative_Domain_CVPR_2017_paper.html
[9] Li, Y., Wang, N., Liu, J., & Hou, X. (2017). Demystifying neural style transfer. arXiv preprint arXiv:1701.01036. https://arxiv.org/abs/1701.01036
[10] Kuehne, H., Jhuang, H., Garrote, E., Poggio, T., & Serre, T. (2011, November). HMDB: a large video database for human motion recognition. In 2011 International conference on computer vision (pp. 2556-2563). IEEE. https://ieeexplore.ieee.org/abstract/document/6126543/
[11] Xu, Y., Yang, J., Cao, H., Mao, K., Yin, J., & See, S. (2021, January). Arid: A new dataset for recognizing action in the dark. In International Workshop on Deep Learning for Human Activity Recognition (pp. 70-84). Springer, Singapore. https://xuyu0010.github.io/arid.html
[12] Zhou, B., Andonian, A., Oliva, A., & Torralba, A. (2018). Temporal relational reasoning in videos. In Proceedings of the European conference on computer vision (ECCV) (pp. 803-818). https://openaccess.thecvf.com/content_ECCV_2018/papers/Bolei_Zhou_Temporal_Relational_Reasoning_ECCV_2018_paper.pdf
[13] Munro, J., & Damen, D. (2020). Multi-modal domain adaptation for fine-grained action recognition. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 122-132). http://openaccess.thecvf.com/content_CVPR_2020/papers/Munro_Multi-Modal_Domain_Adaptation_for_Fine-Grained_Action_Recognition_CVPR_2020_paper.pdf
[14] Soomro, K., Zamir, A. R., & Shah, M. (2012). UCF101: A dataset of 101 human actions classes from videos in the wild. arXiv preprint arXiv:1212.0402. https://arxiv.org/pdf/1212.0402
[15] Xie, S., Sun, C., Huang, J., Tu, Z., & Murphy, K. (2018). Rethinking spatiotemporal feature learning: Speed-accuracy trade-offs in video classification. In Proceedings of the European conference on computer vision (ECCV) (pp. 305-321). http://openaccess.thecvf.com/content_ECCV_2018/papers/Saining_Xie_Rethinking_Spatiotemporal_Feature_ECCV_2018_paper.pdf
[16] Liang, J., Hu, D., & Feng, J. (2020, November). Do we really need to access the source data? source hypothesis transfer for unsupervised domain adaptation. In International Conference on Machine Learning (pp. 6028-6039). PMLR. http://proceedings.mlr.press/v119/liang20a/liang20a.pdf
[17] Monfort, M., Andonian, A., Zhou, B., Ramakrishnan, K., Bargal, S. A., Yan, T., ... & Oliva, A. (2019). Moments in time dataset: one million videos for event understanding. IEEE transactions on pattern analysis and machine intelligence, 42(2), 502-508. https://arxiv.org/pdf/1801.03150
[18] Carreira, J., & Zisserman, A. (2017). Quo vadis, action recognition? a new model and the kinetics dataset. In proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 6299-6308). https://openaccess.thecvf.com/content_cvpr_2017/papers/Carreira_Quo_Vadis_Action_CVPR_2017_paper.pdf
[19] Karpathy, A., Toderici, G., Shetty, S., Leung, T., Sukthankar, R., & Fei-Fei, L. (2014). Large-scale video classification with convolutional neural networks. In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition (pp. 1725-1732). https://www.cv-foundation.org/openaccess/content_cvpr_2014/papers/Karpathy_Large-scale_Video_Classification_2014_CVPR_paper.pdf
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
微信扫码关注该文公众号作者