ACM MM 2022视频理解挑战赛视频分类赛道冠军AutoX团队技术分享

2022-06-30 13:06

©PaperWeekly 原创 · 作者 | 蔡晓晨，蔡恒兴

单位 | 第四范式

研究方向 | 视频理解

ACM Multimedia（简称 ACM MM）始于 1993 年，是国际多媒体领域学术和产业界交流的最顶级盛会，也是中国计算机学会推荐的多媒体领域唯一的 A 类国际学术会议。视频理解预训练挑战赛（Pre-training For Video Understanding Challenge）是其举办的重要赛事之一。

在本次比赛中，第四范式 AutoX 团队使用了一种新的时域多尺度预训练视频分类方案，以明显优势拿到了视频分类赛道的第一名。

赛题介绍

近年来，随着短视频领域的兴起，互联网中的多媒体视频数量数以亿计，这些视频往往具有如视频题目、分类等弱标记，具有标记噪声大，类别跨度大等特点。虽然计算机视觉的最新进展已经在如视频分类、视频配文字、视频目标检测等领域取得了不小成功，如何有效利用广泛存在于互联网中的大量无标记或弱标记的视频仍是值得研究的课题。本次 Pre-training For Video Understanding Challenge 大赛旨在促进人们对视频预训练技术的研究，鼓励研究团队设计新的预训练技术以提升一系列下游任务。

在本篇文章关注的视频分类赛道，大赛提供了从 Youtube 上抓去的包含 300 万条视频的预训练数据集 YOVO-3M，每条视频包含在 Youtube 上的视频标题和一条 query 作为视频类别（如bowling、archery、tigher cat 等），同时提供了包含了十万条视频的下游任务数据集 YOVO-downstream，数据集由 70173 条视频的训练集、16439 条视频的验证集和 16554 条视频的测试集组成，这些视频被分为 240 种预先定义的类别中，包括物体（如 Aircraft、Pizza、Football）和人类动作（如Waggle、High jump、Riding）。

在这条赛道中，在 YouTube 视频和 YOVO-3M 中相应的 query 和 title 的基础是，参赛者的目标是通过预训练得到视频的通用表示，可以进一步利用它来促进视频分类的下游任务。比赛要求参赛者根据挑战赛提供的 YOVO-3M 数据集（作为训数据）和发布的 YOVO 下游数据集（作为下游任务的训练数据）开发视频分类系统。最终以分类系统在下游任务数据集中的 top-1 精度作为衡量标准。同时，比赛不限制使用外部数据集。

query: brushing

title: Disney Jr Puppy Dog Pals Morning Routine Brushing Teeth, Taking a Bath, and Eating Breakfast!

解决方案

我们开发了一种“多重时域分辨率集成”技术，通过集成学习来提升模型预训练及下游任务中的效果，并且综合了七种不同的网络结构来学习不同的视频表示。随后的篇幅中，我们将介绍团队提出的多重时域分辨率集成技术以及简单介绍我们在比赛中用到的数个网络结构。

2.1 Ensemble on Multiple Temporal Resolutions

集成学习可以显著提高模型在各类任务中的表现，其中基于降低方差方法的核心之一在于需要不同的基学习器从数据中学习到不同的知识，从而通过不同基学习器的共识提高最终的泛化性能。Bagging [13] 就是其中的代表算法之一。我们从 Bagging 的思想出发，区别于原算法中通过随机采样训练子集的方式，我们使用不同的时域采样率采样视频，得到不同时域分辨率的训练集合，从而训练不同的基学习器。实验证明我们的方法可以显著提高集成的效果，同时，由于每个基学习器都能使用全部的训练视频，进而取得更高的单模型性能，我们的方法也优于传统的 Bagging 集成策略。

▲ Fusion With Multiple Temporal Resolusion

▲ 集成实验

2.2 Backbones

我们测试了 Temporal Segment Network [10,11]、TimeSformer [2]、BEiT [1]、Swin Transformer [7]、Video Swin Transformer [8] 五种 Frame-based 网络和 Spatiotemporal 网络。在实验中，Video Swin Transformer 取得了最优的模型效果。我们同时还比较了不同网络结构的计算复杂度。

在最终的提交方案中，我们将七种各自具有不同的网络结构、不同的预训练数据集以及不同的采样率的模型集成，得到了最优的测试集 top-1 精度 62.39，最终得到了本次比赛视频分类赛道的第一名。

总结

在本次 ACM Multimedia 2022 视频理解大赛中，我们通过多重时域采样的集成策略，同时集成多种不同的网络结构和预训练数据集，最终取得了本次比赛视频分类赛道的第一名，为视频理解和预训练提出了一种新的方式。

参考文献

[1] Hangbo Bao, Li Dong, and Furu Wei. 2021. Beit: Bert pre-training of image transformers. arXiv preprint arXiv:2106.08254 (2021).

[2] Gedas Bertasius, Heng Wang, and Lorenzo Torresani. 2021. Is space-time attention all you need for video understanding?. In ICML, Vol. 2. 4.

[3] Joao Carreira, Eric Noland, Andras Banki-Horvath, Chloe Hillier, and Andrew Zisserman. 2018. A short note about kinetics-600. arXiv preprint arXiv:1808.01340

(2018).

[4] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. 2009. Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition. Ieee, 248–255.

[5] Raghav Goyal, Samira Ebrahimi Kahou, Vincent Michalski, Joanna Materzynska, Susanne Westphal, Heuna Kim, Valentin Haenel, Ingo Fruend, Peter Yianilos, Moritz Mueller-Freitag, et al. 2017. The" something something" video database for learning and evaluating visual common sense. In Proceedings of the IEEE international conference on computer vision. 5842–5850.

[6] Will Kay, Joao Carreira, Karen Simonyan, Brian Zhang, Chloe Hillier, Sudheendra Vijayanarasimhan, Fabio Viola, Tim Green, Trevor Back, Paul Natsev, et al. 2017. The kinetics human action video dataset.arXiv preprint arXiv:1705.06950 (2017).

[7] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. 2021. Swin transformer: Hierarchical vision transformer using shifted windows. In Proceedings of the IEEE/CVF International Conference on Computer Vision. 10012–10022.

[8] Ze Liu, Jia Ning, Yue Cao, Yixuan Wei, Zheng Zhang, Stephen Lin, and Han Hu. 2022. Video swin transformer. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 3202–3211.

[9] Yingwei Pan, Yehao Li, Jianjie Luo, Jun Xu, Ting Yao, and Tao Mei. 2020. Autocaptions on GIF: A Large-scale Video-sentence Dataset for Vision-language Pre-training. arXiv preprint arXiv:2007.02375 (2020).

[10] Limin Wang, Yuanjun Xiong, Zhe Wang, Yu Qiao, Dahua Lin, Xiaoou Tang, and Luc Van Gool. 2016. Temporal segment networks: Towards good practices for deep action recognition. In European conference on computer vision. Springer,20–36.

[11] Limin Wang, Yuanjun Xiong, Zhe Wang, Yu Qiao, Dahua Lin, Xiaoou Tang, and Luc Van Gool. 2018. Temporal segment networks for action recognition in videos. IEEE transactions on pattern analysis and machine intelligence 41, 11 (2018), 2740–2755.

[12] Jun Xu, Tao Mei, Ting Yao, and Yong Rui. 2016. MSR-VTT: A Large Video Description Dataset for Bridging Video and Language. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).

[13] Breiman L . Bagging predictors[J]. Machine Learning, 1996.

更多阅读