Redian新闻
>
ACM MM 2022视频理解挑战赛视频分类赛道冠军AutoX团队技术分享

ACM MM 2022视频理解挑战赛视频分类赛道冠军AutoX团队技术分享

科技


©PaperWeekly 原创 · 作者 | 蔡晓晨,蔡恒兴
单位 | 第四范式
研究方向 | 视频理解



ACM Multimedia(简称 ACM MM)始于 1993 年,是国际多媒体领域学术和产业界交流的最顶级盛会,也是中国计算机学会推荐的多媒体领域唯一的 A 类国际学术会议。视频理解预训练挑战赛(Pre-training For Video Understanding Challenge)是其举办的重要赛事之一。


在本次比赛中,第四范式 AutoX 团队使用了一种新的时域多尺度预训练视频分类方案,以明显优势拿到了视频分类赛道的第一名。





赛题介绍


近年来,随着短视频领域的兴起,互联网中的多媒体视频数量数以亿计,这些视频往往具有如视频题目、分类等弱标记,具有标记噪声大,类别跨度大等特点。虽然计算机视觉的最新进展已经在如视频分类、视频配文字、视频目标检测等领域取得了不小成功,如何有效利用广泛存在于互联网中的大量无标记或弱标记的视频仍是值得研究的课题。本次 Pre-training For Video Understanding Challenge 大赛旨在促进人们对视频预训练技术的研究,鼓励研究团队设计新的预训练技术以提升一系列下游任务。


在本篇文章关注的视频分类赛道,大赛提供了从 Youtube 上抓去的包含 300 万条视频的预训练数据集 YOVO-3M,每条视频包含在 Youtube 上的视频标题和一条 query 作为视频类别(如bowling、archery、tigher cat 等),同时提供了包含了十万条视频的下游任务数据集 YOVO-downstream,数据集由 70173 条视频的训练集、16439 条视频的验证集和 16554 条视频的测试集组成,这些视频被分为 240 种预先定义的类别中,包括物体(如 Aircraft、Pizza、Football)和人类动作(如Waggle、High jump、Riding)。


在这条赛道中,在 YouTube 视频和 YOVO-3M 中相应的 query 和 title 的基础是,参赛者的目标是通过预训练得到视频的通用表示,可以进一步利用它来促进视频分类的下游任务。比赛要求参赛者根据挑战赛提供的 YOVO-3M 数据集(作为训数据)和发布的 YOVO 下游数据集(作为下游任务的训练数据)开发视频分类系统。最终以分类系统在下游任务数据集中的 top-1 精度作为衡量标准。同时,比赛不限制使用外部数据集。


query: brushing

title: Disney Jr Puppy Dog Pals Morning Routine Brushing Teeth, Taking a Bath, and Eating Breakfast!




解决方案


我们开发了一种“多重时域分辨率集成”技术,通过集成学习来提升模型预训练及下游任务中的效果,并且综合了七种不同的网络结构来学习不同的视频表示。随后的篇幅中,我们将介绍团队提出的多重时域分辨率集成技术以及简单介绍我们在比赛中用到的数个网络结构。


2.1 Ensemble on Multiple Temporal Resolutions


集成学习可以显著提高模型在各类任务中的表现,其中基于降低方差方法的核心之一在于需要不同的基学习器从数据中学习到不同的知识,从而通过不同基学习器的共识提高最终的泛化性能。Bagging [13] 就是其中的代表算法之一。我们从 Bagging 的思想出发,区别于原算法中通过随机采样训练子集的方式,我们使用不同的时域采样率采样视频,得到不同时域分辨率的训练集合,从而训练不同的基学习器。实验证明我们的方法可以显著提高集成的效果,同时,由于每个基学习器都能使用全部的训练视频,进而取得更高的单模型性能,我们的方法也优于传统的 Bagging 集成策略。


▲ Fusion With Multiple Temporal Resolusion


▲ 集成实验


2.2 Backbones


我们测试了 Temporal Segment Network [10,11]、TimeSformer [2]、BEiT [1]、Swin Transformer [7]、Video Swin Transformer [8] 五种 Frame-based 网络和 Spatiotemporal 网络。在实验中,Video Swin Transformer 取得了最优的模型效果。我们同时还比较了不同网络结构的计算复杂度。



在最终的提交方案中,我们将七种各自具有不同的网络结构、不同的预训练数据集以及不同的采样率的模型集成,得到了最优的测试集 top-1 精度 62.39,最终得到了本次比赛视频分类赛道的第一名。





总结


在本次 ACM Multimedia 2022 视频理解大赛中,我们通过多重时域采样的集成策略,同时集成多种不同的网络结构和预训练数据集,最终取得了本次比赛视频分类赛道的第一名,为视频理解和预训练提出了一种新的方式。



参考文献

[1] Hangbo Bao, Li Dong, and Furu Wei. 2021. Beit: Bert pre-training of image transformers. arXiv preprint arXiv:2106.08254 (2021).
[2] Gedas Bertasius, Heng Wang, and Lorenzo Torresani. 2021. Is space-time attention all you need for video understanding?. In ICML, Vol. 2. 4.
[3] Joao Carreira, Eric Noland, Andras Banki-Horvath, Chloe Hillier, and Andrew Zisserman. 2018. A short note about kinetics-600. arXiv preprint arXiv:1808.01340
(2018).
[4] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li, and Li Fei-Fei. 2009. Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition. Ieee, 248–255.
[5] Raghav Goyal, Samira Ebrahimi Kahou, Vincent Michalski, Joanna Materzynska, Susanne Westphal, Heuna Kim, Valentin Haenel, Ingo Fruend, Peter Yianilos, Moritz Mueller-Freitag, et al. 2017. The" something something" video database for learning and evaluating visual common sense. In Proceedings of the IEEE international conference on computer vision. 5842–5850.
[6] Will Kay, Joao Carreira, Karen Simonyan, Brian Zhang, Chloe Hillier, Sudheendra Vijayanarasimhan, Fabio Viola, Tim Green, Trevor Back, Paul Natsev, et al. 2017. The kinetics human action video dataset.arXiv preprint arXiv:1705.06950 (2017).
[7] Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, and Baining Guo. 2021. Swin transformer: Hierarchical vision transformer using shifted windows. In Proceedings of the IEEE/CVF International Conference on Computer Vision. 10012–10022.
[8] Ze Liu, Jia Ning, Yue Cao, Yixuan Wei, Zheng Zhang, Stephen Lin, and Han Hu. 2022. Video swin transformer. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 3202–3211.
[9] Yingwei Pan, Yehao Li, Jianjie Luo, Jun Xu, Ting Yao, and Tao Mei. 2020. Autocaptions on GIF: A Large-scale Video-sentence Dataset for Vision-language Pre-training. arXiv preprint arXiv:2007.02375 (2020).
[10] Limin Wang, Yuanjun Xiong, Zhe Wang, Yu Qiao, Dahua Lin, Xiaoou Tang, and Luc Van Gool. 2016. Temporal segment networks: Towards good practices for deep action recognition. In European conference on computer vision. Springer,20–36.
[11] Limin Wang, Yuanjun Xiong, Zhe Wang, Yu Qiao, Dahua Lin, Xiaoou Tang, and Luc Van Gool. 2018. Temporal segment networks for action recognition in videos. IEEE transactions on pattern analysis and machine intelligence 41, 11 (2018), 2740–2755.
[12] Jun Xu, Tao Mei, Ting Yao, and Yong Rui. 2016. MSR-VTT: A Large Video Description Dataset for Bridging Video and Language. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR).
[13] Breiman L . Bagging predictors[J]. Machine Learning, 1996.


更多阅读




#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
崔迪潇:无人驾驶、摇滚和半个西安人 | 智能车未来挑战赛人物报道「英雄帖」美食创业团队寻找技术团队,期待热爱美食的你加入莉莉丝团队破2000人,一大波新游戏在研,还入局休闲赛道?从 IE 到 Edge:我们跟微软浏览器团队聊了聊Web的过去和未来 | 中国卓越技术团队访谈录[摄影] 代码11663 Leica M 35mm f1.4 SUMMILUX-ASPH千亿智慧出行赛道,跑出一个“隐形冠军”2022年英国少年数学挑战赛真题和答案出炉浣溪沙:五月春光云未藏视频 | 2022新丝路中国国际少儿模特大赛旧金山赛区冠军诞生 6月纽约全美总决赛争殊荣免费演出|Free Shakespeare on the Common 2022:Much Ado About Nothing挥汗如雨的四月降低60%患癌风险的三种简单方式招商基金张西林:用溯因法去理解市场,理解了“因”才能得到“果”展览|“Beyond King Tut:The Immersive Experience”开始售票费城2022-2023学年选校程序将于2022 年9月16日星期五下午4:00 点开始闲话日子中国技术出海,TiDB 数据库海外探索之路 | 卓越技术团队访谈录VR陀螺五一宅家系列(二):元宇宙里看了场NBA,体验前排观赛视角mmmtoys大本蝙蝠摩托:双比例版本,可配6寸/12寸蝙蝠侠![摄影] 徕卡Apo-Summicron 50mm f2 ASPH(50 2AA)开箱ICML 2022 | 关注AI技术的你,快来查收这份机器学习前沿论文精选!冠军说 | 2022年“贝恩杯”双冠军的幕后故事【妈妈分享】睡觉还分类型?我孩子爱晚睡,竟然是它搞的鬼!20090110关于技术分析的个人观点这群极客,在地下参加了一场「机器人死亡挑战赛」不谈政治,谈谈谈政治英国少年数学挑战赛历年真题和答案集锦专访蚂蚁:这群技术排头兵,如何做好底层开发这件事?| 卓越技术团队访谈录[摄影] 温柔透明的50mm:徕卡SUMMILUX-M 50mm F1.4 ASPH.主观使用体验数字娱乐创作团队「OXYZ3」​完成天使轮融资,次世文化独家投资|36氪首发把现实场景搬进虚拟世界,一共需要几步? 技术分享——实景三维重建中国首个男子MMA世界冠军,唐凯!看完苏翊鸣的家庭,才知道冠军早已注定市区B002视频探楼 | 芝加哥Loop唯一拥有360度无敌湖景露台的公寓陆国平教授:2021-2022血脂领域新进展 | OCC 2022
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。