Redian新闻
>
还得是抖音,字节推出竖屏视频理解数据集,入选CVPR2024

还得是抖音,字节推出竖屏视频理解数据集,入选CVPR2024

公众号新闻

机器之心专栏

机器之心编辑部


短视频在当下社交媒体逐渐成为主导的视频格式。传统视频处理技术和研究一般都专注于横屏视频的理解和解析,而竖屏视频因其拍摄手法和内容重点不同,展示出与横屏视频数据不同的特性。


针对这一不同,字节跳动技术团队发布了专注于竖屏视频理解的数据集,提出了多个针对竖屏视频处理的技术点以及一个初始方案。这项研究对准确的竖屏视频理解和基础技术架构有较为重要的意义,论文已入选 CVPR2024。


视频 demo 展示、数据特性演示以及竖屏视频类别分类,请见 https://mingfei.info/PMV



论文地址:https://arxiv.org/abs/2312.13746


视频分类作为基础的计算机视觉技术,对视频内容的分类、特征提取,以及推荐等有着重要的作用。竖屏视频是目前社交媒体平台上主导的短视频格式,受到用户的广泛青睐。而竖屏的视频分类技术在目前的研究中鲜有关注,为了激发这一领域的研究,团队提出了一个专用的数据集 PortraitMode-400,包含真实的视频数据和 400 个结构化的类别标签。


进一步,通过自建数据和公开数据子集实验,团队初步展示了横屏数据和竖屏数据之间的不同,和独特的先验分布,并针对不同的技术点进行实验,提出了针对竖屏视频处理的技术方案。



团队首先从公开数据 Kinetics-700 中抽取包含竖屏视频数量的子集 S100-PM,并对应的抽取同等数量的横屏视频得到 S100-LM。团队分别在 S100-PM 和 S100-LM 上训练两个相同的模型(不含任何预训练),并在相同的测试集上进行公平测试,以观察竖屏和横屏视频所含的不同数据特性。


如下方所示,以上半为例,团队将 S100-PM 训练的模型在竖屏测试集上做滑窗测试(16x9 个不重叠的均匀分布的滑窗)得到 Probing-P,同样的可以得到 S100-LM 训练模型的测试结果 Probing-L。为了观察 S100-PM 模型对 S100-LM 模型的优势,团队做差值图得到 c 图,黄色框 1 表示此位置竖屏训练的模型以大于 9 个点的差值显著优于横屏训练的模型。同样的,团队可以得到下半所示的差值图,S100-LM 训练模型在横屏中下区域的准确率低于 S100-PM 训练模型。


可以观察得到,在确保所有训练和测试条件一致的情况下,训练数据的不同带来准确率空间分布上的显著差异,而且差值呈哑铃状分布。



横屏与竖屏视频的不同,说明竖屏视频是一种不同于以往数据的新视频格式,有着不同的数据特性。为了进一步推动领域研究,团队提出了数据集 PortraitMode-400,通过自底向上的方式综合大量的热门搜索词,人工筛查和提取得到 400 个包含显著动作内容的类别集合,涵盖从饮食运动到休闲娱乐等等领域。每个类别包含至少 100 个公开的竖屏视频链接,并已通过人工审查的方式确保数据的高质量可用。



此外,团队还真对竖屏视频数据的不同特性进行实验,以期提出一套合理有效的技术方案。为此,团队利用不同的模型类别,如 CNN(X3D)、Transformer(MViT v2)、Hyrid-Transformer(Uniformer)在竖屏数据上进行广泛实验。团队发现,与传统横屏数据处理相比,竖屏数据对数据预处理有着不一样的倾向。


如下图上半所示,在 CNN 模型下倾向于 Inception-style 方案,而在 Transformer 类模型下倾向于 shorter-side resize 方案。进一步的,团队发现更好的保持原始视频在训练时的长宽比,可以在同等测试条件下获得更好的准确率。


如下半所示,随着采样框长宽比增大,Transformer 类模型表现逐渐增强,而 CNN 模型表现相反。这些实验现象表明了,竖屏数据不同于横屏数据的特性;提供了不同模型架构下的训练偏好设置。




最后,团队还在时间信息显著性、音频模态重要性等方面进行了实验。发现时间信息的加入和音频模态的引入,都可以对竖屏数据的准确率带来不小的提升,展示了在相关领域的研究空间和可能性。



应用落地和展望


视频分类作为基础的计算机视觉技术,对视频内容的分类、特征提取,以及推荐等有着重要的作用。针对竖屏视频的专门研究可以进一步推动相关技术的发展,增强内容推荐等关键能力,进一步激发竖屏领域的其他类型研究,如生成等。





© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作大三本科生在CVPR 2024上发表论文!CVPR 2024 | OmniParser:统一图文解析模型:文字检测识别、视觉信息抽取和表格识别春节在美国:到底是“中国新年”还是“农历新年”?CVPR 2024 | 零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步CVPR 2024 | 港理工联合OPPO提出统一且通用的视频分割大模型阿尔特曼称GPT-5提升超想象;库克在中国首谈生成式AI;字节推出视频生成新模型丨AIGC大事日报字节发布视觉基础模型ViTamin,多项任务实现SOTA,入选CVPR2024CVPR 2024 | DrivingGaussian:环视动态自动驾驶场景重建仿真CVPR 2024 | 中科大&微软提出:迈向更统一的上下文视觉理解CVPR 2024满分论文,英伟达开源BOP排行榜6D物体姿态第一名方法王友琴:北京师范学院15位文革受难者,目前只找到5位:张牢,易佩恒,孙梅生,李莘 ,张天泳CVPR 2024 | 面部+肢体动画,一个框架搞定从音频生成数字人表情与动作CVPR 2024 | SAM-6D:分割一切遇见零样本6D位姿估计CVPR 2024 | 更高效、更准确的拖拽编辑 Drag Your Noise精度最高降幅60%!SOTA只是假象?CVPR 2024为你揭示CLIP和LLaVA-Next等模型“骗局”!回顾从哈耶克开始的英美新自由主义水中月芽CVPR 2024 | 通过细粒度人类反馈对齐数据,提高多模态大模型可信度CVPR 2024 | COCO数据集升级!字节提出新一代数据集COCONutCVPR 2024 中科院自动化所36篇入选!新主干/多模态/3D视觉/自动驾驶等全都有!CVPR、AAAI、ICLR 2024优秀论文!CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术库克:Vision Pro 很快将在中国上市;雷军不再主讲小米手机发布会;字节推出一站式 AI 开发平台|极客早知道CVPR 2024 | 和马赛克说拜拜!华为、清华等提出基于认知的万物超分大模型Chanticleer花园,呼唤春天CVPR 2024 | E2STR:基于多模态上下文学习构建的自进化文本识别模型CVPR 2024|生成不了光线极强的图片?微信视觉团队有效解决扩散模型奇点问题Mamba再下一城!VideoMamba:高效视频理解的状态空间模型CVPR 2024 | 北大提出HoT:高效3D人体姿态估计新框架CVPR 2024 | 北大&电子科大提出RCBEVDet:毫米波雷达-相机多模态的感知架构CVPR 2024 Workshop "非接触健康监测",邀你来投稿!CVPR 2024|文本或图像提示精准编辑 3D 场景,美图&信工所&北航&中大联合提出 3D 编辑方法 CustomNeRFCVPR 2024 | 闻声识人黑科技!从音频中想象出说话人脸,FaceChain团队出品CVPR 2024 | 让视频姿态Transformer变得飞速,北大提出高效三维人体姿态估计框架HoT
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。