Redian新闻
>
AAAI 2023 | 基于实体和动作时空建模的视频文本预训练

AAAI 2023 | 基于实体和动作时空建模的视频文本预训练

公众号新闻

论文名称:STOA-VLP: Spatial-Temporal Modeling of Object and Action for Video-Language Pre-training

论文作者:钟蔚弘,郑茂,唐都钰,罗玄,龚恒,冯骁骋,秦兵 

原创作者:钟蔚弘

论文链接:https://arxiv.org/pdf/2302.09736.pdf

出处:哈工大SCIR

进NLP群—>加入NLP交流群

摘要

尽管常见的大规模视频-文本预训练模型已经在很多下游任务取得不错的效果,现有的模型通常将视频或者文本视为一个整体建模跨模态的表示,显示结合并建模细粒度信息的探索并不多,本文提出了STOA-VLP,一种时间和空间维度上同时建模动态的实体和动作信息的video-language预训练框架,以进一步增强跨模态的细粒度关联性。

简介

细粒度的信息对于理解视频场景并建模跨模态关联具有很重要的作用。如图1-a中:基于视频生成对应的视频描述,需要关注其中的人、狗两个实体,随着时间的推移,两个实体之间的相对状态和空间位置发生了变化,模型需要对动态的实体信息和实体之间的交互进行建模,才能正确地生成对应的视频描述。更进一步地,如图1-b中:在同一个视频片段当中,视频中的实体,如猴子和猫之间的不同交互产生了多个不同的动作状态,而问题就是针对相关联的动作提出的,模型不但需要建模视频片段中的多个动作,感知动作状态的变化,还需要推理出动作状态之间的关联才能得到正确的答案。

图1:例子

在本文中,我们提出了一个视频-文本预训练方法——STOA-VLP,通过显式地建模时序相关的实体轨迹和多个时空动作特征来更好地应对视频中实体的动态变化和实体交互。此外,我们设计了两个辅助预训练任务:实体-文本对齐(object text alignment, OTA)任务和动作集合预测(Action Set Prediction, ASP)任务以在与训练阶段利用文本特征辅助建模前述的实体轨迹和动作特征。

方法

图2:模型整体架构

模型架构

模型的整体架构如图2左侧所示,模型整体结构包括模态相关编码器:视频编码器(Video Encoder)、文本编码器(Text Encoder)、和一个模态无关编码器(Modality-agnostic Fusion Encoder),文本和视频分别经过视频和文本编码器进行特征抽取。为了显式地建模动态的实体轨迹和时空动作特征,我们引入了两个新的特征编码器:实体轨迹编码器(Object Trajectory Encoder)和时空动作编码器(Spatial-Temporal Action Encoder),我们从视频帧中抽取实体的边界框(bounding box)信息,其中的实体bounding box、分类信息用于与视频特征结合生成对应的实体有噪标注,作为实体轨迹编码器和时空动作编码器的输入。最终,四个模态相关的编码器抽取的特征会同时进入模态无关编码器进行信息融合交互。所有的编码器都采用Transformer[1]结构。我们利用视频编码器和文本编码器分别得到对应的视频、文本特征,其余各模块的具体介绍如下:

  • 实体轨迹编码追踪器:正如前文例子所示,如果模型不能很好地建模视频帧之间实体的动态变化,在下游任务上可能无法获得最好的效果。因此,我们通过建模跨视频帧的有噪实体轨迹来解决这个问题:a. 使用离线的实体检测模型(VinVL[2])分别对每一帧进行实体检测。b. 每帧保留Top-K个不同的实体,并且留下其候选框和类别,通过RoIAlign方法[3] 得到top-K个实体的表征:为视频编码器编码的视频特征的块(patch)级别的表征。c. 通过求和不同帧的候选实体检测分类置信分数,选取top-N个实体类别用作视频级需要建模轨迹的候选实体类别 d. 我们将不同视频帧抽取得到的实体特征拼接,并合并时间和实体维度,得到对应的实体特征,针对步骤d中得到的Top-N实体类别,我们为每个类别构造一个mask ,mask位置为1,代表中对应位置的实体特征类别为。通过实体类别的mask和实体特征矩阵,我们能够掩码得到对应实体在不同帧的特征合成的特征轨迹,称之为实体轨迹序列。e. 对于每个视频,我们最终能够构造得到N个实体轨迹序列,我们将其输入实体轨迹编码器,最终取位置的特征,得到实体轨迹特征
  • 时空动作编码器:识别视频片段中动作的关键是,识别场景中的实体,并建模实体在视频场景中的移动和不同的交互。在此,我们显式建模多个动作特征,以捕捉视频片段中不同的动作信息。a. 我们假设视频片段中包含有M个不同的动作,为了获得每个动作的特征,我们构造M个动作特征请求(query),。b. 我们使用前述通过视频编码器和实体检测模型得到的视频特征和对应的实体表征,拼接得到包含场景和实体信息的视频特征。c. 我们利用动作特征query,通过注意力机制获得帧级别的动作特征线索:。d. 我们将每个动作特征序列输入到时空动作编码器当中,来建模不同帧之间包含的时序线索,最后,我们得到的动作特征编码。
  • 模态无关交互编码器:通过拼接上游四个步骤的特征:视频表征、文本表征、实体轨迹特征、时空动作特征输入对应的编码器进行进一步的交互,最后,我们取位置的输出作为视频和文本的整体表征。

训练目标

如图2所示,STOA-VLP的预训练过程包含四类训练目标:视频-文本对齐任务、条件语言建模任务,以及我们提出的两个辅助任务——动态实体-文本对齐(Dynamic Object-Text Alignment, OTA)和时空动作集合预测(Spatial-Temporal Action Set Prediction, ASP)。我们利用视觉-文本对比学习任务(Visual-Text Contrastive, VTC)和视觉-文本对齐任务(Visual-Text Maching)建模视频-文本的粗粒度对齐。利用掩码语言建模(MLM)和前缀语言建模(PLM)来增强模态无关编码器的语言理解和生成能力。为了进一步提升实体轨迹追踪编码器的效果,建立细粒度的跨模态对齐表示,我们通过OTA任务对齐候选实体轨迹和文本中相关文本,以进一步提高通过视频特征得到的实体轨迹和文本特征的相关性:

  1. 通过词性标注工具,抽取文本中的名词用作对齐候选,并使用对应的文本编码器输出对应的名词特征
  2. 使用轨迹追踪编码器输出的轨迹特征和名词特征的相似度为他们之间的关联权重
  3. 最终使用匈牙利算法[4]得到二分图的最大匹配,模型的目标是尽力提高最大匹配的相似度相比于利用抽取得到的特征直接预测有限的动作类别,我们在这里选择了一种更弹性的方法——从匹配文本中的动词集合中预测对应于当前动作特征的类别,以指导时空动作编码器的学习:
  4. 我们利用词性标注工具和文本编码器得到对应的动词特征集合
  5. 我们并不能直接标注视频中包含的动作类别,也无法知道编码得到的动作特征和文本中包含动作的对应关系,因此我们同样在这里通过动作特征和文本动词特征之间的相似度作为关联权重,并将最大匹配视为当前的ground truth匹配关系,并最大化最大匹配的相似度:通过优化该目标,比我们编码的动作特征和文本中的动词特征距离将被拉近,动作编码器能够生成和文本特征更相关的特征。

实验

实验细节

我们在WebVid-2M[5]数据集上进行模型的预训练,WebVid-2M包含了250万个从网络中收集的视频-文本对。我们利用CLIP-ViT-B/16[6]初始化我们的视频编码器,并用其顶层参数初始化实体轨迹编码器和时空动作编码器。文本编码器和模态编码器由CLIP文本编码器的前6层初始化。实体轨迹编码的数量为20,动作特征的个数为4。

下游任务

我们在三类常用的视频-文本理解和生成任务上进行了实验:视频描述生成,文本-视频检索和视频问答。

表1:视频描述生成的实验结果

在使用更少的视频-文本预训练数据的情况下,我们的模型在视频描述生成上得到了更好的结果,在多数指标上都超过了其他的模型。通过显式地建模基于文本信息对齐的实体轨迹和动作信息,模型能够更好地利用其进行视频描述生成。

表2:文本-视频检索的实验结果

如表2所示,我们的模型在检索任务上的所有指标都超过了未基于CLIP初始化的模型,并且在大多数指标上均超过了基于CLIP初始化的模型。

表3:视频问答的实验结果

如表3所示,在视频问答任务上,我们的模型仅使用了2.5M的预训练数据,超越了MSVD-QA上的所有其他方法。与之前的SOTA,MSVD-QA的性能提高2.9%,MSR-VTT-MC的性能提高1.4%。我们推测,通过显式地建模实体轨迹和动作,在问题和视觉特征之间建立了更好的对齐,并观察和利用视频中的细粒度信息来更好地回答文本问题。

消融实验

表4:不同模块的消融实验

我们进一步分析了我们引入的时空特征和辅助任务的影响,并在视频描述生成和视频问答两个任务上验证,这两个任务在本质上需要更细粒度的信息和对视频场景时空信息的理解。Base模型删除了所有时空建模模块和辅助建模任务。与Base模型相比,仅仅引入基于时序的实体轨迹信息就可以为所有任务带来改进。我们的OTA任务进一步构建了实体轨迹和名词之间的细粒度对齐,文本模态的指导进一步提升了模型在下游任务当中的表现。我们还发现,不引入辅助任务ASP的情况下,添加一个时空动作建模模块引入时空动作token会使得下游任务的部分指标更差。我们认为,这可能是因为视频描述生成和视频问答任务需要对视觉部分进行细粒度的语义理解,如果没有ASP任务的指导,我们抽取的动作特征的含义是模糊的,其导致了性能下降。最后,连同我们提出的时空模块和两个辅助任务,我们在下游任务上取得了最好的结果,表明我们引入的细粒度时空信息和辅助任务能够提升预训练模型在下游任务的能力,一定程度上缓解了前述的问题。

结论

在本文中,我们通过在视频-文本预训练的过程中显式建模细粒度的时空特征来更好地构建跨模态的对齐。我们提出的STOA-VLP引入了两个新的模块,在时空维度上建模实体轨迹和动作特征。我们设计了两个辅助任务来建立由粗到细的跨模态对齐。仅仅使用中等规模的与训练数据,我们在下游任务上就观察到了较好的表现,该方法进一步增强了视觉特征和文本特征之间的关联性。

参考文献

[1] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.

[2] Zhang P, Li X, Hu X, et al. Vinvl: Revisiting visual representations in vision-language models[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021: 5579-5588.

[3] Herzig R, Ben-Avraham E, Mangalam K, et al. Object-region video transformers[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022: 3148-3159.

[4] Kuhn H W. The Hungarian method for the assignment problem[J]. Naval research logistics quarterly, 1955, 2(1‐2): 83-97.

[5] Bain M, Nagrani A, Varol G, et al. Frozen in time: A joint video and image encoder for end-to-end retrieval[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 1728-1738.

[6] Radford A, Kim J W, Hallacy C, et al. Learning transferable visual models from natural language supervision[C]//International conference on machine learning. PMLR, 2021: 8748-8763.

本期责任编辑:冯骁骋
本期编辑:杨   昕



进NLP群—>加入NLP交流群


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
看看Stanford’s 2023 surgical team的组成,有些出乎意料马腾宇团队新出大模型预训练优化器,比Adam快2倍,成本减半美制裁中国实体和个人,商务部回应冷却的不止季节(41)— 丧葬费刀法招聘|活动策划负责人、行业分析师、内容运营、视频文案/编导等4个岗位热招中,快来加入我们吧!遥思龙泉桃花宴国际要闻简报,轻松了解天下事(03ACL 2023 | 达摩院、NTU提出多视图压缩表示,显著提升预训练语言模型鲁棒性从零训练一个多模态LLM:预训练+指令微调+对齐+融合多模态+链接外部系统ICML 2023 | 轻量级视觉Transformer (ViT) 的预训练实践手册国际要闻简报,轻松了解天下事(03北京内推 | 腾讯微信事业群招聘NLP算法工程师/预训练模型加速工程师XTREME榜单第一,多粒度对齐的多语言预训练模型VECO 2.0650亿参数大模型预训练方案开源可商用!LLaMA训练加速38%,来自明星开源项目CVPR 2023 | 可扩展的视频基础模型预训练范式:训练出首个十亿参数量视频自监督大模型澜舟科技招聘:社招全职与实习,NLP算法(预训练/信息抽取/机器翻译)等方向贼喊捉贼式的新疆指控,让人出离愤怒QUERT:基于旅行搜索领域Query理解的预训练语言模型KDD 2023 | 第四范式开发用于分子性质预测的生成式3D预训练模型传特斯拉提议在印度建厂;腾讯一季度营收增长 11%;北京拟整合现有开源中文预训练数据集 | 极客早知道我和聊天机器人(AI)对话ICLR 2023 | 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究CVPR 2023|无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA国际要闻简报,轻松了解天下事(03第四范式开源强化学习研究通用框架,支持单智能体、多智能体训练,还可训练自然语言任务!训练速度提升17%VALSE 2023 | 左旺孟教授:预训练模型和语言增强的零样本视觉学习OpenAI文本生成3D模型再升级,数秒完成建模,比Point·E更好用零门槛复现ChatGPT:预训练模型数据集直接用,包含完整RLHF流程,在线可体验CVPR 2023 | G2SD: 让小模型也能从自监督预训练中受益的蒸馏方法CVPR 2023 | 基于动作元对比学习的无监督骨架动作识别2022&2023 Subaru Outback 和 2023 Honda CRV Hybrid二选一美国再次制裁中国实体和个人,中使馆回应!比Adam快2倍!斯坦福提出Sophia:大模型预训练新优化器,成本减半!北京/深圳内推 | 华为云招聘多模态预训练方向研究型实习生基于5G网络的视频远程操控应用实践——低延迟视频技术及应用​ACL 2023 | AD-KD:归因驱动的预训练语言模型知识蒸馏框架又见桐花开美国大学视频文书是什么?有什么录制技巧吗?ACL 2023 | 复旦邱锡鹏组提出模块化Prompt多任务预训练,可快速适应下游任务Gzip+ kNN文本分类竟然击败Transformers:无需预训练、14行代码实现
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。