YouKu-mPLUG最大中文视频数据集和Benchmark，助力多模态大型模型发展

2023-06-29 05:06

阿里达摩院发布千万级视频数据集 Youku-mPLUG，这是目前中文社区内最大的、公开的高质量视频-语言数据集。该数据集是从中国著名的视频分享网站优酷中 4 亿视频严格筛选而来，Youku-mPLUG 包含来自 45 个不同类别的 1000 万个高质量中文视频-文本对，是进行大规模多模态预训练的理想数据源。

此外，为了便于对视频-语言模型进行全面评估，达摩院的研究者精心构建了最大的人工标注中文 Benchmark，涵盖了跨模态检索、视频描述和视频分类三个流行的视频-语言任务。Youku-mPLUG 可以帮助研究人员进行更深入的多模态研究，进行公平模型的对比，推动更多下游多模态应用。

达摩院的研究者也发布了在 Youku-mPLUG 数据上预训练的模块化视频 LLM 模型 mPLUG-video，延续了 mPLUG 系列的模块化训练思想，把 LLM 升级为一个视频大模型。在 mPLUG 系列工作中，之前的 E2E-VLP 、mPLUG 、mPLUG-2、mPLUG-Owl🦉 分别被 ACL2021 、EMNLP2022、ICML2023 录用，其中 mPLUG 工作在 VQA 榜单首超人类的成绩。

mPLUG-video 在以上的基准测试中取得了新的 SOAT 结果：在视频分类方面性能提高了高达 23.1%，在视频描述生成任务上的 CIDEr 指标上获得 68.9 的高分。借助于大语言模型 Bloomz 和 GPT-3，mPLUG-video 仅使用 1.7% 的训练参数就可以显著提升对人类指令的和视频内容的理解能力，效果显著好于 video-LLaMA 等大模型效果。

论文链接：

https://arxiv.org/pdf/2306.04362.pdf

代码链接：

https://github.com/X-PLUG/Youku-mPLUG

mPLUG系列工作：

https://github.com/X-PLUG

Youku-mPLUG 中的数据例子如下：

mPLUG-video 对人类指令的和视频内容的理解：

mPLUG-video 可以很好的理解视频的整体语义是“舞蹈视频”以及包含详细的视觉信息，比如“跳跃”和“扭动”等。

mPLUG-video 还能轻松理解广告的内容，指出广告的类型和创作部门。

mPLUG-video 可以准确指出下面视频中的关键角色是“奥特曼”，而其他两个视频大模型明显不能给出准确答案。

YouKu-mPLUG

1.1 现状

虽然视频-语言预训练（video-language pre-training，VLP）取得了显著的进展。但是，与英语 VLP 社区相比（如表格 1 所示），缺乏大规模高质量的公开中文 VLP 数据集阻碍了中文视频-语言预训练模型的研究。此外，中文 VLP 社区还面临着缺乏公开基准测试数据（如表格 2 所示）的问题。

这导致了两个重要问题：首先，该社区的发展和应用已经滞后。其次，一些研究能够通过使用其他研究无法公平比较的秘密下游基准测评获得惊人的性能，从而使得建立性能评估标准变得困难。因此，该工作构建的公开的预训练数据集和评测基准是有重要意义的。

1.2 预训练数据集构建过程

基于严格的安全性、多样性和质量标准，达摩院团队从优酷 4 亿个原始视频中挑选出了 1000 万个高质量的视频文本对。为确保视频的多样性，团队利用视频指纹识别技术去除重复视频。所有视频都经过分层多标签分类模型，被严格划分为 20 个一级类别和 45 个二级类别，如图 2 所示。Youku-mPLUG 涵盖多个领域，各类别分布均匀。

为保证高质量，团队对视频和文本进行了严格的数据清洗。针对文本，要求视频标题长度在 5 到 30 个字之间，而且至少包含 5 个汉字，同时过滤明显的广告和无意义内容。对于视频质量和完整度，团队特别挑选了近期上传的视频，长度在 10 到 120 秒之间，以确保内容清晰完整。此外，还运用了中文图像文本预训练模型 CLIP 来过滤那些特征和图像特征相似度较低的视频。图 3 呈现了视频时长和标题长度的分布情况。

1.3 构造下游任务基准测评

论文使用视频文本检索、视频类别预测和视频描述生成三种类型的下游任务来评估模型在理解和生成方面的能力。表 3 总结了用于这三种任务的统计数据：

视频类别预测（Video Category Classification）

论文开始使用优酷的分类预估模型来给视频自动生成类别，但发现准确率只有 94%，这个结果不太让人满意。因此论文开始使用人工标准的方法，在招聘到一批标记的员工后，首先要对标注员进行筛选，每个标注员会对 100 个视频进行打标，如果错误率达到 2.5% 就判定为不合格。在筛选到合适的标注员后，为了保证最高的准确率，又额外使用了三名标记员来复核每个视频的的标记结果。

视频描述生成（Video Captioning）

视频描述生成任务要求模型能够对视频片段的内容和标题生成一段简洁的描述。研究团队同样根据视频的类别分布随机抽取了大约 8 万个视频，并采用彩色直方图法将视频分割成多个镜头。为了能够准确理解和描述视频内容，研究团队还聘用了多个母语为汉语且受教育程度较高的标注员。每个标注员会被随机分配 25 个视频，并要求他们生成字幕，字幕包括视频的主题和对象，以及相关的动作和背景描述。字幕必须至少包含 15 个汉字。

在预标注阶段结束，标注员会继续对数据进行标注，为了防止数据穿越，同一个视频的片段或者有相似标题的视频会专门分配到训练集或者测试集。此外，研究团队还招募了三个以上的标注员来标注视频片段，用来验证和测试视频的多样性和质量。

视频文本检索（Video-Text Retrieval）

论文从上述已经标注的视频字幕中选择部分子集作为视频文本检索任务的文本 query。此外，视频的标题也会合并到文本 query 中以增强文本 query 的多样性。

mPLUG-video

2.1 模型结构

延续了 mPLUG 系列的模块化训练思想，研究者提出了基于模块化解码器的视频-语言模型 mPLUG-video，如图 4 所示，模型由视频编码器、视觉摘要模块和语言解码器组成。由于预训练的大型语言模型在各种任务上表现出了令人难以置信的零样本和泛化能力，本文使用现成的中文大型语言模型（例如 GPT-3）进行高效的模块化训练。此外，训练过程中冻结大语言模型，仅将视频编码器和视觉摘要模块留作可训练，从而大大减少了可训练参数，同时减轻了计算负担。

具体地，视频编码器使用了 12 层的 TimeSformer。进一步，为了降低长视频序列的计算复杂度，论文引入了视觉抽取模块，它利用可学习的大小为 M×D 的 query 来减少视频序列的长度，其网络结构包括 cross-attention 和 FFN。将预训练的大语言模型作为通用的文本解码器。此时需要将视频看成是外语（video-guidded language），然后将缩减后的视频序列与从文本 embedding 层获取的 token 特征 concat 起来输入到大语言模型中，最后这种视频引导的语言特征会预测输出下一个 token。

2.2 预训练阶段-训练目标

论文用自回归的方式（auto-regressive）的方式训练 mPLUG-video，训练任务为预测下一个词，即模型需要根据给定的视频补全文本，大语言模型的损失函数如下：

2.3 应用到下游任务阶段-训练目标

视频描述自动生成（Video Captioning）

视频描述生成是一种自回归任务。论文在对视频描述数据集进行微调的过程中，训练目标和与预训练目标保持一致。

视频类别预测（Video Category Classification）

视频分类预测任务也可以看成是视频描述生成任务，分类预测任务评估的是预估类别的准确率。

视频文本检索（Video-Text Retrieval）

与 mPLUG-2 不同，mPLUG-video 不能直接应用于检索任务。因此论文将视频-文本对输入到模型中并提取最后一个 token 的特征，然后通过对最后一个 token 应用一个额外的线性层来获取匹配的得分。mPLUG-2 也是达摩院发布的图/文/视频通用的大模型。

实验结果

3.1 下游任务基准测评

从表 4 中可以看到，在视频分类预估任务上 mPLUG-video 的准确率最高，且 mPLUG-video（2.7B）的效果要好于 mPLUG-video（1.3B），这表明一个更大的大语言模型解码器能让效果更上一层楼。在视频描述生成任务上，mPLUG-video（2.7B）也取得了最好的效果，但实际在 mPLUG 数据集上，这些方法依然具有很大的挑战性。

从表 5 中可以看到在视频-文本检索任务上，mPLUG-video 的效果却不如 mPLUG-2，这是因为冻结语言模型的参数会影响 mPLUG-video 提取跨模态特征，这也表明论文发布的 Youku-mPLUG 数据集确实能准确评估视频语言模型的建模能力。

3.2 在zero-shot视频指令理解上的人工评测

为了测试不同模型的视频指令理解能力，论文在 50 个随机采样的视频（45 个来自 Youku-mPLUG，5 个来自 HD-VILA-100M）上手动设置了 65 条指令并要求标注员对每个模型的响应结果进行打分，打分分为 A、B、C、D 四个等级，其中A表示“正确且令人满意”；B 表示“有一些不完美，但可以接受”；C 表示“理解了指令但是回复存在明显错误”；D 表示“完全不相关或不正确的回复”。如图 5 所示，使用预训练的 mPLUG-video 模型在视频指令的响应效果上取得了最好的结果。

参考文献

[1] A. Madasu, E. Aflalo, G. B. Stan, S.-Y. Tseng, G. Bertasius, and V. Lal. Improving video retrieval using multilingual knowledge transfer. In European Conference on Information Retrieval, 2022.

[2] X. Wang, J. Wu, J. Chen, L. Li, Y. Wang, and W. Y. Wang. Vatex: A large-scale, high-quality multilingual dataset for video-and-language research. In ICCV, 2019.

[3] H. Xu, Q. Ye, M. Yan, Y. Shi, J. Ye, Y. Xu, C. Li, B. Bi, Q. Qian, W. Wang, G. Xu, J. Zhang, S. Huang, F. Huang, and J. Zhou. mplug-2: A modularized multi-modal foundation model across text, image and video, In ICML, 2023.

更多阅读