视觉模型+大语言模型：首个支持10K+帧长视频理解任务的新型框架

科学

2023-12-07 05:12

©PaperWeekly 原创 · 作者 | 柴文浩

单位 | 华盛顿大学

主页 | https://rese1f.github.io/

论文链接：

https://arxiv.org/abs/2307.16449v2

代码链接：

https://github.com/rese1f/MovieChat

项目网页：

https://rese1f.github.io/MovieChat/

这篇论文介绍了一种名为 “MovieChat” 的新型框架，旨在解决长视频理解的挑战。MovieChat 通过结合大型语言模型和视觉模型，以及一个特殊设计的记忆机制，来处理长视频中的复杂性、存储成本和长期时序关系问题。这个系统使用 Atkinson-Shiffrin 记忆模型，其中 Transformer 中的 tokens 作为记忆的载体。

MovieChat 在长视频理解任务上达到了前所未有的性能，发布了包含 1K 长视频和 14K 手动注释的新基准 “MovieChat-1K” 来验证其方法的有效性。论文详细介绍了 MovieChat 的架构，包括视觉特征提取、短期记忆和长期记忆模块，以及如何将视频表示输入到大型语言模型中以与用户交互。目前所有的代码和测试结果均已开源，欢迎大家来使用、对比。

▲ Demo Video

Background and Motivation

将多模态性引入大语言模型（LLMs）并将其转化为多模态大语言模型（MLLMs）是一个自然的发展趋势，它能够进行多模态的推理和理解。现有以视觉为中心的 MLLMs 遵循这样一种范式，即利用预训练的 LLMs 和具有额外可学习模块的视觉编码器。

在视频领域，一些先前的工作遵循这一范式构建视频 MLLMs，而另一些工作通过应用程序编程接口（API）结合现有的视觉感知工具（如跟踪和分类）和 LLMs 构建一个无需训练的系统。然而，此前尚未对基于长视频（超过一分钟）的模型或系统进行探索，我们认为计算复杂性、内存成本和长期连接是长视频理解的主要挑战，同时也缺乏一个标准化的基准来评估这些系统的能力。

▲ 图1 MovieChat与当前最先进的视频理解模型的VRAM使用对比

在本文中，我们提出了 MovieChat，这是一个集成了视觉模型和 LLMs 的用于进行长视频理解的新型框架。Atkinson-Shiffrin 记忆模型提出把短期记忆作为长期记忆的缓冲区，将信息编码到长期记忆中。受此启发，我们提出了一种处理长视频理解任务的记忆机制：短期记忆模块使用滑动窗口嵌入密集标记，长期记忆模块定期更新。

如图 1 所示，我们提出的 MovieChat 机制在 VRAM 成本方面优于其他现有方法。我们还发布了一个新的基准，MovieChat-1K，其中包含 1k 个长视频，1k个视频详细描述和 13k 个问答对，用于验证我们提出的 MovieChat 的有效性。

本文的贡献总结如下：

我们提出了 MovieChat，这是一个整合了视觉模型和 LLMs 的创新框架，是第一个支持长视频（>10K 帧）理解任务的框架。
我们提出了一种有效的内存管理机制，旨在降低计算复杂性和内存成本，同时增强长期连接。
我们发布了第一个长视频理解基准，MovieChat-1K，包含手动注释，并进行了广泛的定量评估和案例研究，以评估理解能力和推理成本的可比性。

Method

MovieChat 旨在通过与用户的交互式对话实现对超长视频（>10K 帧）的理解。如图 2 所示，MovieChat 包括逐帧视觉特征提取器、短期和长期记忆模块、视频投影层和大型语言模型（LLM）。

▲ 图2 MovieChat模型总览

2.1 视觉特征提取

对于视觉特征提取，我们选择使用基于图像的模型而不是使用基于视频的基础模型以获取以标记形式呈现的逐帧特征，这主要是因为 1）现有的视频基础模型与文本对齐不够良好，以及 2）我们提出的记忆机制可以有效捕捉时间特征。给定一个原始视频，视觉输入是从视频中采样的大小为的个 RGB 帧的序列。为了解决同时在 GPU 内存和 RAM 中存储大量帧的存储需求不切实际的问题，我们采用了滑动窗口方法来高效处理视频：

其中，表示滑动窗口获取的包含帧的第个视频片段的特征。是视觉特征提取器，将单个帧作为输入，表示每个帧提取的个视觉标记，其中是每个标记的特征维度。

2.2 短期记忆

短期记忆将帧的标记存储在一个临时的固定长度缓冲区中，通过滑动窗口次构建短期记忆，代表短期记忆，等于：

短期记忆的更新策略基于先进先出队列（FIFO）。当新的视觉标记进入时，如果短期记忆缓冲区满，我们将当前存储的帧弹出到记忆压缩模块，并清除短期记忆缓冲区。得到的压缩记忆被存入长期记忆的同时初始化短期记忆缓冲区。初始化的目的是在不同滑动窗口之间传递信息，从而实现更高效的压缩。

2.3 长期记忆

长期记忆能够有效避免灾难性知识遗忘的问题，这对处理长视频理解任务至关重要。短期记忆中存储的特征是密集的标记，但由于 GPU 内存和计算成本的限制，将从短时记忆中丢弃的所有标记存储到长期记忆缓冲区中是不可行的。此外，我们观察到视频中存在显著的时间冗余，例如，事件跨越多个帧，但视觉变化很小。为此，我们提出了一种方法，将密集标记转换为稀疏记忆，简化视频特征表示并加速视频编码。

▲ 算法1 记忆压缩

具体而言，如算法 1 所示，我们通过定期按照 ToMe [12] 的方法合并相邻帧中最相似的标记来进行内存整合，个嵌入标记的平均余弦相似性计算如下：

我们的目标是在每次合并操作后保留 RL 帧，嵌入存储在长时记忆中的丰富信息。是用于控制性能和效率之间权衡的超参数。我们通过加权平均整合每组相邻帧中相似度最高的帧，迭代合并直到令牌计数达到预设阈值，从而产生输出视频特征。尽管帧相似性计算带来了额外的计算开销，但与减少存储帧所获得的效率相比，它是可以忽略的。

位置编码扩展

对于长期记忆，我们遵循 BERT 的位置编码机制，但标记数量超过了预训练模型位置编码的最大长度，导致其中超过长度阈值的部分没有可用的位置编码。为了处理足够长的长期记忆，我们采用了 Su 等人提出的分层分解位置编码方法，该方法允许将长度为的绝对位置编码扩展到

2.4 推理

以前的方法总是使用整个视频的表示来进行理解和问答，这可能在特别是在长视频中定位特定时刻时失败。MovieChat 支持两种推理模式：断点模式用于理解视频中的特定时刻，基于该特定帧或场景提供见解和答案；全局模式则用于整体理解整个视频，实现对整体内容和上下文的全面理解。

在全局模式下，我们仅使用长时记忆作为视频表示。对于断点模式，我们不仅需要考虑直接与存储在短时记忆中的时刻相关的信息，还需要考虑间接与之相关的存储在长时记忆中的信息。基于这一点，我们假设在特定时刻查询视频时，视频表示应该是、和当前视频帧特征的聚合。

随后，视频表示在输入 LLM 之前经过 Q-former 和线性投影层处理，可以表示为：

其中 P 是从视觉空间到文本空间的投影。A 表示答案或指令，而 Q 则分别用于表示问题。

A New Benchmark:MovieChat-1K

以前关于构建长视频理解基准的工作要么专注于非问答任务，要么缺乏对长篇理解的评估 [31]。为了更好地评估 MovieChat 的性能，我们收集了一个新的长视频理解任务基准，MovieChat-1K，其中包含了来自各种电影和电视系列的 1K 个高质量视频剪辑，拥有 14K 个手动注释。

▲ 图3 MovieChat-1K视频文本统计信息

我们从 15 个流行类别中收集视频，每个视频都包含多个交替出现的场景，为集合的上下文中提供了多样且动态的视觉叙事。超过 90% 的视频持续时间在 10K 到12K帧之间，而 14.6% 的视频持续时间超过 12K 帧。

▲ 图4 MovieChat-1K回答、视频描述词云

对于每个视频，我们手动设置并提供了整个视频的 1 个密集字幕，为全局模式提供了 3 个问答对，为断点模式提供了带有时间戳的 10 个问答对。由于 MovieChat-1K 专门设计用于长视频理解任务，大多数问题都是开放式的，只有四分之一被分类为多选题，由诸如 “Do”、“Does”、“Is” 或 “Are” 等引导词标记。

我们还提供了问答对中的回答、密集描述文本的词云图。大约三分之二的视频片段描述文本长度在 100-149 之间，约 11% 的视频片段对应的描述超过 150 字。经过 NLTK 的分析， MovieChat-1K 包含与 WebVid10M 数据集几乎相同数量的动词。

Experiments

4.1 Quantitative Evaluation

短视频问答

我们使用 MSVD-QA 、MSRVTTQA 和 ActivityNet-QA 进行短视频问答任务评估。与先前的方法相比，即使 MovieChat 并非专门为短视频问答任务设计，它仍然取得了可比较的性能。在此基础上，我们采用了 GPT 辅助评估，对 MovieChat 和先前方法在处理后的 ActivityNet-QA 上的文本生成性能进行了更全面的比较并在所有关键方面都表现出竞争力。

长视频问答

我们评估了 MovieChat 在我们提出的 MovieChat-1K 上的长视频问答性能。我们将 1,000 个视频分为训练集（800）、测试集（100）和验证集（100），仅使用测试集进行最终性能评估。我们选择了三种最近基于 LLM 的视频理解模型（Video Chat、Video LLaMA 和 VideoChatGPT）作为基线。然而，这些方法都不能支持如此长的视频（>10,000 帧）。因此，为了适应其在全局问题中的长度限制，我们从原始视频均匀采样，直到达到每个模型

达到官方支持的最大帧数。对于断点问题，我们在断点前后各扩展一半的最大帧数（即将断点放置在中心帧）。

为了增强结果的稳健性，我们同时采用 GPT-3.5 和 Claude 作为 LLM 助手，并额外添加人类盲评，将三者结果取平均作为最终结果。我们观察到在以前的 LLM 辅助评估方法中，用于视频问答任务的准确性和相对分数之间存在差异。然而，仅仅调整 LLM 的提示不能有效解决这个问题。因此，在从 LLM 辅助评估方法中获得准确性和分数后，我们实施手动过滤以删除具有不一致值的结果，从而提高我们结果的可靠性。

与先前的方法相比，MovieChat 读取了更多的视频帧。在全局模式和断点模式下，我们的方法都保持了性能优势。此外，我们比较了 MovieChat 和先前方法在 MovieChat-1K 上的长视频问答中生成的答案质量。结果表明，我们的方法在视频内容变得更加广泛的情况下仍然能够生成更高质量的答案。

4.2 Ablation Study

我们基于 MovieChat-1K 数据集进行了一系列超参数消融实验，包括记忆缓冲的长度、压缩长度以及短期记忆初始化的策略。当这四个参数显著变化时，MovieChat 的性能下降，显示了我们经验选择的超参数的有效性。

随着记忆缓冲长度的增加，从视频中获取的信息也扩展，而在固定的压缩长度下，细节信息的丢失加剧。此外，使用合并的标记进行短期记忆初始化优于选取最后几个标记或均匀采样。此外，合并标记的长度和记忆缓冲大小共同影响 MovieChat 的性能。更多消融实验与分析详见论文。

4.3 Case Study

我们对 MovieChat 进行了广泛的案例研究，涉及各种开放式长视频，包括断点模式和全局模式的长视频问答。对于断点模式，我们标记了问题提出时的时间戳。对于超过 10,000 帧的长视频，MovieChat 仍然能够对有关当前时刻和整个视频内容的问题提供出色的响应，同时减少了幻觉情况。

Limitation

尽管 MovieChat 在长视频理解方面表现出色，但它仍然是一个早期的原型，存在一些局限性，包括：1）有限的感知能力。MovieChat 的性能受到预训练的短视频理解模型的限制。2）时间处理不足。MovieChat 仅提供对长视频中事件持续时间比例的粗略估计，缺乏对时间细节的精确处理。

Conclusion

总的来说，我们提出了一种创新的视频理解系统，将视频基础模型与大型语言模型整合在一起。通过在 Transformers 中引入由标记表示的记忆机制，我们提出的系统 MovieChat 克服了分析长视频所面临的挑战。MovieChat 在长视频理解方面取得了最先进的性能，超越了现有系统仅能处理帧数较少的视频。

更多阅读