国际科技财经博客移民网络热点娱乐民生时事公众号

>

首个多模态视频竞技场Video-MME来了！Gemini全面超越GPT-4o，Jeff Dean连转三次

首个多模态视频竞技场Video-MME来了！Gemini全面超越GPT-4o，Jeff Dean连转三次

公众号新闻

2024-06-28 06:06

新智元报道

编辑：alan 好困

【新智元导读】近日，首个多模态LLM视频分析综合评估基准Video-MME诞生！在这场全新的考试中，Gemini 1.5 Pro一路遥遥领先，谷歌首席科学家Jeff Dean更是愉快地连续转了3次推。

大模型性能哪家强？GPT-4一家常霸榜。

基准测试全擅长，竞技场上见真章。

不过近日，谷歌的Gemini终于扬眉吐气了一把，在全新的、更复杂的多模态考试中大获全胜，全面超越了GPT-4o。

Jeff Dean表示：已阅，很赞。

这就是来自中科大，厦大，港大，北大，港中文和华师大的研究者联合奉献的，世界上首个多模态LLM视频分析综合评估基准——Video-MME。

论文地址：https://arxiv.org/pdf/2405.21075

项目地址：https://video-mme.github.io/

在前往AGI的道路上，多模态大语言模型（MLLM）显然成为当前的焦点。

不久前出世的GPT-4o，就在多模态的表现上技惊四座；同时，偏爱谷歌「双子座」的网友也不在少数。

不过之前的相关基准测试，主要关注LLM在静态图像理解方面的能力。

而对于现实世界来说，处理连续视觉数据，也就是视频的能力，是至关重要的。

Video-MME是有史以来第一个为视频分析精心设计的，综合多模态基准测试，帮助我们全面评估MLLM捕捉现实世界动态性质的能力。

Video-MME涵盖了广泛的视觉域、时长和数据模式，包括900个视频，总时长256小时，还人工注释了2700个高质量的问答对（多项选择题，每个视频3个）。

下图是其中一个例子：

准确回答该问题需要同时从视频帧、字幕or语音中同时获取信息，并且信息直接的跨度达30分钟

在时间维度上，Video-MME中收集了各种不同时长的视频。

包括短视频（< 2分钟）、中视频（4分钟~15分钟）和长视频（30分钟~60分钟），总体时长从11秒到1小时不等。

从视频类型多样性来看，Video-MME跨越了6个主要视觉领域：知识、影视、体育比赛、生活记录和多语言，包含有30个子领域，以确保广泛的场景泛化性。

在数据模式的广度上，Video-MME整合了视频帧以外的多模态输入，包括字幕和音频，以评估MLLM的全方位能力。

此外，Video-MME中所有数据都是由人类新收集和标注，而不是来自任何现有的视频数据集，以确保数据的多样性和质量。

研究人员使用Video-MME，对各种最先进的MLLM进行了基准测试，包括GPT-4V、GPT4o和Gemini 1.5 Pro，以及开源图像模型InternVL-Chat-V1.5和视频模型LLaVA-NeXT-Video等。

实验表明，Gemini 1.5 Pro是目前性能最高的商用MLLM，平均准确率为75%，GPT系列的最好成绩是GPT-4o的71.9%。

相比之心，开源MLLM仍有巨大差距，表现最好的VILA-1.5以及LLaVA-NeXT-Video的总体准确率分别只有59和52%，开源社区还有相当大的提升空间。

此外，通过将输入扩展到多帧图像，Video-MME也可用来评估基于图像的MLLM，例如Qwen-VL-Max和InternVL-Chat-V1.5。

两种模型的准确度均达到51%左右，接近视频专用模型LLaVA-NeXT-Video，这表明图像理解是视频理解的基础，所以Video-MME在MLLM评估领域具有广泛的适用性。

下面，换个视角，看看这些MLLM在不同任务类型下的表现：

——Gemini 1.5 Pro 最终还是压制住了 GPT-4o!

我们再把Gemini 1.5 Pro单独拉出来开个小灶，详细给出不同视频时长和不同视频类型下的评估结果：

通过对上表的进一步观察，我们还可以发现，整合字幕和音频可以显著增强LLM的视频理解能力。

Gemini 1.5 Pro在加入字幕和音频之后，准确度分别提高了6.2%和4.3%，长视频则更为明显。

对任务类型的细粒度分析表明，字幕和音频对于需要大量领域知识的视频特别有益。

当然了，随着视频长度的增加，MLLM性能普遍下降，所以处理长视频仍然是件困难的事情。

下面给出Gemini 1.5 Pro在不同视频子类型上的评估结果，包括天文学、技术、纪录片、新闻报道、电子竞技、魔术表演和时尚等30个子类别。

Video-MME

数据集构建

Video-MME的数据集构建过程包括视频采集、问答对标注、质量审核三个步骤。

视频采集

为了全面覆盖不同的视频类型，研究人员创建了一个域层次结构，用于从网络上收集原始视频。

首先定义6个关键领域：知识、电影和电视、体育比赛、生活记录和多语言。

每个领域进一步划分为详细的标签，例如体育比赛包含足球和篮球，从而产生总共30个细粒度的视频类。

对于每个类型，收集不同持续时间的视频：短视频（少于2分钟）、中视频（4-15分钟）和长视频（30-60分钟）。

此外，还会获取相应的元信息，例如字幕和音频，用于进一步研究。最终的数据集由900个视频组成，这些视频跨越各个领域，持续时间长度相对平衡。

问答标注

在收集原始视频数据后，研究者对以问答对的形式对其进行注释，以评估MLLM在解释视频内容方面的熟练程度。

这里采用多项选择题的QA格式，参与标注的作者都精通英语，在视觉语言学习方面具有丰富的研究经验。

标注者通过反复观看视频来提出3个相关的问题，每个问题有4个潜在选项。这2700个QA对包含12种任务类型，比如感知、推理和信息概要。

质量审核

为了保证数据集的质量，作者还进行了严格的人工审查流程。

首先，指派不同的标注者来检查每个QA对，确保语言表达正确且明确，以及问题可回答（候选选项和正确选项都是合理的）。

此外，为了确保问题足够具有挑战性，要求多模态模型看了视频才能回答，研究人员向Gemini 1.5 Pro提供了纯文本问题，并过滤掉可以仅根据文本问题回答的QA对。

最后，Gemini 1.5 Pro在仅使用文本提问的情况下，准确率低于 15%。

数据集统计

视频和元信息

Video-MME总共包含900个视频、713个字幕和869个音频文件。

从任务类型的分布来看，较短的视频主要涉及与感知相关的任务，例如动作和物体识别。相比之下，较长的视频主要以与时间推理相关的任务为特色。从下表中可以看到，Video-MME的有效时长（Certificate Length准确回答问题所需的时间跨度）非常长，表明了其挑战性。

问答数据

关于问题和答案的语言多样性，下表列出了数据集中文本字段的平均字数。

问题、选项和答案的字数在不同视频长度上显示出显著的一致性，这表明Video-MME中的QA对风格一致。

另一方面，字幕的字数随着视频长度的增加而显着增加，短视频的平均字数为198.6，而长视频子集的字数高达6.5K。这一趋势表明，较长的视频包含的信息更多。

此外，问题对应的正确答案选项（A/B/C/D）的分布接近均匀（25.2%/27.2%/25.2%/22.3%），确保了无偏的评估。

参考资料：

https://x.com/_TobiasLee/status/1801984539470012554

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。

来源: qq

点击查看作者最近其他文章

相关阅读

多模态模型学会打扑克：表现超越GPT-4v，全新强化学习框架是关键最强GPT-4o也才刚及格？智源联合多所高校推出首个多任务长视频评测基准MLVU(4)OpenAI一夜干翻语音助手！GPT-4o模型强到恐怖，ChatGPT学会看屏幕，现实版Her来了 Meta首发「变色龙」挑战GPT-4o，34B参数引领多模态革命！10万亿token训练刷新SOTA 70B模型秒出1000token，代码重写超越GPT-4o，来自OpenAI投资的代码神器Cursor团队神秘模型gpt2-chatbot实力被赞超越GPT-4：sam亲自确认，或是OpenAI全新模型杀疯了！全面超越Llama3的强悍开源模型，仅9B，1000k上下文；GPT-4级别模型1年降价1万倍面壁智能发布最强端侧多模态模型：超越Gemini Pro 、GPT-4V，图像编码快150倍！面壁发布多模态小钢炮仅仅 8B 参数规模，超越 GPT-4V 和 Gemini Pro 谷歌终于赢了OpenAI一回：实验版本Gemini 1.5 Pro超越GPT-4o Gemini终于赢了GPT-4o！Video-MME首个视频多模态基准来了！凤凰发财记（第一部）----015 道士（上）多模态GPT-4o来了，最先嗨起来的是一波女性用户六十五岁青岛到北京驾车往返日记谷歌2小时疯狂复仇，终极杀器硬刚GPT-4o！Gemini颠覆搜索!日本东京地方法院驳回AI“发明”专利申请：发明人仅限于人类；Meta首发「变色龙」挑战GPT-4o，引领多模态革命丨AIGC日报字节跳动豆包大模型支持实时语音通话；阿里发布Qwen2-Math：数学推理全球第一，超越GPT-4o丨AIGC日报个人感慨之140 还是计划生育周末也别闲着仅8B，全面超越GPT-4V！单图、多图、视频理解端侧三冠王！史上最强端侧多模态诞生 GPT-4o 与 Gemini 能否用多模态撬开下一代 AI 的新进程？智谱加入 AI 视频竞赛：使用 DiT 架构，30 秒生成视频片段编码数学击败GPT4-Turbo！DeepSeek-Coder-v2登顶竞技场最强开源编码模型 GPT-4o成为全领域SOTA！基准测试远超Gemini和Claude，多模态功能远超GPT-4 全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型谷歌反击：Project Astra正面硬刚GPT-4o、Veo对抗Sora、新版Gemini变革搜索 AI早知道｜腾讯元宝上线3D角色梦工厂；Claude 3.5 Sonnet数据可视化超越GPT-4o 3D生成竞技场来了！比拼360°环绕视频，最强模型由你pick AAAI 2024 Oral｜打破边界！利用CLIP的多任务多模态视频行为识别方法用GPT-4纠错GPT-4！OpenAI推出CriticGPT模型；谷歌Gemma 2发布，与第一代相比性能更高丨AIGC日报国产黑马大模型盲测竞技场挺进全球前十！中文榜和GPT-4o并列第一 Llama 8B搜索100次超越GPT-4o！推理+搜索即可提升性能，新「Scaling Law」诞生？中国版GPT-4o炸场：国内首个流式多模态交互模型，现场实时且丝滑谷歌2小时疯狂复仇，终极杀器硬刚GPT-4o！Gemini颠覆搜索，视频AI震破Sora 晚会之后：敢情美国学生素质不如日本学生

热点事件追踪