Redian新闻
>
最强的GPT-4V都考不过?基于大学考试的测试基准MMMU诞生了

最强的GPT-4V都考不过?基于大学考试的测试基准MMMU诞生了

公众号新闻

机器之心报道

编辑:Panda


目前最好的大型多模态模型 GPT-4V 与大学生谁更强?我们还不知道,但近日一个新的基准数据集 MMMU 以及基于其的基准测试或许能给我们提供一点线索,如下排行榜所示。



看起来,GPT-4V 在一些科目上已经强过挂科的大学生了。当然这个数据集的创造目的并不为了击败大学生,而是为了提供一个兼具深度与广度的多模态 AI 测试基准,助力人工智能系统的开发,尤其是通用人工智能(Artificial General Intelligence,AGI)。


随着大型语言模型(LLM)快速发展,人们对 AGI 这一颇具争议的概念进行了广泛讨论。简单来说,AGI 是指在大多数任务上都与人类相当或超越人类的人工智能系统。由于缺乏公认的可操作定义,人们一直都很难就 AGI 开展更加坦诚和建设性的讨论。


为了解决这个问题,Morris 等人的论文《Levels of AGI: Operationalizing Progress on the Path to AGI》提出了一种兼顾通用性(广度)和性能(深度)的 AGI 分级分类法。


在这种分类法中,第 3 级是专家 AGI,这是一个重要的里程碑。它表示 AI 系统在广泛的任务上达到了「掌握专业知识的成年人类的 90%」,并由此可以在许多行业中达到「机器智能接替人类劳动力的替代门槛」,从而造成重大的失业风险和经济混乱。因此,密切关注专家 AGI 的发展情况具有重要的学术和社会意义。


那么,该如何创造用于度量专家 AGI 的基准呢?


由于专家 AGI 的定义是基于与专业人士的比较,因此不同学科的大学水平考试就是一个很好的起点,因为这些考试本身的目的就是评估人类在相应学科的专业能力。MMLU 和 AGIEval 等基准已经成功采用了这一策略,但它们只考虑了基于文本的问题,而人类专家有能力解决多模态问题。


与此同时,能够理解文本和图像的大型多模态模型(LMM)已经朝着更通用的人工智能迈出了一大步。这些 LMM 能在现有的多模态基准测试上获得稳定一致的优良表现。比如 CogVLM 在 VQA-v2 基准上的成绩为 85%,在 ScienceQA-IMG 上为 92%,在 RefCOCO 上为 93%。


然而,大多数现有的多模态基准侧重于常识 / 日常知识,而不是专家级的领域知识和高级推理。与这个目标最接近的基准是 ScienceQA。尽管 ScienceQA 覆盖了多个学科(广度),但其大部分问题都限于小学到初中水平,因此缺乏深度,不足以作为专家 AGI 的基准。


为此,IN.AI Research 等多所机构的一个研究团队构建了一个新基准 MMMU,可用于评估 AI 在大学水平的多学科问题上的多模态理解和推理能力。



  • 论文地址:https://arxiv.org/abs/2311.16502

  • 项目网站:https://mmmu-benchmark.github.io/

  • 数据集:https://huggingface.co/datasets/MMMU/MMMU

  • 代码:https://github.com/MMMU-Benchmark/MMMU


其中包含的问题来自大学考试、测验和教科书,涉及六个常见学科:艺术与设计、商科、科学、健康与医学、人文与社会科学、技术与工程。MMMU 包含 1.15 万个精心选取的多模态问题,涵盖 30 个不同的科目和 183 个子领域,因此满足广度目标。此外,MMMU 中许多问题都需要专家级的推理能力,比如使用傅立叶变换或均衡理论来推导问题的解,因此也满足深度目标。



MMMU 还具备了两个特有挑战(图 1):一是其涵盖多种图像格式,从照片和绘画等视觉场景到图表和表格,可用于测试 LMM 的感知能力;二是 MMMU 具有文本和图像混合交织的输入。对于这个基准,AI 模型需要把图像和文本放在一起理解,这往往需要回忆深度的学科知识并根据理解和知识来执行复杂推理。


该团队不仅提出了基准,也基于新基准评估了一些模型,其中包括 14 个开源 LMM 和 GPT-4V。他们从中得到了一些有趣的结论。


此外,他们还分析了 GPT-4V 的 150 个错误案例,结果发现 35% 的错误与感知有关,29% 的错误源自缺乏知识、26% 则是由于推理过程的缺陷。这些发现表明 MMMU 是有难度的,可用于助力进一步的研究发展。


MMMU 基准


MMMU 概况


MMMU 是 Massive Multi-discipline Multimodal Understanding and Reasoning 的缩写,即大规模多学科多模态理解和推理。其构建目标是评估基础模型在广泛多样的任务上的专家级多模态理解能力。MMMU 涉及 6 个学科的 30 个科目。图 2 给出了每个学科的一个 MMMU 样本。



图 3 详细给出了所覆盖的科目及相关统计数据。



该基准中的问题是人工收集的,收集者是来自不同学科的 50 位大学生,数据来源包括网络资源、教科书和课程材料。


如表 1 所示,MMMU 中共有 1.15 万个问题,并分成了三个子集:少样本开发集、验证集和测试集。



少样本开发集中每个科目包含 5 个问题;验证集则包含大约 900 个问题,可用于超参数选择;测试集则有 1.05 万个问题。MMMU 的设计目标是衡量 LMM 的三项基本技能:感知、知识和推理。


数据的收集和整理过程


数据收集。第一步,他们浏览了常见的大学专业,然后确定要将哪些学科包含进该基准中。他们选择的原则是该学科需要经常采用视觉输入来提供有价值的信息。基于这个原则,他们去掉了法学和语言学等一些学科,因为这些学科中很难找到足够多的相关多模态问题。最后,他们从 6 个不同学科中选择了 30 个科目

第二步,他们招募了 50 位这些专业的大学生,让他们作为标注者来帮助收集问题。他们会从专业教科书和网络资源收集多模态问题,并在有必要时根据自己的专业知识创建新问题。考虑到基础模型的数据污染问题,标注者会选择没有立即可用答案的问题,例如那些答案在不同的文档中或教科书末尾的问题。这个过程中,他们得到了 1.3 万个问题。


 为了进一步控制数据质量,他们又执行了两个数据清理步骤。第一步,他们使用了词汇重叠和来源网址相似度来识别潜在的重复问题。然后他们对这些重复项进行了审查,并清除了所有重复项。第二步则是把这些问题分配给该论文的参与作者,让他们帮助进行格式和拼写检查。最后,该团队对这些问题进行了难度分级:非常简单、简单、中等、困难。其中大约 10% 的问题属于非常简单;由于太过简单,不符合该基准的设计原则,因此被排除在外。


图 4 给出了 MMMU 与已有基准的差异。



实验 


该团队基于 MMMU 对多种 LLM 和 LMM 进行了评估。每一种类型都兼顾了闭源和开源模型。评估采用了零样本设置,以评估模型在没有微调或少样本演示的情况下生成准确答案的能力。所有实验均基于 NVIDIA A100 GPU。


主要结果 


表 2 给出了在 MMMU 基准上不同 LLM 和 LMM 的结果比较。



他们得到了一些重要发现:


  • MMMU 难度很大,就连 GPT-4V 的准确度也只有 55.7%,这说明 AI 技术还有很大的改进空间。

  • 开源 LMM 和 GPT-4V 的性能差距很大。BLIP2-FLAN-T5-XXL 和 LLaVA-1.5 等表现最好的开源模型也只有 34% 左右的准确度。

  • 具备光学字符识别(OCR)或生成字幕的 LLM 没有看到显著的提升,这说明 MMMU 需要模型更深度地将图像和文本放在一起理解。 

  • 在艺术与设计以及人文与社会科学等视觉数据不太复杂的学科中,模型表现出的性能更高。相比之下,商科、科学、健康与医学以及技术与工程等领域具有更复杂的视觉数据并需要复杂的推理,因此 AI 模型的性能也相对较低。

 

但该团队也指出,MMMU 并不足以对专家 AGI 进行充分的测试,这是受定义限制的,因为模型的 MMMU 性能与「掌握专业知识的成年人类的 90%」之间不存在直接的映射关系,而且大学考试也并非 AGI 理应解决的唯一任务。但他们也认为专家 AGI 有必要在 MMMU 基准上取得好成绩,这样才能体现其掌握知识的广度和深度以及专家级的理解和推理能力。


对图像类型和难度的分析


不同的图像类型。图 5 比较了在常用的图像类型上,不同模型的性能。可以看到,在所有类型上,GPT-4V 始终大幅优于其它模型。在照片和绘画等训练中更常见的类型上,开源模型的表现相对较好。但是,对于几何形状、乐谱和化学结构等更不常见的图像类别,所有模型的分数都非常低(有些接近于随机乱猜)。这表明现有模型在这些图像类型上的泛化性能不佳。



不同难度。表 3 比较了所选模型在三个难度层级上的性能。在「容易」类别中,GPT-4V 的表现显著优于开源模型,成功率达到了 76.1%。对于「中等」难度类别,差距缩小了,但 GPT-4V 依然领先,为 55.6%。到了「困难」级别,模型的差距进一步变小,这表明随着任务复杂性的提升,GPT-4V 等更先进模型的优势会逐渐消失。这可能表明当前模型在处理专家级高难度查询方面存在局限,即便最先进模型也是如此。



错误分析与未来研究


该团队还深度分析了 GPT-4V 的错误,这有助于理解其运作能力和局限。该分析不仅能识别模型当前的缺点,还可以帮助改进未来的设计和训练。他们从 GPT-4V 的预测中随机采样的 150 个错误实例,然后请专家级标注者分析了这些实例,这些专家根据自己的知识找到了这些错误预测的根本原因。图 6 给出了这些错误的分布情况。




感知错误(35%):GPT-4V 的错误中很大一部分是感知错误,这又可以进一步分为两种类型:基本感知错误和特定领域的感知错误。如图 7 所示,当模型能准确处理和理解给定信息,但无法解读基本的视觉信息时,就会出现基本感知错误。而特定领域的感知错误则是由缺乏知识所致。当分析根本原因时,研究者将此类错误归类为缺乏知识。此外,GPT-4V 经常表现出对文本的偏好,也就是以文本信息优先,视觉输入在后。




缺乏知识(29%):如前所述,对于 GPT-4V 模型,特定领域的感知错误的一个基本根本原因就是缺乏专业知识。类似地,缺乏专业知识还可能导致推理出现问题。


推理错误(26%):在一些实例中,模型正确解读了文本和图像,也找到了相关知识,但却未能成功应用逻辑和数学推理技能来进行准确的推导。


其它错误:其它错误还包括文本理解错误(6%)、拒绝问答(3%)、注释错误(2%)、答案提取错误(1%)。这些错误的原因也多种多样,比如复杂文本的解读难度大、响应生成的限制、数据注释不准确以及从较长输出中提取精确答案存在问题。


更多详细内容,请阅读原文。




© THE END 

转载请联系本公众号获得授权

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
刷新了,开眼了!AI早知道|ChatGPT灰度测试多GPTs协同;新Bard逆袭GPT-4;百川智能发布Baichuan3全球最强的抗震技术,的确在日本,不过……微软发布 166 页 GPT-4V 测评报告,ChatGPT 的高阶用法都在这|Hunt Good 周报热乎的GPTs体验报告:创建专属GPT,不懂代码人的春天来了6019 血壮山河之随枣会战 南昌之战 12世界大战和各国版图的变迁大学入学考试即将开启,如何准备?刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!能赚钱的GPT Store上线了!官方最佳榜单公布,ChatGPT被玩出花基于大模型做电商「内容工厂」,「极睿科技」获顺为B轮融资|36氪首发连葫芦娃都数不明白,解说英雄联盟的GPT-4V面临幻觉挑战112页报告深挖GPT-4V!UCLA等发布全新「多模态数学推理」基准MathVistaAI Agents先行者CAMEL:第一个基于大模型的多智能体框架「减肥神药」1年只需注射3次,斯坦福大学科学家开发出基于水凝胶的GLP-1药物递送系统CogAT测试指南,部分学校将其用于Gift Program选拔,究竟是怎样的测试?GPT-4完成正确率仅6%!北大等提出首个「多轮、多模态」PPT任务完成基准PPTCGPT-4V初步测试科研上新 | 第2期:可驱动3D肖像生成;阅读文本密集图像的大模型;文本控制音色;基于大模型的推荐智能体红色日记 京津游逛 12.1-18吴恩达最新推出基于大模型的《AI高级检索》课程,限时免费白嫖!你的Google帐户多年没碰过?本周起可能被消失GPT-4V连小学生都不如?最新基准测试错误率竟高达90%:红绿灯认错、勾股定理也不会NeurIPS 2023 | AI Agents先行者CAMEL:首个基于大模型的多智能体框架注意啦!你的Google帐户多年没碰过?12月1日起可能自动删除了哦...媲美GPT-4V,仅使用1.2M数据、8个A100,一天内完成训练,LLaVA-1.5刷新11个基准SOTA火了半年整天吊打别人的GPT-4,今天碰到个头铁的被吊打, 谷歌发布史上最强大模型GeminiGPT-4V数学推理如何?微软发布MathVista基准,评测报告长达112页试过GPT-4V后,微软写了个166页的测评报告,业内人士:高级用户必读GitHub 基于大语言模型构建 Copilot 的经验和教训月 虹GPT-4V医学执照考试成绩超过大部分医学生,AI加入临床还有多远?更适合中文LMM体质的基准CMMMU来了:超过30个细分学科,12K专家级题目英国一大学考试直接发答案?!学生:我抄还是不抄零一万物Yi-VL多模态大模型开源,MMMU、CMMMU两大权威榜单领先
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。