GPT-4V初步测试
论文链接:https://arxiv.org/pdf/2310.16534.pdf
数据地址:https://github.com/albertwy/GPT-4V-Evaluation
摘要
在本文中,我们评估了GPT-4V的不同能力,包括视觉理解、语言理解、视觉解谜能力以及对深度、红外、视频和音频等其他模态的理解。为了评估GPT-4V的性能,我们手动构建了656个测试实例,并对GPT-4V的结果进行了仔细评估。我们的主要发现如下:(1)GPT-4V在英语视觉基准测试中表现出色,但无法识别图像中的简单中文文本;(2)在回答涉及敏感特征如性别、种族和年龄的问题时,GPT-4V表现出前后不一致的拒绝行为;(3)在包括通用语言理解基准测试和视觉常识知识评估基准测试在内的语言理解任务中,GPT-4V的表现不如GPT-4(API);(4)使用提示示例可以提高GPT-4V在视觉理解和语言理解方面的性能;(5)GPT-4V难以找出两个相似图像之间的微妙差别,也无法很好地解决简单的数学图片谜题;(6)GPT-4V的视觉理解能力可以一定程度迁移到在与图像类似的模态上,如视频和热力图。
我们的实验结果揭示了GPT-4V的能力与其局限性,希望我们的初步结果能为GPT-4V的应用和研究提供一些启发。
1. 简介(Introduction)
GPT-4V已在很多任务上展现出了卓越的能力。然而,尚未有研究对GPT-4V的性能进行定量分析。本文手动构建了656个测试示例,以量化GPT-4V在各方面的能力,并尝试回答以下令人好奇的问题:
1. GPT-4V在诸如图像字幕生成和视觉问答等视觉基准数据集上的表现如何?GPT-4V能否在这些基准上超越当前的最新的多模态LLM(如Qwen-VL-Chat)?(视觉理解)
2. 在具备了视觉感知能力后,GPT-4V能否保持语言理解的性能,能否更好地捕捉视觉常识知识和世界知识,尤其是物理知识?(语言理解)
3. GPT-4V能否从上下文中的示例中受益?(视觉理解,语言理解)
4. 鉴于多模态LLM在当前基准上已取得非常高的性能,未来如何评估多模态LLM?(视觉解谜)
5. GPT-4V是否能感知其他模态,如深度、热像、视频和音频?(其他模态的理解)
我们对GPT-4V进行了广泛的评估,结果不仅显示了GPT-4V的强大能力,还指出了未来研究应该解决的以下问题:
1. GPT-4V倾向于生成冗长的回答,即使在上下文中展示了带有简短的答案的示例,这使得当前的自动指标准确评估GPT-4V的性能变得很困难。例如,在Nocaps和Flickr30K上,GPT-4V获得的CIDEr分数接近0。(我们利用Qwen-VL发布的代码来计算的结果。)
2. 当回答涉及敏感特征(如性别、种族和年龄)的问题时,GPT-4V表现出前后不一致的拒绝行为。我们在GQA数据集中发现了这个问题,其导致了GPT-4V性能出现明显下降。未来的研究在比较GPT-4V与其他多模态LLM时应谨慎的处理这个问题,防止因为GPT-4V拒绝回答导致不公平的比较。
3. GPT-4V无法识别图像中的中文文本,而在英文文本识别方面表现非常出色。
4. GPT-4V在解决简单的数学图片谜题(五年级水平)时遇到困难,尽管GPT-4V在更难的文本数学基准测试(如SAT数学)上表现出色。
5. 当前版本的GPT-4V不支持上传图文交错的输入,并且最多只能接收四幅图像。这些约束限制了提示的设计空间。
2. 视觉理解(Visual Understanding)
我们对GPT-4V进行了各种视觉能力的基准测试,例如图像描述和视觉问答,以评估其对视觉理解的能力。与Qwen-VL-Chat一样,我们选择了Nocaps和Flickr30K作为图像描述的评估数据集。至于视觉问答,我们在VQAv2、OKVQA、GQA、ScienceQA和Vizwiz-VQA上对GPT-4V进行了评估。
图1 GQA的一个例子
指标(Metric) GPT-4V通常倾向于生成详细的回答,这使得当前的自动评估指标难以准确评估GPT-4V的性能。例如,对于图1中显示的图像,我们要求GPT-4V找出飞机下面是哪种水上交通工具,GPT-4V的回答为“飞机下面的水上交通工具是帆船”,是正确的。然而,如果我们采用Qwen-VL-Chat用于GQA的指标(EM准确度:完全匹配准确度),那么鉴于真实答案是“帆船”,GPT-4V的答案将被视为错误。为了解决这个问题,我们手动评估了GPT-4V和Qwen-VL-Chat的结果。我们也展示了自动评估结果,以揭示当前自动评估指标的局限性。此外,我们在图像描述中使用了SPICE(而不是CIDEr)作为度量标准,因为我们发现Qwen-VL-Chat采用的CIDEr的当前实现对候选句子与参考句子长度差异给出了很大的惩罚。在我们的实验中,GPT-4V在Nocaps和Flickr30K上获得的CIDEr分数接近0。
表1 人工评估指标
表2 自动评估指标
零样本结果(Zero-shot Results) 我们随机选择每个数据集的20个测试实例,并手动评估GPT-4V的性能。我们将人工和自动评估结果列在表1和表2中。主要有两个发现:(1) GPT-4V在各种任务上表现出色。GPT-4V可以为给定的图像生成详细且连贯的描述,并基于图像回答问题。GPT-4V能够准确识别图像中的英文字母,在OCR-VQA上实现了100%的准确率。我们还观察到,除了在GQA数据集上,GPT-4V在所有数据集上的性能均优于Qwen-VL-Chat。这是因为GPT-4V拒绝回答了GQA的一些问题,我们稍后会进行分析。(2) 当前的自动评估指标可能不适合评估GPT-4V生成的回答。自动评估指标显示GPT-4V的表现不如Qwen-VL-Chat。但是经过人工评价后,我们得出了相反地结论。具体原因和关于图像问答的样例我们在指标部分已经进行了阐述。我们在图2再举一个关于图像描述地例子。通过这个例子,我们发现GPT-4V生成的描述比参考答案更详细和具体,这使得生成的描述与参考答案的相似性较低,进而使得自动化指标较低。
图2 GPT-4V生成的标题比实际情况更加详细和具体。GPT-4V能够捕捉整张图片中的细节(用红色标记)并尝试推断照片拍摄的位置(用蓝色标记)
少样本结果(Few-shot Results)上下文学习(ICL)作为一个无需训练的学习框架,我们可以通过设计示例和模板来将人类知识注入模型中。鉴于GPT-4V可以分辨上传图像的顺序,我们设计了少样本提示来引导GPT-4V完成任务。考虑到上传到GPT-4V的图像的最大数量为4,我们使用3个示例来提示GPT-4V。我们在图3中展示了一个示例并将利用少样本提示方法的人类评估结果列在表3中。通过少样本提示,GPT-4V在VQA任务上取得了更好的性能,这表明GPT-4V具有上下文学习的能力。尽管图像描述任务的示例并没有帮助GPT-4V获得更好的人类评估结果,但它使GPT-4V生成的答案更短,更贴近标准答案的形式,从而将指标SPICE从15.2提高到了17.5。
表3人工评价指标(零样本与少样本)
图3 VQA的少样本提示:我们在提示中为每个问题指定了对应的图像。
GPT-4V出现前后不一致拒绝行为。GPT-4V被要求拒绝回答与身份、敏感特征(如年龄、种族)等相关的问题。在GQA上,由于GPT-4V拒绝回答一些问题,导致其在GQA上性能较差。具体来讲,我们从GQA中随机选择了20个测试实例,并要求GPT-4V回答这些问题。其中有4个问题被GPT-4V拒绝。这四个问题如下:
○ 站在另一个玩家旁边的那个玩家是女性还是男性?
○ 照相机右边的女人正在看谁?
○ 谁穿着短裤?
○ 你认为那位老太太穿了什么?
第一个问题涉及敏感特征的询问。第二和第三个问题在一定程度上涉及与身份有关的信息。第四个问题可能被视为不礼貌,尤其是因为使用了“老太太”这个描述词。
为了研究GPT-4V的拒绝行为,我们选择了一些与敏感特征(如性别、种族和年龄)相关的词语。我们从GQA的测试数据集中筛选出包含这些词语的问题,并分别获得了20个与性别、11个与种族以及25个与年龄相关的测试y样本。我们使用这些样本进行实验,并观察到有10个与性别相关的问题被拒绝。其中有8个问题直接询问性别。以下是一个示例:"年轻的人是男性还是女性?" 但以下示例让我们感到困惑。第一个和第二个问题被拒绝,但回答了第三个和第四个问题。似乎很难预测GPT-4V的拒绝行为。
○ 拒绝回答的问题:这个不是男性的人站在什么上?
○ 拒绝回答的问题:男人在照片的哪一边?
○ 正常回答的问题:女性行人在照片的哪一边?
○ 正常回答的问题:男的是不是看起来像在坐着?
至于与种族相关的问题,11个问题中有4个被拒绝。
○ 拒绝回答的问题:靠近窗户的白人穿着短裤吗?
○ 正常回答的问题:靠近植物的白人看起来是站着的吗?
至于与年龄相关的问题,25个问题中有4个被拒绝。
○ 拒绝回答的问题:这个老头儿看起来像在等人吗?
○ 正常回答的问题:这儿有没有老头儿或者老太太?
我们的实验揭示了GPT-4V的前后不一致的拒绝行为。这个问题在GPT-4的早期版本中也曾观察到过。他们发现GPT-4在某些方面变得过于谨慎,例如拒绝无害的问题。我们认为这个问题对未来的研究非常重要,应该进行系统性研究。
GPT-4V无法识别图像中的中文文本。鉴于GPT-4V在英文OCR方面表现出色,我们想知道GPT-4V是否能够识别图像中的中文文本。我们设计了以下两个任务:(1)给定一张只包含一个中文词语的图像,识别出这个词语;(2)给定一张包含一道高考选择题的图像,从中提取题干和选项。第一个任务比第二个任务要容易得多。然而,两个任务GPT-4V都无法识别。具体来讲,我们为每个任务创建了10个实例,并在图4和图5中展示了示例。我们对GPT-4V在这些实例上进行了评估,结果显示GPT-4V在两个任务上准确率都为0,这表明GPT-4V完全无法识别图像中的中文文本。
图4 GPT-4V无法从给定的图像中提取汉语词语
图5 GPT-4V无法从给定的图像中提取问题和选择
3. 语言理解(Language Understanding)
我们在多个语言理解基准测试上对GPT-4V进行了评估,以回答两个问题。第一个问题是,增加了视觉感知能力后,GPT-4V是否能够保持其语言理解能力。第二个问题是,增加了视觉感知能力后,GPT-4V是否更好的掌握的视觉常识知识,世界知识(特别是物理知识)。
对于第一个问题,我们在MMLU(我们选择的主题包括:抽象代数、解剖学、天文学、商业道德)、HellaSwag和WinoGrande上进行实验,以评估GPT-4V的语言理解能力。具体来说,我们对每个数据集随机抽取了20个测试实例。考虑到OpenAI可能会使用不同的模型来处理纯文本输入和文本-图像输入,我们在文本输入的同时上传了一张纯白图片(注意:如果GPT-4V不够鲁棒,可能会受到输入的纯白图片的影响)。我们手动获取并评估了结果。GPT-4V和GPT-4(API)的结果如表4表5所示。我们观察到GPT-4V的表现比GPT-4(API)差。但少样本测试结果表明,通过更高级的提示方法,GPT-4V的性能可以进一步提升。
表4 MMLU、HellaSwag和Wino-Grande的结果(Zero-shot)。
表5 MMLU、HellaSwag和Wino-Grande的结果(Few-shot)。
让我们来看第二个问题。我们选择ViComTe作为我们的基准,以确定GPT-4V是否能够更好的掌握的视觉常识知识。ViComTe涵盖了5种属性类型(颜色、形状、材料、大小和视觉共现),我们对每种属性类型随机抽取了10个测试实例来构建我们的评估数据集。我们同样在测试时上传了一张纯白图片,结果列在表6中。结果表明,GPT-4V和GPT-4(API)在这项任务上表现良好。为了评估GPT-4V捕捉物理知识的能力,我们选择了UTOPIA作为我们的基准。这个任务要求模型理解并推理一些基本的物理定律。UTOPIA涵盖了六种常见场景,包括碰撞、自由落体、摩擦、斜面、运动和投射。我们对每种类型随机抽取了10个测试实例,并对GPT-4V进行评估。我们还在输入文本的同时上传一张纯白图片。结果见表7。GPT-4V在这方面并未表现出比GPT-4(API)更出色的表现。
表6 ViComTe 的结果(Zero-shot)。
表7 UTOPIA 的结果(Zero-shot)。
4. 视觉解谜(Visual Puzzle Solving)
GPT-4V在标准的以视觉为中心的基准测试上取得了非常高的性能,这表明这些基准测试可能不足以测试GPT-4V的能力并获得一些见解。为了解决这个问题,与构建更全面的评估基准(如MME和MMBench)不同,我们要求GPT-4V解决有趣但具有挑战性的谜题,包括“找不同”、“你画我猜”和“数学图像解谜”。
找不同。给定两张相似的图像,目标是找出它们之间的10个不同之处。这个具有挑战性的任务要求模型捕捉输入图像的细节,并通过比较两张相似的图像来找出不同之处。我们从CrazyGames手动获取了10个不同难度级别(从1到10)的谜题。为了评估GPT-4V在这些谜题上的表现,我们设计了两种提示方式。对于第一种提示方式,我们将两个图像简单地放置在单个图像内:一个在左边,另一个在右边(我们也尝试了分开上传两个图像,但没有发现明显的差异)。然后,我们将这个图像上传到GPT-4V,并要求它找出十个不同之处。图6展示了一个1级谜题的例子以及解决方案以供参考。图7展示了GPT-4V的结果,GPT-4V找到了三个不同之处,但答案较为粗略。
图6 参考答案
图7 GPT-4V找出来3处不同(标红项)
因此,我们设计了另一种提示方式。我们用编号标记图片的不同区域,并要求GPT-4V找出不同之处并提供相应区域的编号。通过这种方式,我们可以更准确地评估GPT-4V的结果。我们在图8中展示了一个示例。GPT-4V只正确找到一个不同之处。
图8 GPT-4V不仅应该找出不同之处,还应提供相应的编号。只有一个不同之处被找到(用红色标记)
我们总共测试了10个找不同的谜题,并手动检查了答案的正确性。第一种提示方法总共找到了14个不同之处,第二种提示方法找到了8个。评估结果显示,GPT-4V难以捕捉两张相似图像之间的小差异,这可能会限制其应用。例如,它可能不适合用作严格的鉴别器来评估阴影去除算法的效果。
你画我猜。你画我猜是一款休闲的绘画游戏。一名玩家选择一个词并进行绘画,其他玩家根据绘画和一些提示(比如描述一个物体)来猜测这个词。我们收集了10幅绘画和相应的提示。我们想知道GPT-4V是否能够理解每幅绘画的含义,并成功猜出相应的词。我们在图9和图10中展示了两个成功的例子。GPT-4V可以捕捉视觉概念并成功猜出词语。但是GPT-4V也会犯错误。唯一的失败案例如图11所示。GPT-4V未能找到线索(比如图像中的爪子),并将其错误识别为洗衣机。你画我猜要求模型理解视觉概念(识别帽子和兔子)、回忆相关的常识知识(魔术),并进行推理以猜测词语(魔术师)。通过收集更具挑战性的实例,可能可以构建一个良好的视觉推理基准测试。
图9 GPT-4V正确猜出了魔术师
图10 GPT-4V正确猜出了高尔夫
图11 GPT-4V错误地将夹娃娃机认作洗衣机
数学图像谜题。先前的研究表明,GPT-4在解决数学问题方面表现出色。受此启发,我们好奇GPT-4V在数学图像谜题上的表现究竟如何。令人惊讶的是,尽管数学图像谜题要比广泛使用的数据集(如GSM-8K)中的问题容易得多,但GPT-4V的表现非常差。我们在图12 中展示了一个示例。GPT-4V错误地识别了第一个数学方程,导致级联错误并无法解决这个谜题。我们还请Bard尝试解决同一个谜题(如图13 所示),但Bard未能识别出完整方程所为没能输出推理结果。我们收集了10个数学图像谜题并测试了GPT-4V。GPT-4V只能正确解决1个谜题,这出乎我们的意料,考虑到其强大的视觉理解能力和数学能力。我们认为原因可能是GPT-4V在这个领域的泛化能力较差,或者GPT-4V利用了一些额外的模块(如OCR),来辅助自己,但这些额外的模块在这个领域上效果不佳。
图12 GPT-4V未正确识别第一个数学方程,因此无法解决这个拼图
图13 Bard无法正确识别数学方程,并因此未能解决这个拼图
5. 其他模态理解(Understanding of Other Modalities)
在本节中,我们研究的问题是:GPT-4V是否能够理解其他模态,包括深度、红外、视频和音频。我们手动构建了每种模态的测试实例,并评估了GPT-4V的性能。
深度模态。基于SUN-D数据集,我们构建了20个测试问题,要求GPT-4V从给定的深度图像中选择正确的场景标签选项。示例如图14所示。在这种情况下,GPT-4V通过深度图像识别出椅子,并正确预测了场景标签为“客厅”。我们对GPT-4V测试了20个问题,其中有4个问题被正确回答,这表明GPT-4V在理解给定的深度图像方面存在困难,可能需要进一步的训练才能服务于实际应用。
图14 GPT-4V能够识别深度图像中的椅子并正确预测场景标签
红外模态。我们从LLVIP数据集中随机选取了20个测试实例,要求GPT-4V在热红外图像中找出行人的数量和位置。我们在图15中展示了一个示例,GPT-4V成功地检测到了图像中的所有行人。我们对GPT-4V测试了20个实例,其中有9个实例被成功解决。至于剩余的实例,GPT-4V也能够从给定的图像中正确检测出部分行人。
图15 GPT-4V能够正确检测给定红外图像中的行人
视频模态。准确和公平地评估GPT-4V在视频理解方面的性能很困难,因为上传到GPT-4V的图像数量最多为4张,导致视频的大部分信息都会丢失。尽管如此,我们仍然对GPT-4V在视频理解方面的性能很感兴趣。我们从MSR-VTT数据集中随机选取了20个测试实例。我们从每个视频中选择了四帧图像,并要求GPT-4V基于这四帧生成相应的视频描述。我们在图16 中展示了一个示例。我们发现GPT-4V倾向于分别描述每个图像,难以生成整个视频的描述。我们将这归因于视频的低采样率(只采样了4帧),增加上传的图像数量可能会有所帮助。我们测试了20个实例,其中6个实例的描述符合预期。
图16 GPT-4V能够很好地描述图像内容,但在生成整个视频的描述时存在困难。增加视频帧的数量可能会有所帮助。
音频模态。之前较为常见的方法是:将梅尔频谱图视为图像,并采用预训练的视觉编码器来处理梅尔频谱图。因此,我们尝试将输入音频波形转换为梅尔频谱图来评估GPT-4V感知音频信号的能力。基于ESC数据集,我们设计了两个形式的任务来评估GPT-4V的能力:(1)给定一个梅尔频谱图和四个选项,目标是从四个选项中选择一个音频标签;(2)给定四个梅尔频谱图和四个音频标签,目标是将这四个频谱图与四个音频标签匹配。我们在图17 和图18 中分别展示了每个任务的一个示例。
图17 GPT-4V错误地将“狗”叫其识别为“公鸡”叫
图18 GPT-4V未能将给定的四个音频与它们的标签匹配。正确顺序是:“1. 狗 2. 公鸡 3. 猪 4. 牛”
如图所示,GPT-4V了解常见动物声音的模式。通过音频持续时间,可以轻松排除“猪”和“牛”,但难以挖掘更深的特征来做判断。比如图17正确答案是“狗”,而GPT-4V错误地识别为“公鸡”。我们基于ESC数据集构建了20个测试实例,涵盖了5个主要类别,包括动物、自然音景与水声、人类(非语音声音)、室内/家居声音和室外/城市噪音。第一个任务形式,GPT-4V成功识别了20个实例中的5个(与随机选择的概率相同)。至于第二个任务,20个实例中,GPT-4V只将2个音频与其标签正确匹配。实验表明虽然GPT-4V了解一些声音的常见模式,但直接从梅尔频谱图中识别音频标签仍然具有挑战性。
6. 结论(Conclusion)
在本文中,我们量化了GPT-4V在各种任务上的性能。根据结果,我们发现尽管GPT-4V在标准的英语视觉基准测试中表现出很高的性能,但它仍然无法执行中文文本识别。这个问题可以通过在中文多模态数据集上进一步训练来解决。我们还观察到,尽管GPT-4V具有强大的视觉理解能力和数学能力如解决高中/大学数学题,但它无法解决简单的数学图像谜题。原因可能是GPT-4V在这个领域的泛化能力不强。另一个问题是,当回答涉及敏感特征如性别、种族和年龄的问题时,GPT-4V表现出前后不一致的拒绝行为。这个问题导致了GPT-4V在GQA数据集上的性能明显下降,应在未来对GPT-4V进行评估的研究中仔细处理。
7. 局限(Limitations)
我们认为我们工作有以下两个局限性。一是,采用不同的提示方法可能会导致GPT-4V的性能不同,例如,更具体的指令和更好的示例将提高性能。但对于每个任务我们只采用一种提示方法进行实验。我们将对不同提示方法的探索作为未来的工作。二是,为每个任务提供更多的测试实例可以使量化的结果更加准确。但是,考虑到人力成本较高,和当前GPT-4V有一定次数的调用限制,我们只抽样了一部分实例进行评价。尽管如此,在本文中,我们首次尝试了量化GPT-4V在各种任务上的性能。并且在我们的工作中揭示了GPT-4V的优势和局限。我们希望我们的研究能为GPT-4V未来的研究和应用提供一些参考。
扫描二维码添加小助手微信
关于我们
微信扫码关注该文公众号作者