Redian新闻
>
一眼假!GPT4V可有效识别DeepFake图像!

一眼假!GPT4V可有效识别DeepFake图像!

科技
 夕小瑶科技说 原创
 作者 | 芒果

引言:AI时代的信息真伪辨识

在人工智能迅猛发展的今天,我们面临着前所未有的信息真伪辨识挑战。AI技术,尤其是深度学习模型,已经能够生成极其逼真的图片、音频和视频内容,这些内容被统称为DeepFakes。DeepFakes的出现给信息的可信度和数字媒体的信任带来了严重的挑战。因此,识别DeepFakes成为了媒体取证领域中一个紧迫且关键的任务。

这篇论文研究了多模态大语言模型(LLMs)在DeepFakes检测上的作用。通过定性和定量实验,表明这些模型可以在不需要编程的情况下,揭示人工智能生成的图像。同时,讨论了这些模型在媒体取证任务中的局限性,并提出了可能的改进方法。

论文标题
Can ChatGPT Detect DeepFakes? A Study of Using Multimodal Large Language Models for Media Forensics

论文链接:
https://arxiv.org/pdf/2403.14077.pdf

多模态大语言模型在DeepFake检测中的应用

1. 多模态LLMs在文本和图像理解中的作用

多模态大语言模型(LLMs)是基于大规模神经网络的模型,具有数十亿参数,能够执行与自然语言相关的任务。这些模型通常采用变压器架构,特别是其注意力机制,能够评估不同单词对理解文本的重要性。LLMs通过在大量未标记文本上的训练,捕捉人类语言的统计模式,并可针对其他应用进行调整。最新的LLMs集成了视觉-语言模型,使其具备了多模态理解能力,能够接受图像作为输入并对其进行文本提示,从而在图像和视频内容的理解上展现出强大的能力。

2. DeepFake的定义及其对信息可信度的影响

DeepFake是指使用人工智能生成的媒体内容,它们因被用作散布虚假信息的手段而引起了人们的关注。DeepFake面部图像是最早也是最著名的例子,它们使用生成对抗网络(GANs)和扩散模型创建,具有极高的细节真实性,挑战了人类辨别真实人脸图像的能力。DeepFake的使用严重破坏了信息的可信度和数字媒体中的信任。

实验设计与评估

1. 实验目标与过程

本研究的目标是全面且定量地评估多模态LLMs检测DeepFakes的能力。实验设计旨在展示多模态LLMs在揭露AI生成的人脸图像方面的可行性和性能。实验过程包括为输入的人脸图像配上文本提示,并要求模型给出是或否的回答,以此来判断伴随的图像是否为AI生成。

2. 数据集和文本提示选择

实验基于FFHQ数据集的1000张真实人脸图像和数据集的2000张AI生成图像。考虑了两种AI生成模型,即StyleGAN2和Latent Diffusion,并采用了数据集的两种评估协议。文本提示是实验的关键,因为它是用户与多模态LLM聊天机器人进行媒体取证任务交互的唯一接口。实验中考虑了不同丰富程度的文本提示,以有效地引导LLMs给出有意义的回应。

3. 性能评价指标与模型参数设置

性能评价指标包括分类准确率和接收者操作特征曲线(ROC)下的面积(AUC)得分。AUC得分是[0,1]之间的实数,数值越高代表性能越好。模型参数设置方面,所有批量测试都通过API调用进行。对于Gemini模型,使用了免费的Gemini-1.0-pro-vision,支持每分钟最多60个请求。

实验结果:多模态LLMs在DeepFake检测中的表现

1. 定性和定量结果展示

在对多模态大语言模型(LLMs)进行DeepFake检测的实验中,观察到了一些关键的定性和定量结果。定性结果表明,多模态LLMs能够在一定程度上区分真实和AI生成的图像,这一能力是基于它们的语义理解。我们能够在一些案例中成功识别出AI生成的面孔和真实面孔。然而,这种识别能力并不是绝对的,也存在一些失败的案例。

定量结果显示,多模态LLMs在识别AI生成的图像方面的表现是令人满意的,其AUC(曲线下面积)得分约为75%。但是,它们在识别真实图像方面的准确性明显较低。这种差异产生的原因是,从LLMs的角度来看,缺乏语义不一致并不自动证实图像的真实性。

2. GPT4V与Gemini 1.0 Pro性能对比

在对比GPT4V和Gemini 1.0 Pro在DeepFake检测方面的性能时,发现GPT4V在原始数据上的AUC得分为79.5%,而在StyleGAN生成的面孔图像上的AUC得分为77.2%。相比之下,Gemini 1.0 Pro在性能上略有下降。在实际应用中,尽管Gemini 1.0 Pro在某些案例中能够准确地给出是/否的结果,但其支持证据并不充分。

3. 与现有DeepFake检测方法的比较

将多模态LLMs的性能与现有的DeepFake检测方法进行比较时,发现GPT4V和Gemini 1.0 pro的性能与早期的方法相当或略好,但与更近期的检测方法相比则不具竞争力。现有的有效DeepFake检测方法能够捕捉到训练真实和AI生成图像之间的信号级统计差异。与之相反,多模态LLMs的决策主要基于语义级异常,这通过自然语言中的额外解释反映出来。因此,即使LLM没有专门为DeepFake面部检测设计和训练,其包含的知识也可以转移到这项任务上。

提升多模态LLMs检测能力的策略

1. 文本提示的质量对性能的影响

文本提示的质量对多模态LLMs在DeepFake检测中的性能有着重要影响。研究发现,与直接图像取证相关的提示导致了高拒绝率,尤其是那些基于可能性评估和要求在真实或伪造之间做出选择的提示。而那些要求模型识别合成迹象的提示,导致了较少的拒绝,并且预测准确性相当。

2. 查询次数和数据集大小对结果的影响

查询次数的增加与AUC得分的提高呈正相关,这表明重复查询可能作为一种增强性能的集成方法。此外,数据集大小对GPT4V检测性能的影响表明,随着数据集的增大,对StyleGAN2和Latent Diffusion模型的性能趋于收敛。

3. 链式思考与少数样本提示的初步探索

研究者还探索了使用链式思考提示和少数样本提示来提高多模态LLMs的性能。这些提示通过提供逐步指导,在与LLM的交互对话中引出更相关的响应。初步结果表明,使用更精心设计的提示可以提高性能。但是,研究者等待LLMs支持一致的API调用以进一步探索这些策略。

结论与展望

尽管多模态LLMs在识别AI生成图像方面取得了一定的成效,但它们在识别真实图像的准确性方面表现较差。这种差异源于缺乏语义不一致并不自动确认图像的真实性。此外,多模态LLMs目前还没有结合信号线索或数据驱动方法来执行这项任务。虽然它们不依赖信号线索,可以识别任何生成模型创建的AI图像,但其性能仍然落后于最新的检测方法。

未来的研究将探索更复杂的提示策略,并将这些模型与传统的信号或数据驱动检测技术相结合,以提高多模态LLMs在媒体取证中的性能。此外,还将扩展多模态LLMs的应用范围,包括更广泛的媒体形式,特别是视频分析,并提高对图像-文本错配的检测能力。

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AI换脸以假乱真!蚂蚁数科发布反DeepFake产品,还设百万奖金池邀请黑客找bug国产「小钢炮」一夜干翻巨无霸GPT-4V、Gemini Pro!稳坐端侧多模态铁王座国产端侧小模型超越 GPT-4V,「多模态」能力飞升「最佳的抗皱塑形运动方案」研究表明:这两类运动可有效延缓皮肤衰老,特别是对于女性!上海AI Lab开源首个可替代GPT-4V的多模态大模型【解字】品“头”论“足”语言是一门艺术Burberry精选65折!Ganni/weekday大促4折起!GG小脏鞋85折!英国Nike半价!Fiorucci 3折!CPB肌肤之钥85折!Makeupforever半价!香港最大AI诈骗案!Deepfake换脸「英国CFO」,直接骗走公司2亿港币OpenAI一夜干翻语音助手!GPT-4o模型强到恐怖,ChatGPT学会看屏幕,现实版Her来了超越 GPT-4V 和 Gemini Pro!HyperGAI 发布最新多模态大模型 HPT,已开源标注受限也能识别多标签图像!中山大学等发布异构语义转移HST框架 | IJCV 20248B文字多模态大模型指标逼近GPT4V,字节、华师、华科联合提出TextSquareGPT-4V只能排第二!华科大等发布多模态大模型新基准:五大任务14个模型全面测评参数量不到10亿的OctopusV3,如何媲美GPT-4V和GPT-4?零一万物 API 上线,用户反馈多模态中文图表体验超过 GPT-4V一口气读完《沙丘》 ,零一万物宝藏API正式开箱!酷炫Demo实测,多模态中文图表体验超越GPT-4VOpenAI前安全负责人雷克将跳槽Anthropic;AI能有效识别绝大多数癌症扩散患者丨AIGC日报7036 血壮山河之枣宜会战 “扑朔迷离”南瓜店 13奥特曼斯坦福演讲全场爆满!GPT-5强到发指,Scaling Law依然有效跟着开源的InternVL,学习如何做自己的GPT-4V今日arXiv最热CV大模型论文:国产开源视觉大模型InternVL 1.5发布,赶超GPT-4V水准童年忆事 一、三虎OpenAI CEO Sam Altman斯坦福闭门会!GPT-5将远超GPT-4!端侧模型 OctopusV3 发布:手机上的超级助理,性能媲美 GPT-4V 和 GPT-4 的组合?GPT搜索引擎原型曝光!新模型GPT4-Lite驱动,虽然鸽了发布会但代码已上传今天起,这个重磅功能向 ChatGPT Plus 用户全面开放!GPT-4.5 疑似泄露, Altman 在线「吃瓜」永久激活GPT4.0!有效期至2296年!我上车了!!永久激活GPT4.0!有效期至2296年,我上车了!!JAMA:哈佛团队临床试验证实,阿司匹林可有效减轻脂肪肝中国正在掩盖一场经济危机面壁智能发布最强端侧多模态模型:超越Gemini Pro 、GPT-4V,图像编码快150倍!【诚邀投稿】2024 IEEE国际电能转换系统与控制会议(IEEE IEECSC 2024)华为现场演示AI文生图时出现sleep代码,请问time.sleep(6)起到了什么作用?
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。