Redian新闻
>
清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?

清华团队攻破GPT-4V、谷歌Bard等模型,商用多模态大模型也脆弱?

公众号新闻

机器之心专栏

机器之心编辑部


GPT-4 近日开放了视觉模态(GPT-4V)。以 GPT-4V、谷歌 Bard 为代表的多模态大语言模型 (Multimodal Large Language Models, MLLMs) 将文本和视觉等模态相结合,在图像描述、视觉推理等各种多模态任务中展现出了优异的性能。然而,视觉模型长久以来存在对抗鲁棒性差的问题,而引入视觉模态的 MLLMs 在实际应用中仍然存在这一安全风险。最近一些针对开源 MLLMs 的研究已经证明了该漏洞的存在,但更具挑战性的非开源商用 MLLMs 的对抗鲁棒性还少有人探索。


为了更好地理解商用 MLLMs 的漏洞,清华朱军教授领衔的人工智能基础理论创新团队围绕商用 MLLM 的对抗鲁棒性展开了研究。尽管 GPT-4V、谷歌 Bard 等模型开放了多模态接口,但其内部模型结构和训练数据集仍然未知,且配备了复杂的防御机制。尽管如此,研究发现,通过攻击白盒图像编码器或 MLLMs,生成的对抗样本可以诱导黑盒的商用 MLLMs 输出错误的图像描述,针对 GPT-4V 的攻击成功率达到 45%,Bard 的攻击成功率达到 22%,Bing Chat 的攻击成功率达到 26%。同时,团队还发现,通过对抗攻击可以成功绕过 Bard 等模型对于人脸检测和图像毒性检测等防御机制,导致模型出现安全风险。



  • 论文链接:https://arxiv.org/abs/2309.11751

  • 代码链接:https://github.com/thu-ml/ares/tree/attack_bard


图 1:对抗攻击多模态大模型示例,可以使模型产生错误预测或者绕过安全性检测模块


下图展示了针对 Bard 的攻击测试。当输入自然样本图片时,Bard 可以正确描述出图片中的主体(“a panda’s face(一个熊猫的脸)”);当输入对抗样本时,Bard 会将该图片的主体错分类为 “a woman’s face(一个女人的脸)”。



对抗攻击方法


MLLMs 通常使用视觉编码器提取图像特征,然后将图像特征通过对齐后输入大语言模型生成相应的文本描述。因此该研究团队提出了两种对抗攻击 MLLMs 的方法:图像特征攻击、文本描述攻击。图像特征攻击使对抗样本的特征偏离原始图像的特征,因为如果对抗样本可以成功破坏图像的特征表示,则生成的文本将不可避免地受到影响。另一方面,文本描述攻击直接针对整个流程进行攻击,使生成的描述与正确的描述不同。


图像特征攻击:令  表示自然样本, 表示替代图像编码器的集合,则图像特征攻击的目标函数可以表示为:


其中,通过最大化对抗样本 x 和自然样本  的图像特征之间的距离进行优化,同时还确保 x 和  之间的  距离小于扰动规模


文本描述攻击:令  表示替代 MLLMs 的集合,其中  可以在给定图片 x ,文本提示 p 以及之前预测的词  时,预测出下一个词的概率分布,表示为 。因此,文本描述攻击可以表述为最大化预测目标句子 的对数似然:



值得注意的是文本描述攻击是针对给定目标句子的有目标攻击,而不是最小化真实描述的对数似然的无目标攻击,这是因为存在对图像的多个正确描述。


攻击方法:为了解决上述对抗样本的优化问题,该研究团队采用了自研的目前迁移性最好的对抗攻击方法 Common Weakness Attack (CWA)[1]。


数据集:在 NIPS17 数据集 [2] 中随机选取 100 张图片作为自然样本。


替代模型:对于图像特征攻击选用的替代模型为 ViT-B/16、CLIP 和 BLIP-2 的图像编码器;对于文本描述攻击选用 BLIP-2、InstructBLIP 和 MiniGPT-4。


评价指标:测量攻击成功率来评估的鲁棒性。认为只有当图像中的主体被错误地预测时,攻击才成功,其他错误的细节,如幻觉,物体计数,颜色或背景,被认为是不成功的攻击。


下图分别展示了针对 GPT-4V、Bard、Bing Chat 上对抗样本攻击成功的示例。


图 2:攻击 GPT-4V 示例,将羚羊描述为手。

图 3:攻击 Bard 示例,将大熊猫描述为女人的脸

图 4:攻击 Bing Chat 示例,将白头雕识别为猫和狗

图 5:攻击文心一言示例,将咖啡识别为手表

下表中展示了上述方法针对不同商用模型的攻击成功率。可以看到,Bing Chat 存在很大的几率拒绝回答带有噪声的图像。整体上谷歌 Bard 的鲁棒性最好。

表 1:针对商用多模态大模型的攻击效果


针对 Bard 防御机制的攻击


在该研究团队对 Bard 的评估中,发现 Bard 部署了(至少)两种防御机制,包括人脸检测和毒性检测。Bard 将直接拒绝包含人脸或有毒内容的图像(例如,暴力、血腥或色情图像)。这些防御机制被部署以保护人类隐私并避免滥用。然而,对抗攻击下的防御鲁棒性是未知的。因此,该研究团队针对这两种防御机制进行了评估。


人脸检测器攻击:为了使 Bard 的人脸检测器无法识别到对抗样本中的人脸并输出带有人脸信息的预测,研究者针对白盒人脸检测器进行攻击,降低模型对人脸图像的识别置信度。攻击方法仍然采用 CWA 方法,在 LFW 和 FFHQ 等数据集上进行实验。


下图为人脸对抗样本在 Bard 上攻击成功的示例。总体上对 Bard 人脸检测模块的对抗攻击成功率达到了 38%,即有 38% 的人脸图片无法被 Bard 检测到,并输出对应的描述。


图 6:攻击 Bard 的人脸检测模型


毒性检测器攻击:为了防止提供对有毒图像的描述,Bard 采用毒性检测器来过滤掉此类图像。为了攻击它,需要选择某些白盒毒性检测器作为替代模型。该研究团队发现一些现有的毒性检测器是预训练视觉模型 CLIP 上进行微调得到的。针对这些替代模型的攻击,只需要扰动这些预训练模型的特征即可。因此,可以采用与图像特征攻击完全相同的目标函数。并使用相同的攻击方法 CWA。


该研究团队手动收集了一组 100 张含有暴力、血腥或色情内容的有毒图像,对 Bard 的毒性探测器的攻击成功率达到 36%。如下图所示,毒性检测器不能识别具有对抗性噪声的毒性图像。因此,Bard 为这些图像提供了不适当的描述。该实验强调了恶意攻击者利用 Bard 生成有害内容的不合适描述的可能性。


图 7:攻击 Bard 的毒性检测模型


讨论与总结


上述研究表明,通过使用最先进的基于迁移的攻击来优化图像特征或文本描述的目标,目前主流的商用多模态大模型也会被成功的欺骗误导。作为大型基础模型(例如,ChatGPT、Bard)已经越来越多地被人类用于各种任务,它们的安全问题成为公众关注的一个大问题。对抗攻击技术还可以破坏 LLM 的安全与对齐,带来更加严重的安全性问题。


此外,为保证大模型的安全性,需要针对性进行防御。经典的对抗训练方法由于计算成本较高,应用于大规模预训练模型较为困难。而基于图像预处理的防御更适合于大模型,可以通过即插即用的方式使用。一些最近的工作利用了先进的生成模型(例如,扩散模型)以净化对抗扰动(例如,似然最大化 [3]),这可以作为防御对抗样本的有效策略,但是总体来说如何提升大模型的鲁棒性和抗干扰能力,仍然是一个开放的问题,尚有很大的探索和提升空间。


相关文献:

[1] Huanran Chen, Yichi Zhang, Yinpeng Dong, and Jun Zhu. Rethinking model ensemble in transfer-based adversarial attacks. arXiv preprint arXiv:2303.09105, 2023.

[2] https://www.kaggle.com/competitions/nips-2017-non-targeted-adversarial-attack

[3] Huanran Chen, Yinpeng Dong, Zhengyi Wang, Xiao Yang, Chengqi Duan, Hang Su, and Jun Zhu. Robust classification via a single diffusion model. arXiv preprint arXiv:2305.15241, 2023.


© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:[email protected]

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
清华系ChatGLM3现场怼脸演示!多模态直逼GPT-4V,国产Code Interpreter来了AI搞定谷歌验证码,最新多模态大模型比GPT-4V空间理解更准确 | 苹果AI/ML团队刚刚开源!中科大提出利用GPT4-V构建大规模高质量图文数据集ShareGPT4V,助力模型霸榜多项多模态榜单!谷歌发布Gemini,负责人:原生多模态大模型是AI「新品种」,正探索与机器人结合112页报告深挖GPT-4V!UCLA等发布全新「多模态数学推理」基准MathVista西交、清华等发布多模态大模型,有望成为「DALL·E 4」技术路线?和AI一起「白日作梦」GPT-4被骗进「盗梦空间」!IBM发现ChatGPT极易受骗,微软发起红队攻击MiniGPT-4升级到MiniGPT-v2了,不用GPT-4照样完成多模态任务5139 血壮山河之武汉会战 信罗战役 12破解一切模态,无限接近AGI!新加坡华人团队开源全能「大一统」多模态大模型GPT-4V多模态能力惊人!公式截图直出代码,「龙与魔法世界」瞬间生成,OpenAI总裁激动转发中科大&字节提出UniDoc:统一的面向文字场景的多模态大模型挑战GPT-4V!清华唐杰&智谱开源多模态14边形战士,在线可玩马毅团队新作!微调多模态大模型会「灾难性遗忘」,让性能大减实现输入到输出「模态自由」, NUS华人团队开源NExT-GPT,最接近AGI的大一统多模态大模型来了多模态大模型能力测评:Bard 是你需要的吗?大模型+自动驾驶=?普渡大学等最新《自动驾驶领域多模态大型语言模型》综述思谋进博会首秀:发布全球首个工业多模态大模型,现场与松下、江森自控签署全面战略合作多模态大模型迸发,创业机会和挑战在哪?丨GAIR 2023震惊!!!谷歌发布最强多模态大模型GeminiDreamLLM:多功能多模态大型语言模型,你的DreamLLM~闲话枫泾镇UC伯克利团队开源MemGPT大模型上下文内存管理方案;AgentLM、多模态Fuyu-8B、数学LLEMMA等专用大模型开源《愿天地安详》&《回来》阿里云中标9亿AI算力大单;浙大校友开源LLaVA-1.5多模态大模型;Meta因开源模型遭抗议丨AIGC大事日报正面硬刚GPT-4V!浙大校友开源多模态大模型LLaVA-1.5,130亿参数8个A100一天训完Erklärung zur Zusammenarbeit笑谈邂逅(34)张必锟先生应邀到农垦中学当顾问马毅团队新作!微调多模态大模型会「灾难性遗忘」GPT-5来了?OpenAI被曝加急训练多模态大模型Gobi,一举狙杀谷歌Gimini!曝OpenAI大模型新进展!将推出多模态大模型,新项目Gobi筹备中全球首个开源多模态医疗基础模型:人工打分平均超越GPT-4V、支持2D/3D放射影像超越同级7B模型! 中国团队开源大规模高质量图文数据集ShareGPT4V,大幅提升多模态性能挑战GPT-4V,浙大校友推出开源版多模态大模型,获GitHub 6k+星标凯利安—墨菲和电影《奥本海默》
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。