Redian新闻
>
ICCV 2023 Oral | 南科大提出SGA:针对VLP模型的集合级引导攻击

ICCV 2023 Oral | 南科大提出SGA:针对VLP模型的集合级引导攻击

公众号新闻

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【多模态和Transformer】交流群

作者:摆渡(源:知乎,已授权)| 编辑:CVer公众号

https://zhuanlan.zhihu.com/p/650804162

本文是南方科技大学 郑锋老师课题组(SUSTech, Visual Intelligence & Perception Lab)针对视觉-语言预训练模型的对抗鲁棒性的研究。文章发表在 ICCV 2023,收录为 Oral。

在CVer后台回复:SGA,可下载本论文和代

Set-level Guidance Attack: Boosting Adversarial Transferability of Vision-Language Pre-training Models

文章链接:https://arxiv.org/abs/2307.14061
代码:https://github.com/Zoky-2020/SGA

TL; DR 本文关注对抗样本在视觉-语言预训练模型之间的迁移能力。文中将单一的图像-文本对扩展为集合级别的图像-文本对,并使用跨模态数据为监督信息来生成对抗样本。该方法大幅度地提升了对抗样本的跨模型迁移能力。

图0:集合级引导攻击(SGA)与现有方法对比

1. 简介

视觉-语言预训练(VLP)模型在诸多任务上都取得了 SOTA 的性能。尽管如此,近期的工作[1][2]表明在白盒场景下VLP模型面对恶意攻击时仍然表现出脆弱性。然而,在贴近现实的黑盒场景下,VLP模型的鲁棒性仍有待进一步挖掘,这对于VLP模型在现实场景中的安全部署具有重要意义。

本文从对抗迁移性的角度出发,首次探索 VLP 模型在黑盒场景下的对抗鲁棒性。作者首先评估了现有方法在基于 VLP 模型的多模态场景下的对抗迁移性,实验结果表明,现有的单模态攻击和多模态白盒攻击方法,都不足以生成具有强迁移性的对抗样本。作者将这种迁移性差的问题归结为现有方法在多模态任务下的局限性:缺少模态间交互和样本多样性不足。

为进一步提升多模态对抗样本的跨模型迁移能力,作者提出了一种集合级引导攻击(Set-level Guidance Attack, SGA)方法。该方法将单一地图像-文本对扩展为集合级别的图像-文本对,并以跨模态数据为监督信息,从而生成具有强迁移性的对抗样本。实验结果表明,SGA 能大显著提升对抗样本的跨模型迁移能力。

2. 观测现象

首先,本文评估了现有的对抗攻击方法(Sep-Attack, Co-Atttack)在基于 VLP 模型(ALBEF, TCL, CLIP)的多模态任务下的性能。其中 Co-Attack 为针对 VLP 模型的多模态对抗攻击方法,Sep-Attack 为现有的单模态对抗攻击方法(PGD + Bert-Attack)的组合。以下实验在图-文检索任务上进行,数据集为 Flickr30k。更多实验及分析请参见原文。

图1:不同模态对抗样本的迁移性

图2:白盒和黑盒性能对比。Sep-Attack(左),Co-Attack(右)

本文观察到:(1)同时攻击图像和文本相较于单独攻击图像或文本具有更好的迁移性(如图1);(2)白盒场景下具有高攻击性的对抗样本迁移到黑盒模型时,其攻击性会大幅下降(如图2)。

基于实验观察,本文认为这种迁移性的降低主要源于现有方法对多模态数据的不充分利用:(1)不同于单模态任务,VLP 模型依赖多模态数据间的交互。(2)多模态任务中,通常存在一对多、多对多的跨模态数据对齐(例如,一张图像对应多个文本描述)。Sep-Attack 等简单地结合单模态攻击方法的策略,并没有充分利用到多模态间的交互信息。对抗样本在多模态任务中的攻击效果应该体现在对于模态交互的破坏。而 Co-Attack 虽然考虑了多模态交互,但其使用单一的图像-文本对生成对抗样本,忽视了多对多的跨模态交互。因此,尽管现有方法生成的对抗样本在白盒模型上具有攻击性,但很难迁移到其他模型。

3. 方法介绍

本文提出集合级指导攻击(Set-level Guidance Attack, SGA),该方法包含两个部分:集合级数据增强和跨模态引导攻击。

4. 实验

(1)迁移性分析

为了评估现有的方法基于 VLP 模型所生成的对抗样本的迁移性,本文选取了 Sep-Attack 和 Co-Attack 两种方法作为基准,同时尽可能地结合已有的、针对对抗迁移性的单模态攻击方法(MI[3], DIM[4], PNA_PO[5])。

表1:现有方法的对抗迁移性

实验结果如表1所示,现有的对抗攻击方法虽然在白盒场景下能取得很好的攻击效果,但是其生成的对抗样本很难迁移到其他的黑盒模型。尽管结合不同的单模态迁移攻击方法,所生成的对抗样本的迁移性的提升依然有限。

(2)SGA跨模型迁移性

为了验证 SGA 生成的对抗样本在 VLP 模型上的迁移能力,本文在四个 VLP 模型(ALBEF, TCL, CLIP-ViT和CLIP-CNN),两个多模态数据集(Flickr30k 和 MS COCO)上进行了实验。实验结果如下表所示,

表2:SGA在Flickr30k数据集上的性能

实验结果表明,相较于现有的对抗攻击方法,SGA 能够大幅度提升对抗样本在 VLP 模型之间的迁移性,特别是同类型的 VLP 模型之间的迁移性,例如从 ALBEF 到 TCL。

(3)SGA跨任务迁移性

表3:跨任务迁移:图文检索—图片描述

表4:跨任务迁移:图文检索—视觉定位

此外,本文验证了基于 SGA 所生成的对抗样本的跨任务迁移能力,例如源模型用于图-文检索任务,而目标模型用于图片描述任务。如表3, 4所示,SGA 基于图文检索模型索生成的对抗图片迁移到其他任务模型时,仍然具有攻击性,进一步表明 SGA 有效地破坏了多模态数据之间的信息交互。

(4)消融实验

图3:消融实验:图像集(左),文本集(右)

本文对 SGA 中图像集和文本集的大小进行了消融实验。实验结果如图3(左)所示,逐步增加集合中图像尺度的多样性时,能够提升最终生成的对抗样本的迁移性。如图3(右),相较于单张图像表述,使用集合级的图像文本描述来生成对抗样本能显著提升迁移性。

(5)对抗样本可视化

对抗样本的可视化如图4所示。为了可视化效果,本文将对抗图像的扰动做了×50 的放大处理。

图4:对抗样本可视化

5. 总结

本文首次探索了视觉-语言预训练(VLP)模型中的对抗迁移性。文中通过实验观测到现有方法生成的对抗样本在 VLP 模型间迁移性不足,并揭示了当前对抗攻击方法在多模态场景中的局限性。进而,本文提出集合级引导攻击,引入集合级数据增强和跨模态引导攻击。实验结果表明,该方法大幅度地提升了对抗样本在 VLP 模型间的迁移性。

在CVer后台回复:SGA,可下载本论文和代


[1] Jiaming Zhang etc. Towards Adversarial Attack on Vision-Language Pre-training Models.
[2] Jielin Qiu etc. Are Multimodal Models Robust to Image and Text Perturbations?
[3] Yinpeng Dong etc. Boosting Adversarial Attacks with Momentum.
[4] Cihang Xie etc. Improving Transferability of Adversarial Examples with Input Diversity.
[5] Zhipeng Wei etc. Towards Transferable Adversarial Attacks on Vision Transformers.

点击进入—>【扩散模型和Transformer】交流群


ICCV / CVPR 2023论文和代码下载


后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:ICCV2023,即可下载ICCV 2023论文和代码开源的论文合集

扩散模型和Transformer交流群成立


扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-扩散模型或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF等。


一定要备注:研究方向+地点+学校/公司+昵称(如扩散模型或者Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群


▲扫码或加微信号: CVer333,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!


扫码进星球


▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
ICCV 2023 中国遥遥领先!华人拿下最佳论文和最佳学生论文!SAM和ControlNet开启CV新纪元!直播预告 | SemEval 2023最佳论文:针对命名实体识别的统一检索增强方法ICCV 2023 | 即插即用!百度提出S3IM:用于NeRF提点的Magic LossICCV 2023 | 只需过一次CLIP!美团&港大提出高效的开放字典语义分割框架DeOPICCV 2023 | 上交提出CCD:基于自监督字符到字符蒸馏的文本识别ICCV 2023 | 中科大&微软提出AFFNet:轻量级视觉新主干花·海11月必看!“新世界三大男高音”Juan Diego Flórez首次亮相澳洲!ICCV 2023 | 清华&天津大学提出SurroundOcc:自动驾驶的环视三维占据栅格预测2023 查尔斯河国庆夜的烟火招收博士生:南科大材料科学与工程系Yury Illarionov教授2D电子学课题组招生启事耧斗花,翩翩起舞【仲夏风轻】2023 加拿大森林大火纪实Oracle推出针对VS Code的Java扩展ICCV 2023 | 基于预训练视觉语言模型和大语言模型的零样本图像到文本生成​ICCV 2023 | 华科大提出NVDS:即插即用的视频深度预测框架2023 夏 北海道吃喝之旅ICCV 2023 | 清华&西电提出HumanMAC:人体动作预测新范式给大模型生成文本发身份证:针对大模型生成文本的可编码水印技术华为提出Sorted LLaMA:SoFT代替SFT,训练多合一大语言模型NeurIPS 2023 | 李飞飞团队提出SiamMAE:孪生掩码自编码器,刷榜视觉自监督方法!ICCV 2023 | 即插即用!上海交大提出AccFlow:跨帧光流估计框架ICCV 2023 | 比分割一切SAM更早实现交互式开集分割!港科大提出OpenSeeD:开放词表图像分割和检测画你所想!北航港大提出DiffSketcher:基于扩散模型的文本驱动矢量化手绘草图合成2023 加拿大森林大火纪实NeurIPS 2023 | 港科大提出EAC:"可解释一切"图像概念解释器CoRL 2023 | SA6D:针对被遮挡下新物体的自适应少样本6DoF姿态估计器ICCV 2023 | 北大提出MotionBERT:人体运动表征学习的统一视角掉价的房子买到了手,如今涨疯了南科大Adv. Mater.:稳定高效的水凝胶生物电子涂层有关UFO的巧合与假设比Meta「分割一切AI」更早实现交互式开集分割!港科大开放词表分割大法入选ICCV 2023五绝。股市与啤酒ICCV 2023 | 更快更强!北理工&旷视提出StreamPETR:纯视觉感知与激光雷达终有一战之力!ICCV 2023 最佳论文候选!北大提出UniDexGrasp++:基于几何感知课程和迭代通用-专家策略学习的灵巧手抓取算法𝐂𝐚𝐥𝐧𝐢𝐊𝐞𝐚𝐧双皮奶内衣裤,软弹有度,上身0束缚~SAM拿下ICCV 2023最佳论文荣誉提名奖!这些CV论文仍是顶流!中科大提出:LLMs的个性化综述,详述大模型与个性化的挑战与机遇处方药ICCV 2023 | 通向3D感知大模型的必由之路!UniTR:统一多模态Transformer Encoder!
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。