ICLR 2022 | 基于积分梯度的迁移对抗攻击
©PaperWeekly 原创 · 作者 | 鬼谷子
引言
该论文是关于黑盒对抗攻击的工作。论文中作者提出了一种基于积分梯度的可迁移性攻击算法(TAIG),该算法可以生成高可迁移性的对抗样本。作者将三种方法分别是优化标准目标函数、注意力图和平滑决策面集成到论文方法 TAIG 中,作者研究了两种计算直线路径和随机分段线性路径上积分梯度的 TAIG。实验结果表明,论文中提出的方法生成了高迁移性的对抗样本,并且可以与以前的方法进行无缝协同工作,而且 TAIG 的性能优于现有的方法。论文代码目前已经开源了。
论文标题:
Transferable Adversarial Attack based on Integrated Gradients
https://arxiv.org/abs/2205.13152
https://github.com/yihuang2016/TAIG
预备知识
令 是一个分类器网络,该网络将输入 映射成输出向量,其中输出向量的第 个元素表示的是 logit 层第 个输出单元; 表示的是网路将输入 映射成第 类的输出值,即 ,其中 表示的是转置操作。
和 分别表示干净样本和对抗样本,其中 和 分别表示的是干净样本和对抗样本的第 个像素。 是输入 的类别。
积分梯度是一种将深度神经网络的预测归因于其输入特征的方法,其计算的属性表示每个像素对网络输出的重要性,也可以看作是注意值和显著值。积分梯度主要基于两个公理发展而来,即灵敏度和实现不变性,并且满足另外两个公理,即线性性和完备性。积分梯度是从参考图像 到输入图像 的梯度的线性积分。输入 的第 个像素的积分梯度定义为:
其中 表示的是 的第 个像素,且 一般会选取黑色图像。完备性公理表示 和 之间的距离等于 之和:
为了简化符号, 和 被用作表示 , 和 被用作表示 。
基于积分梯度的可迁移性攻击
作者提出了无目标攻击的基于积分梯度的可迁移攻击两个版本的算法。第一种方法基于原始积分梯度,在直线路径上进行积分。该版本称为基于直线路径上积分梯度的可迁移攻击(TAIG-S),其攻击方程定义为:
其中积分梯度是从 的标签 计算得来的, 表示的是控制步长。第二个版本称为基于随机分段线性路径积分梯度的可迁移攻击(TAIG-R)。令 是一个随机分段线性路径, 是 个分段点,其中 是初始点, 是终止点。从 到 的线段部分被定义为:
其中 。当计算线段的积分梯度时, 表示为参考图片,整个路径的积分梯度被定为如下所示:
根据随机分段线性路径计算的积分梯度称为随机路径积分梯度(RIG),并且 RIG 仍然满足完整性公理:
随机路径中的转折点 由以下公式所得:
其中 和 是一个服从 均匀分布的随机向量,TAIG-R 的攻击方程式如下所示:
除了将在 TAIG-S 中的 被 所替,其它的与 TAIG-S 一样。与 PGD 和 BIM 一样,TAIG 可以进行迭代。在 TAIG 中使用符号函数 和 之间的距离由 范数所测量。作者主要从优化的角度解释 TAIG,然后从注意力分布和平滑性的角度解释 TAIG。利用完备性公理, 的最小化公式可以写成:
因为 是独立于 ,所以它可以被忽略。对于 ReLU 网络,以下公式可以被证明:
其中 的第 个分量为:
具体的证明如下所示。
证明:对于 ReLU 神经网络, 的 个分量被证明如下所示:
考虑如下公式:
使用乘积法则可以得到:
当 时,则有 ;否则有 。因此则有如下公式:
在 ReLU 神经网络中可知:
进而则有:
又因为:
所以最后则有:
作者使用微分的定义计算 关于 的微分如下所示:
其中 中除了第 个元素为 1,其它元素全是 。使用向后差分法可以近似得到:
其中 ,根据完备性公理,如果一个对抗样本 且有对于任意的 ,,则有 , 表示的是一个黑色图片。对抗样本的网络输出和黑色图像是一样的,这也暗示着对抗样本有一个高概率去被误分类。 表示在 和 的斜率。 和 被分别看作是样本 和目标对抗样本第 个分量的积分梯度。目标积分梯度 被设置为 目的是对网络输出没有贡献,进而则有:
其中 是正定的,TAIG-S 使用的是 的符号函数。作者得到以下结论:1) 被用作去近似 ReLU 网络中的 ;2)近似的质量依靠于 值,所以 和 没有必要的值足够近。为了能够保证 的最小化,作者选择后向差分而不是前向差分。
实验结果
如下图所示为定性的实验结果,下图显示了来自不同网络的原始图像的积分梯度,从左到右分别来自 ResNet50、InceptionV3 和 DenseNet121 的原始图像和相应的积分梯度。
下图显示了 TAIG-S 和 TAIG-R 攻击前后的积分梯度,第一行是原始图像和攻击前后的 IG。第二行是原始图像和攻击前后的装备。从左到右的图像是原始图像、图像的原始 IG、TAIG-S 攻击后的 IG 和 TAIG-R 攻击后的 IG。结果来自ResNet50。,这表明不同模型对相同图像具有相似的积分梯度,并且 TAIG-S 和 TAIG-R 方法可以显著修改积分梯度。
下表列出了无目标多步攻击的实验结果。可以发现论文中提出的 TAIG-S 方法要显著优于 AOA 和 SI,但弱于 LinBP。除了 SENet 之外,所提出的 TAIG-R 在所有模型中都优于所有最先进的方法。
如下表所示,论文中提出的方法 TAIG-R 的平均攻击成功率为 70.82%,比排名第二的 LinBP 高出 25.61 个百分点,而且论文中提出的方法 TAIG-R 在攻击先进防御模型方面优于所有最先进的方法。
由于 TAIG-S 和 TAIG-R 方法几乎相同,除了计算积分梯度的路径和 TAIG-R 在之前的实验中优于 TAIG-S 之外,作者将 设置为 16/255,下表表明 TAIG-R 在不同的代理模型上表现相似。
如下表结果所示,论文中提出的 TAIG-S 方法和 TAIG-R 方法有效地增强了其他方法的可转移性。与其它实验一样,TAIG-S 方法和 TAIG-R 方法的表现也是最好的。
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者