TIP 2022 | 从分布视角出发理解和提升对抗样本的迁移性

公众号新闻

2023-02-19 10:02

©作者 | 陈兆宇

单位 | 复旦大学ROILab

研究方向 | 对抗样本

论文标题：

Towards Understanding and Boosting Adversarial Transferability from a Distribution Perspective

论文链接：

https://arxiv.org/abs/2210.04213

官方代码：

https://github.com/alibaba/easyrobust

解决的问题

对抗迁移性（adversarial transferability）是指对抗样本可以在不同架构和参数的模型上产生攻击，即允许攻击者使用替代模型上生成的对抗样本来攻击未知的目标模型。

现有研究对抗迁移性的工作都是从模型的角度出发，认为决策边界、模型架构和替代模型测试集上准确率对对抗迁移性具有一个大的影响。因此，很多工作引入了数据增强或者训练生成器来减少对替代模型决策边界的依赖。另外，也有一些工作修改了模型的架构或者利用模型中间层的特征。上述方法在非目标攻击（untargeted attack）上很有效，但是在目标攻击（targeted attack）的场景下性能很有限。

在本文中为了充分理解对抗迁移性性，尤其是在目标攻击场景中，作者从数据分布提出了一个新的视角。回想一下机器学习中的经典假设，即与训练数据集独立同分布的验证集数据可以被不同的模型正确分类，而分布不均的样本会导致模型难以分类。于是，定义训练数据集的分布为，作者假设不同的模型倾向于将与同分布的验证数据预测为 y，而很难将与非同分布的数据分类为 y。

因此，将图像移出其原始分布会导致不同模型难以对这种分布外的样本进行分类，从而可以增强非目标攻击的迁移性。将图像拖入目标分布会误导不同的模型将图像归类为目标类别，可以增强目标攻击的迁移性。

为此，作者提出了一种名为分布相关攻击（Distribution-Relevant Attack，DRA）的方法来证明上述假设。该方法试图将输入图像推离其原始分布以生成可迁移的对抗样本。然而，由于无法访问真实数据集的数据分布，因此将图像直接推离其原始分布在技术上具有挑战性。

于是，作者借鉴了分数匹配生成模型（score-matching generative models）的思想，提出估计真实数据分布的梯度并通过 Langevin 动力学，使用真实数据的估计梯度迭代地生成特定分布的图像。先前的工作都利用梯度来最大（或者最小化）模型的输出的交叉熵，在非目标（或者目标）攻击下。

为了估计迁移攻击中真实数据分布的梯度，作者微调代理分类器以匹配模型条件密度的梯度和真实数据分布的梯度。因此，微调模型的梯度可以近似于真实数据分布的梯度，并且微调模型的梯度生成对抗样本的过程可以近似于 Langevin 动力学的过程，这使能够操纵图像的分布。将使用微调模型将图像推离原始分布同时生成对抗样本的攻击称之为 Distribution-Relevant Attack（DRA）。更重要的是，DRA 兼容现有的迁移攻击，可以大大提高这些攻击的性能。

总的来说，作者从数据分布的角度来思考对抗迁移性，利用真实数据集来微调模型，使得微调模型的梯度方向能跟真实数据的梯度方向一致，从而提高对抗迁移性。

提出的方法

2.1 问题定义

基础的符号定义就是常规的。此外，代表总类别数，代表最后一层的第 k 个输出。所以，条件概率密度可以表述为：

非目标攻击和目标攻击可以分别描述为：

迁移攻击的目标是使用代理模型生成的对抗样本来误导目标模型。

2.2 动机

现有的迁移攻击迭代地最小化（目标攻击）代理模型以生成对抗样本（非目标攻击）或最大化，然后使用这些对抗样本来攻击目标模型。然而，现有的迁移攻击很难成功地进行目标攻击。而且，缺少为什么最小化替代模型的也可以攻击架构和参数跟替代模型不一样的其他模型的解释。

在本文中，作者建议从数据分布的角度理解和改进对抗迁移性，它建立在机器学习方法中的经典假设之上，即深度模型可以正确分类与训练数据集独立且相同分布的验证数据，但很难对分布外的样本进行分类。

具体来说，模型倾向于正确预测跟分布一致的图像为 y，但不能处理其原始分布的分布外。因此假设将图像移出其原始分布可以实现高非目标的对抗迁移性，并将图像拖入目标分布可以实现高目标对抗迁移性。挑战来自如何将图像推离其原始分布，因为一般无法访问真实数据类别的条件数据分布。

作者利用 score-matching generative models 来估计真实数据的分布，并借助Stochastic Gradient Langevin Dynamics（SGLD）将原始分布的图像推到目标分布：

当和，是相当于从中真实采样的。更新 SGLD 通过的相反方向可以将图像远离分布。基于上述推理，数据分布的梯度可用于通过迭代方法操纵输入图像的分布。

在本文中，作者提出将正常对抗攻击梯度的 log 条件密度跟真实数据类别 log 条件数据分布进行匹配。通过这种方式，对抗攻击可以逼近真实类条件数据分布的梯度方向。

具体地说，以目标攻击为例，如果跟匹配得很好，那么目标攻击可以视为 SGLD 采样

的近似，相当于将图像拉到目标分布中。

下图表明，这种可以将目标分布的特征印记到图像上，并将树蛙语义更改为玉米，这可以误导模型将图像分类为目标类。与现有的迁移攻击相比，本文的方法旨在从本质上操纵图像的分布，而不仅仅是最小化或最大化分类损失。

2.3 利用梯度降低分布的距离

作者定义了 DCG 距离（Distance between the gradient of log Conditional density and the gradient of log Ground truth class-conditional data distribution）为：

为了方便思考，先忽视这里的积分符号。第一项是常数，因为不依赖模型的参数。中间项是好处理的，因为没有涉及跟真实数据分布相关的分数。而最后一项是无法直接计算的，因为真实数据分布是不知道的。Score matching methods 可以利用部分积分来消除这个真实数据分布的分数。作者引入这个方法后，一波推导（见正文），进行整理后得到：

忽视常数，定义 DCG 的损失函数为：

因为 tr 这一项需要大量计算，作者引入 Hutchinson’s trick 得到最终的 loss（推导见正文）：

在实践中，可以调整样本数量 v 来权衡估计性能和计算成本。参考现有方法，在训练过程中为每个输入独立采样一个随机向量 v。Eq. 10 中的第一项可以通过一次反向传播来计算。第二项涉及 Hessian，但它是 Hessian 向量乘积的形式，可以在 O(1) 反向传播中计算。因此，Eq. 10 的计算不依赖于数据的维度，并且可以扩展以在高维数据集上训练深度模型。

综上所述，我们通过在训练期间联合优化分类损失和 DCG 损失来微调代理模型。优化目标可以表示为：

2.4 Distribution-Relevant Attack

这本节中，使用上节的分布相关微调代理模型将攻击命名为分布相关攻击（DRA）。DRA 包括两个步骤：微调代理模型以减小模型梯度与真实数据分布梯度之间的距离，并使用微调的代理模型在真实数据分布的近似梯度的指导下生成对抗扰动。具体算法如下所示：

利用微调后的模型，引入 PGD 攻击的框架得到非目标和目标攻击：

相较于单纯的 PGD，用 DRA 之后的进行 PGD 会具有更多的语义信息，如下图所示：

实验和效果

微调细节：需要在 ImageNet 上微调 20 个 epoch。在 V100 上训练 1 个 epoch（基于 ResNet50）需要大概 8 小时。

攻击设置：扰动为 16/255，步长 2/255。非目标攻击的迭代次数为 10，目标攻击的迭代次数为 300。

非目标攻击的性能：

目标攻击的性能，目标类别为特定 10 个类：

暂时主要关注这两个主实验，这篇文章21年12月投的，当时一些最新的target攻击方法确实还没出来。

总结和不足

这种方法降低了对替代模型的依赖，改变了对输入图像的数据分布，而且目标攻击的扰动具有一定的语义性。但是我感觉问题还挺大的：

1. 第一是在迁移攻击的时候，其实很难获取到训练数据集的，尤其是同源的，难度更大。像这种用 ImageNet 直接 fine-tune 的情况其实并不常见。从这个角度出发，其实对比有点不公平，比如普通的 PGD 或者 DI 只有一张图的信息，但是 DRA+PGD 其实利用了整个数据集的信息。论文对比了 DRA 下和没有 DRA 下非目标攻击的性能，DRA 确实提升了迁移性，但是目标攻击的没有做。

2. 第二是，这个微调的成本还是蛮高的，跟其他迁移攻击的效率不在一个复杂度上。

不过，从数据分布的这个角度来研究对抗迁移性，确实具有蛮大的启发意义。

更多阅读