EMNLP 2022 | 北大提出基于中间层特征的在线文本后门防御新SOTA

2022-11-07 05:11

©PaperWeekly 原创 · 作者 | 陈思硕

单位 | 北京大学

研究方向 | 自然语言处理

本文为北京大学的研究者提出的基于中间层特征的文本后门防御工作，其基于对近年来提出的多种针对预训练语言模型的后门攻击（backdoor attack）的分析，经验性地揭示了下毒样本（poisoned examples）和干净样本（clean examples）在带后门模型的中间层特征空间是高度可分的，由此设计了一种集成各中间层特征距离分数的在线后门检测方法 DAN（Distance-Based Anomaly Score），用于在模型推理阶段检测下毒样本。

在多种场景下的实验结果证实，DAN 对后门攻击的防御表现远超基线方法，并享有即插即用、不需要额外训练和推理开销的优势。日前，该论文被 Findings of EMNLP 2022 录用。

论文标题：

Expose Backdoors on the Way: A Feature-Based Efficient Defense against Textual Backdoor Attacks

论文链接：

https://arxiv.org/pdf/2210.07907.pdf

收录会议：

Findings of EMNLP 2022

问题背景

1.1 NLP中的后门攻击

以 BERT 为代表的预训练语言模型在各类 NLP 下游任务上取得了前所未有的优越表现，但它们很容易受到后门攻击的威胁 [1][2][3][4][5][6]。

具体来说，攻击者可以在训练阶段对模型权重下毒，使模型将某个预定义的触发器（trigger，在NLP中一般是某个稀有词或者句子）和某种期望的输出标签（target label）联系到一起；受害者下载被下毒的预训练权重部署上线后，模型在干净数据上表现正常，而攻击者可通过在输入数据中插入 trigger 来激活后门，从而控制模型输出预定义的 target label，即使受害者在自己的干净数据上 fine-tune 该模型，后门依然能保持有效 [2]。

下图是代表性工作 Weight Poisoning Attacks on Pretrained Models [2] 中给出的攻击过程示意图和以稀有词为 trigger 的部分数据（原本负面的评价被攻击为正面）：

1.2 NLP中的后门防御

考虑到在大模型时代，缺乏计算资源的用户通常下载预训练权重直接使用或者作为初始化进行微调，潜在的后门攻击对预训练-微调这一范式造成了严重的安全威胁。因此，研究者提出了一系列防御方法以保护 NLP 模型免受后门攻击的威胁，总体可分为三类：

数据集保护 Dataset Protection：目标是去除公共数据集中带后门的下毒数据 [7]，适用于用户下载公共数据集、从随机初始化开始训练模型的场景（在 CV 中更常见），不适用于 NLP 中流行的模型下毒（weight poisoning）设定（用户下载被下毒的第三方模型权重直接部署或者进行微调）；
离线防御 Offline Defense：在模型部署上线之前试图检测预训练权重中是否存在后门并/或通过剪枝、微调等优化方法消除之，如 T-Miner [8]、Fine-Pruning [9]、Fine-Mixing [9] 等，其缺点是需要额外的训练优化过程，对缺乏专业知识的普通模型用户并不友好；
在线防御 Online Defense: 目标是在模型部署上线后，能将带 trigger 的样本作为异常输入识别出来拒绝预测，从而达到在线防御后门攻击的目的，如 STRIP [11]、ONION [12]、RAP [13] 等，不需要重新训练受保护的模型本身，对普通的模型用户较友好，本文提出的防御方法也属于在线防御。

在线后门防御实际上是一个异常检测问题，可以表述为一个二分类问题，即防御方法通过异常值分数判断输入样本是否属于干净数据分布：

其中为用户选定的阈值，的值越高则说明防御方法越倾向于将识别为带后门 trigger 的下毒样本（poisoned example）。

1.3 基线方法的问题

如上所述，在线防御方法的核心就在于计算异常值分数，NLP 领域中现存的三类基线方法都是基于下毒样本在文本输入或者模型输出概率方面上与干净样本不同的特性：

STRIP [11]：基于输出概率层面的差异：由于 trigger 的效应较强，删除输入中的部分 token 对下毒样本对应的输出概率的影响，比对干净样本对应输出概率的影响小，因此只要对输入进行多次扰动，以输出概率分布的熵取负作为即可检测下毒样本（下毒样本的熵应当比普通样本的小）；
ONION [12]：基于输入层面的差异：NLP 中的后门攻击大多以稀有词为 trigger，而插入稀有词会导致输入文本的 perplexity（language modeling 的困惑度）升高，因此只要每次删去输入文本中的一个 token，输入预训练语言模型（如 GPT）得到 perplexity，以 perplexity 的下降幅度作为即可检测下毒样本（下毒样本的 trigger word 被删除时句子会恢复原状导致 perplexity 大幅下降，因此下毒样本的 perplexity 变化幅度一般更高）；
RAP [13]：基于输出概率层面的差异：由于 trigger 的效应较强，下毒样本和干净样本相比，对对抗扰动的鲁棒性更强，因此可以构造一个通用的对抗扰动，以扰动前后模型对 targel label 对应类的的输出概率变化作为来检测下毒样本（下毒样本对应的变化幅度一般较小）。

但是，这些基于输入或输出层面的防御方法存在两方面问题：

安全问题: 后门样本在输入或输出层面的特性很容易被构造出来的 adaptive attack 掩盖，如当 trigger word 只有一个时，STRIP 使用的输出熵分数往往会使干净样本和下毒样本难以区分 [13]；对 ONION 防御，只要将 trigger word 的数目改为两个或者使用一个正常句子作为 trigger 即可绕过 [14]；对 RAP 防御，只需要通过对抗训练增强干净样本的对抗鲁棒性就可以绕过 [15]；
效率问题：它们都需要对输入样本进行扰动以观察指标的变化，效率较低，而且往往需要额外的预训练模型或优化过程：STRIP 需要次扰动、输入（为预定义的超参数，一般取 20）；ONION 需要额外的 GPT 模型，需要次扰动、输入（为输入文本中的 token 数目）；RAP 需要一个额外的构建对抗扰动的优化过程，测试阶段每个样本需要两次输入（一次输入原样本，一次插入对抗扰动后输入）。

因此，它们离真正的高效防御尚有差距，理想的在线防御方法应该对 adaptive attack 鲁棒，并免于正常的一次前向传播以外的额外计算开销。为此，受视觉领域中利用中间层特征层面的指标来检测对抗样本 [16]、后门样本 [17]、分布外样本 [18] 等异常数据的做法之启发，我们将研究目光转向调查下毒样本在 NLP 模型中间层特征空间的中的表现。

我们发现，在受后门攻击的预训练语言模型的中间层特征空间中，下毒样本和干净样本是高度可分的，我们基于此设计的在线防御方法 DAN 鲁棒而高效，并对针对性设计的 adaptive attack 免疫，详见下文。

方法

2.1 下毒样本在特征空间中不隐蔽

首先，为了直观地展示下毒样本在带后门 NLP 模型的特征空间的特性，我们对 BERT 模型在 IMDB 情感分类任务上进行了以稀有词 mn 为 trigger 的 BadNet 攻击 [19]，target label 为 1（正面情感）。

如下图（左）中对最后一层 CLS 向量的 UMAP 降维可视化所示，下毒样本（红色，原本是负面情感，插入 trigger 后被模型判断为正面情感）和干净的两类数据的分布流形（蓝色和橙色）都距离很远，启示我们可以利用该距离分数来在线检测下毒样本；右图是干净测试样本和下毒测试样本到干净的验证集数据（clean validation data）分布的马氏距离（Mahalanobis distance）的可视化，可以看到干净的分布（绿色）和下毒的分布（红色）之间有明显的 gap。

为了量化干净样本和下毒样本在特征空间中的可分性，并验证这一现象在模型不同层、不同类型后门攻击下的普遍性，我们定义了一个定量指标 layer-wise AUROC。具体来说，我们假设防御者拥有一个小规模的干净验证集，可以在其上估计干净样本的特征分布，将第层之后的中间特征分布视为以类别标签为条件的多元高斯分布，估计类别的均值向量和全局协方差矩阵：

其中为验证集中类别为的数据集合，为该集合大小，为总的类别数据，为验证大小，表示模型对输入在第个中间层后输出的特征。接着，对任意测试数据点，我们计算到最近的类别中心的马氏距离来衡量到干净数据分布的距离：

之后，就可以在干净的测试数据和下毒测试数据上估计 layer-wise AUROC 值以量化两者的可分性：

其中为任意干净测试样本，为任意干净下毒样本，的意义是在第层中，干净样本到验证集分布的距离比下毒样本到验证集分布的距离更近的概率，100% 的 AUROC 说明两者的分布完全分开，50% 的 AUROC 则说明该距离相当于一个随机分数。我们在 SST-2 数据集上对 BERT-base 模型发动了六种常见的后门攻击，计算了 1-12 层的 layer-wise AUROC 值，展示如下：

可以观察到：

下毒样本在中间层并不隐蔽，对每种攻击方法，最高的 AUROC 值都达到或接近 100%；
适于检测下毒样本的中间层位置在各种攻击下不一致，BadNet-RW [19]（以稀有词为 trigger 的 BadNet 攻击)、BadNet-SL [14]（以句子为 trigger 的 BadNet 攻击）、DFEP [3]（data-free embedding poisoning，使用 wiki 数据对稀有词向量下毒）这三类攻击中的后门样本在接近输出的顶层部分离干净数据分布最远；另外三种攻击，即 RIPPLES 攻击 [2]、LWP攻击 [4]（layer-wise poisoning，对每一层插入 auxilliary classifier 加强下毒效果）、EP [3]（对稀有词向量下毒）中的后门样本在底层和中层与干净样本的可区分度更高。

2.2 DAN Score

受以上的现象和分析启发，我们的目标是设计一个基于到干净样本分布距离的在线后门检测算法,要从各层分数分数中获取一个通用的 anomaly score 是 non-trivial 的，因为如上一小节所示，对不同类型的后门攻击，用于检测后门样本的最佳中间层是不同的，而实际应用中防御者并不知道潜在后门攻击的类型。

一个潜在方案是聚合各层的距离分数，如直接取的平均。但是，考虑到各层特征的范数大小可能不同，来自各层的距离分数并不直接可比，如果简单地去平均，可能会导致最后的分数更多地依赖于特征范数较大的某几层。为缓解各层特征范数不一致带来的潜在问题，我们在聚合前对进行正则化：

其中和是在第层干净验证集样本上估计的均值和方差。为避免过拟合，我们用 80% 的验证集数据估计和，剩下的 20% 用来估计和。对各层分数正则化之后，最后的异常分数 DAN（distance-based anomaly score）定义如下：

其中为聚合操作符，我们实现时选用，即选择离干净样本分布的距离最远的那一层对应的（正则化后的）分数作为最后的 DAN score。整个 DAN score 的估计流程如下图所示：

实验与分析

3.1 实验设定

数据集：1. 情感分析任务：SST-2、IMDB、YELP，以 positive 为 target label；2. 冒犯性语言检测（offense detection）任务：Twitter。
主干模型：主要在 bert-base-uncased 上实验，此外为验证方法的普适性，在 roberta-base 和 deberta-base-v3 上也进行了实验，结论与 BERT 上的实验相似。
评价指标：取阈值使得在干净验证集上的 FRR（False Rejection Rate，即干净样本被错误拒绝的比例）为 5% 时，测试数据上的 FRR（应该也在 5% 左右）和 FAR（False Acceptance Rate，主要指标，即下毒样本被错误接受的比例，越低越好）。
攻击方法：主实验中六种攻击为 BadNet-RW [19]、BadNet-SL [14]、RIPPLES [2]、LWP [4]、EP [3]、DFEP [3]，实现细节详见原文附录。
攻击设定：1. AFM（Attacking Final Model），即用户直接下载攻击者训练好的模型部署上线；2. APMF（Attacking the Pre-Trained Model with Fine-Tuning）：用户下载攻击者发布的模型后在自己的干净训练数据上 fine-tune。
防御基线：STRIP [11]、ONION [12] 与 RAP [13]。

3.2 防御表现：DAN显著超过基线方法

如下两表所示（左边为 AFM 设定下的结果，右边为APMF设定下的结果），在几乎相同的 FRR（干净样本被错误拒绝的比例）下，我们的方法DAN以显著的差距取得了比基线方法更低的 FAR（下毒样本被错误接受的比例）。

具体来看，在 AFM 设定下，DAN 将 FAR 在 SST-2 上平均减少 8.8 个百分点，在 IMDB 上平均减少 10.5 个百分点，在 Twitter 上平均减少 9.1 个百分点；在 APMF 设定下，以 SST-2 为用户的数据集（target dataset)，当 IMDB 为下毒数据集时，DAN 平均将 FAR 减少 21.6 个百分点，当 Yelp 为下毒数据集时，DAN 平均将 FAR 降低 56.5 个百分点。这些主要结果经验性地证实了 DAN 在检测下毒样本方面的巨大优势。

基于这些结果，我们讨论了基线方法的失败模式：

STRIP：在大多数攻击案例中性能都比 RAP 和 DAN 差，与 Yang et al., 2021 [3] 中的分析相符：当 trigger word 的数目很小时，它被替换的概率和普通 token 相近，导致干净样本和下毒样本的 randomness score 难以区分；
ONION：在只有一个 trigger word 时表现尚可（BadNet-RW 和 EP），但难以适应有两个 trigger words（RIPPLES 和 LWP）和用句子作为 trigger 的情况（BadNet-SL）；
RAP：在后门效应较强、后门样本的对抗鲁棒性较高时效果较好，但当后门效应在最终的模型中被削弱时（如在 APMF 设定下用户在干净数据上 fine-tune 和 EP 攻击中只对 word embedding 下毒），后门样本的对抗鲁棒性也不好，施加对抗扰动后预测概率如干净样本一般明显下降，使防御表现不佳。

3.3 对关键组件的消融实验

之后，我们在 SST-2 数据集上进行消融实验，简单分析了 DAN 主要的设计组件（各层分数正则化、使用聚合）的合理性。如下表结果所示，如果只使用单层的分数（如第 6 层或者第 12 层），在某些攻击下的防御完全失败；如果使用聚合或取消聚合前的正则化操作，平均的防御表现也会明显下降。这些结果证实了我们方法设计的合理性。

3.4 对Adaptive Attack和Task-Agnostic Attack的鲁棒性

由于我们的方法是基于测试样本在中间层特征空间中到干净样本分布的距离，一个自然的 adaptive attack 思路就是在下毒训练时，另外增加特征距离上的正则化目标，即以每层中下毒样本到干净样本分布的距离为辅助的正则化损失进行训练：

我们将这个正则项加入 BadNet-RW、BadNet-SL、EP 的下毒训练过程中来发动对 DAN 的 adaptive attack，然后重新评测各防御方法的表现。如下图左侧的表格中数据所示，DAN 依然保持了最优的表现，我们检查中间层特征时发现，虽然总体上下毒样本因为正则项的优化在各层的特征空间中变得接近干净样本，它们在某些层的分布还是有显著差异的，而 DAN 的分数正则化 + 聚合机制可以有效地挑选出最异常的那一层，因此对该 adaptive attack 免疫。

值得注意的是，在添加正则项后，之前的 SOTA 方法 RAP 的表现大大下降，甚至低于 STRIP 和 ONION，我们猜想是因为下毒样本和干净样本在中间层接近后，它们的对抗鲁棒性也变得相近，使得 RAP 区分开两者。

另外，在主流的文本后门攻击工作和我们之前所述的主要实验中，都有一个较强的假设：攻击者知道用户将把模型部署到哪个任务上。

近来，为了实现真正通用的对预训练语言模型的后门攻击，NLP 研究者们提出了 NeuBA [5] 和 BadPre [6] 这两种模型无关的预训练模型后门攻击（task-agnostic attack），其做法是在预训练阶段将 trigger word 和特征空间中特殊的向量或者 mask language modeling 的某个标签绑定，当用户下载预训练模型并微调、部署后，搜索预训练阶段植入的 trigger，如果有 trigger 保持有效（使模型总是预测某个 label），就用它发动后门攻击。

如上图右侧表格中的结果所示，DAN 可以极为有效地防御这两类攻击（FAR 接近 0），远超基线方法的效果。

3.5 部署条件：DAN更轻便

另外，我们详细地讨论 DAN 作为在线后门防御算法在部署条件上的优势：

在推理开销上，对每个测试样本，DAN 只需要一次前向计算，而基线方法都需要多次前向计算（对应不同扰动后的输入），其中 STRIP 需要次（通常），ONION 需要次（为句子长度），RAP 需要两次；
DAN 不需要额外的模型，而 ONION 需要 GPT-2 这样的预训练语言模型；
DAN 不需要反向传播优化，而 RAP 需要一个优化过程构造对抗扰动（RAP trigger）。

总结如下表：

结语与展望

我们的工作揭示了文本后门攻击中下毒样本和干净样本在模型的中间层特征空间中是显著可分的，基于此观察，我们设计了一种基于特征距离的在线后门防御方法 DAN 来保护可能受到后门攻击的 NLP 模型。在各种攻击设定下充分的实验和分析说明了 DAN 对基线方法的显著性能优势，此外，DAN 还享有计算开销小、部署方便的优势。未来，我们可能在两方面基于本工作继续探索文本后门攻击中下毒样本在特征空间中的特性：

如何构造有效的 Adaptive Attack：本文中一个有趣的实验结果是，DAN 对直接优化下毒样本到干净样本分布的 adaptive attack 是鲁棒的，说明在中间层很好地”藏”住后门是颇具挑战的，未来探索如何使后门在中间层更隐蔽可能会是一个颇有价值的方向（从攻击的角度来说，可以构造更隐蔽的攻击；从后门应用的角度来说，可以构造更隐蔽、更难被去除的模型水印）；
如何在理论上解释下毒样本在特征层面的特性：另一个值得探索的问题是，如何使用优化理论解释下毒样本和干净样本在后门训练的过程中变得显著可区分这一广泛存在的现象，回答该问题有助于后续构建更有理论支撑的攻击和防御机制。

参考文献

[1]: Dai, Jiazhu, Chuanshuai Chen, and Yufeng Li. "A backdoor attack against lstm-based text classification systems." IEEE Access 7 (2019): 138872-138878.

[2]: Kurita, Keita, Paul Michel, and Graham Neubig. "Weight Poisoning Attacks on Pretrained Models." In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pp. 2793-2806. 2020.

[3]: Yang, Wenkai, Lei Li, Zhiyuan Zhang, Xuancheng Ren, Xu Sun, and Bin He. "Be Careful about Poisoned Word Embeddings: Exploring the Vulnerability of the Embedding Layers in NLP Models." In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pp. 2048-2058. 2021.

[4]: Li, Linyang, Demin Song, Xiaonan Li, Jiehang Zeng, Ruotian Ma, and Xipeng Qiu. "Backdoor Attacks on Pre-trained Models by Layerwise Weight Poisoning." In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pp. 3023-3032. 2021.

[5]: Zhang, Zhengyan, Guangxuan Xiao, Yongwei Li, Tian Lv, Fanchao Qi, Zhiyuan Liu, Yasheng Wang, Xin Jiang, and Maosong Sun. "Red alarm for pre-trained models: Universal vulnerabilities by neuron-level backdoor attacks." (2021).

[6]: Chen, Kangjie, Yuxian Meng, Xiaofei Sun, Shangwei Guo, Tianwei Zhang, Jiwei Li, and Chun Fan. "BadPre: Task-agnostic Backdoor Attacks to Pre-trained NLP Foundation Models." In International Conference on Learning Representations. 2021.

[7]: Chen, Chuanshuai, and Jiazhu Dai. "Mitigating backdoor attacks in lstm-based text classification systems by backdoor keyword identification." Neurocomputing 452 (2021): 253-262.

[8]: Azizi, Ahmadreza, Ibrahim Asadullah Tahmid, Asim Waheed, Neal Mangaokar, Jiameng Pu, Mobin Javed, Chandan K. Reddy, and Bimal Viswanath. "{T-Miner}: A Generative Approach to Defend Against Trojan Attacks on {DNN-based} Text Classification." In 30th USENIX Security Symposium (USENIX Security 21), pp. 2255-2272. 2021.

[9]: Liu, Kang, Brendan Dolan-Gavitt, and Siddharth Garg. "Fine-pruning: Defending against backdooring attacks on deep neural networks." In International Symposium on Research in Attacks, Intrusions, and Defenses, pp. 273-294. Springer, Cham, 2018.

[10]: Zhang, Zhiyuan, Lingjuan Lyu, Xingjun Ma, Chenguang Wang, and Xu Sun. "Fine-mixing: Mitigating Backdoors in Fine-tuned Language Models." arXiv preprint arXiv:2210.09545 (2022).

[11]: Gao, Yansong, Yeonjae Kim, Bao Gia Doan, Zhi Zhang, Gongxuan Zhang, Surya Nepal, Damith C. Ranasinghe, and Hyoungshick Kim. "Design and evaluation of a multi-domain trojan detection method on deep neural networks." IEEE Transactions on Dependable and Secure Computing 19, no. 4 (2021): 2349-2364.

[12]: Qi, Fanchao, Yangyi Chen, Mukai Li, Yuan Yao, Zhiyuan Liu, and Maosong Sun. "ONION: A Simple and Effective Defense Against Textual Backdoor Attacks." In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pp. 9558-9566. 2021.

[13]: Yang, Wenkai, Yankai Lin, Peng Li, Jie Zhou, and Xu Sun. "RAP: Robustness-Aware Perturbations for Defending against Backdoor Attacks on NLP Models." In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pp. 8365-8381. 2021.

[14]: Chen, Xiaoyi, Ahmed Salem, Michael Backes, Shiqing Ma, and Yang Zhang. "Badnl: Backdoor attacks against nlp models." In ICML 2021 Workshop on Adversarial Machine Learning. 2021.

[15]: Maqsood, Shaik Mohammed, Viveros Manuela Ceron, and Addluri GowthamKrishna. "Backdoor Attack against NLP models with Robustness-Aware Perturbation defense." arXiv preprint arXiv:2204.05758 (2022).

[16]: Ma, Xingjun, Bo Li, Yisen Wang, Sarah M. Erfani, Sudanthi Wijewickrema, Grant Schoenebeck, Dawn Song, Michael E. Houle, and James Bailey. "Characterizing Adversarial Subspaces Using Local Intrinsic Dimensionality." In International Conference on Learning Representations. 2018.

[17]: Chen, Bryant, Wilka Carvalho, Nathalie Baracaldo, Heiko Ludwig, Benjamin Edwards, Taesung Lee, Ian Molloy, and Biplav Srivastava. "Detecting Backdoor Attacks on Deep Neural Networks by Activation Clustering."

[18]: Lee, Kimin, Kibok Lee, Honglak Lee, and Jinwoo Shin. "A simple unified framework for detecting out-of-distribution samples and adversarial attacks." Advances in neural information processing systems 31 (2018).

[19]: Gu, Tianyu, Brendan Dolan-Gavitt, and Siddharth Garg. "Badnets: Identifying vulnerabilities in the machine learning model supply chain." arXiv preprint arXiv:1708.06733 (2017).

更多阅读