EMNLP 2022 | 北大提出基于中间层特征的在线文本后门防御新SOTA
本文为北京大学的研究者提出的基于中间层特征的文本后门防御工作,其基于对近年来提出的多种针对预训练语言模型的后门攻击(backdoor attack)的分析,经验性地揭示了下毒样本(poisoned examples)和干净样本(clean examples)在带后门模型的中间层特征空间是高度可分的,由此设计了一种集成各中间层特征距离分数的在线后门检测方法 DAN(Distance-Based Anomaly Score),用于在模型推理阶段检测下毒样本。
论文标题:
Expose Backdoors on the Way: A Feature-Based Efficient Defense against Textual Backdoor Attacks
https://arxiv.org/pdf/2210.07907.pdf
Findings of EMNLP 2022
1.1 NLP中的后门攻击
下图是代表性工作 Weight Poisoning Attacks on Pretrained Models [2] 中给出的攻击过程示意图和以稀有词为 trigger 的部分数据(原本负面的评价被攻击为正面):
考虑到在大模型时代,缺乏计算资源的用户通常下载预训练权重直接使用或者作为初始化进行微调,潜在的后门攻击对预训练-微调这一范式造成了严重的安全威胁。因此,研究者提出了一系列防御方法以保护 NLP 模型免受后门攻击的威胁,总体可分为三类:
数据集保护 Dataset Protection:目标是去除公共数据集中带后门的下毒数据 [7],适用于用户下载公共数据集、从随机初始化开始训练模型的场景(在 CV 中更常见),不适用于 NLP 中流行的模型下毒(weight poisoning)设定(用户下载被下毒的第三方模型权重直接部署或者进行微调);
离线防御 Offline Defense:在模型部署上线之前试图检测预训练权重中是否存在后门并/或通过剪枝、微调等优化方法消除之,如 T-Miner [8]、Fine-Pruning [9]、Fine-Mixing [9] 等,其缺点是需要额外的训练优化过程,对缺乏专业知识的普通模型用户并不友好;
在线防御 Online Defense: 目标是在模型部署上线后,能将带 trigger 的样本作为异常输入识别出来拒绝预测,从而达到在线防御后门攻击的目的,如 STRIP [11]、ONION [12]、RAP [13] 等,不需要重新训练受保护的模型本身,对普通的模型用户较友好,本文提出的防御方法也属于在线防御。
STRIP [11]:基于输出概率层面的差异:由于 trigger 的效应较强,删除输入中的部分 token 对下毒样本对应的输出概率的影响,比对干净样本对应输出概率的影响小,因此只要对输入进行多次扰动,以输出概率分布的熵取负作为 即可检测下毒样本(下毒样本的熵应当比普通样本的小); ONION [12]:基于输入层面的差异:NLP 中的后门攻击大多以稀有词为 trigger,而插入稀有词会导致输入文本的 perplexity(language modeling 的困惑度)升高,因此只要每次删去输入文本中的一个 token,输入预训练语言模型(如 GPT)得到 perplexity,以 perplexity 的下降幅度作为 即可检测下毒样本(下毒样本的 trigger word 被删除时句子会恢复原状导致 perplexity 大幅下降,因此下毒样本的 perplexity 变化幅度一般更高); RAP [13]:基于输出概率层面的差异:由于 trigger 的效应较强,下毒样本和干净样本相比,对对抗扰动的鲁棒性更强,因此可以构造一个通用的对抗扰动,以扰动前后模型对 targel label 对应类的的输出概率变化作为 来检测下毒样本(下毒样本对应的变化幅度一般较小)。
但是,这些基于输入或输出层面的防御方法存在两方面问题:
安全问题: 后门样本在输入或输出层面的特性很容易被构造出来的 adaptive attack 掩盖,如当 trigger word 只有一个时,STRIP 使用的输出熵分数往往会使干净样本和下毒样本难以区分 [13];对 ONION 防御,只要将 trigger word 的数目改为两个或者使用一个正常句子作为 trigger 即可绕过 [14];对 RAP 防御,只需要通过对抗训练增强干净样本的对抗鲁棒性就可以绕过 [15]; 效率问题:它们都需要对输入样本进行扰动以观察指标的变化,效率较低,而且往往需要额外的预训练模型或优化过程:STRIP 需要 次扰动、输入( 为预定义的超参数,一般取 20);ONION 需要额外的 GPT 模型,需要 次扰动、输入( 为输入文本中的 token 数目);RAP 需要一个额外的构建对抗扰动的优化过程,测试阶段每个样本需要两次输入(一次输入原样本,一次插入对抗扰动后输入)。
因此,它们离真正的高效防御尚有差距,理想的在线防御方法应该对 adaptive attack 鲁棒,并免于正常的一次前向传播以外的额外计算开销。为此,受视觉领域中利用中间层特征层面的指标来检测对抗样本 [16]、后门样本 [17]、分布外样本 [18] 等异常数据的做法之启发,我们将研究目光转向调查下毒样本在 NLP 模型中间层特征空间的中的表现。
方法
如下图(左)中对最后一层 CLS 向量的 UMAP 降维可视化所示,下毒样本(红色,原本是负面情感,插入 trigger 后被模型判断为正面情感)和干净的两类数据的分布流形(蓝色和橙色)都距离很远,启示我们可以利用该距离分数来在线检测下毒样本;右图是干净测试样本和下毒测试样本到干净的验证集数据(clean validation data)分布的马氏距离(Mahalanobis distance)的可视化,可以看到干净的分布(绿色)和下毒的分布(红色)之间有明显的 gap。
可以观察到:
下毒样本在中间层并不隐蔽,对每种攻击方法,最高的 AUROC 值都达到或接近 100%; 适于检测下毒样本的中间层位置在各种攻击下不一致,BadNet-RW [19](以稀有词为 trigger 的 BadNet 攻击)、BadNet-SL [14](以句子为 trigger 的 BadNet 攻击)、DFEP [3](data-free embedding poisoning,使用 wiki 数据对稀有词向量下毒)这三类攻击中的后门样本在接近输出的顶层部分离干净数据分布最远;另外三种攻击,即 RIPPLES 攻击 [2]、LWP攻击 [4](layer-wise poisoning,对每一层插入 auxilliary classifier 加强下毒效果)、EP [3](对稀有词向量下毒)中的后门样本在底层和中层与干净样本的可区分度更高。
2.2 DAN Score
实验与分析
3.1 实验设定
数据集:1. 情感分析任务:SST-2、IMDB、YELP,以 positive 为 target label;2. 冒犯性语言检测(offense detection)任务:Twitter。 主干模型:主要在 bert-base-uncased 上实验,此外为验证方法的普适性,在 roberta-base 和 deberta-base-v3 上也进行了实验,结论与 BERT 上的实验相似。
评价指标:取阈值使得在干净验证集上的 FRR(False Rejection Rate,即干净样本被错误拒绝的比例)为 5% 时,测试数据上的 FRR(应该也在 5% 左右)和 FAR(False Acceptance Rate,主要指标,即下毒样本被错误接受的比例,越低越好)。 攻击方法:主实验中六种攻击为 BadNet-RW [19]、BadNet-SL [14]、RIPPLES [2]、LWP [4]、EP [3]、DFEP [3],实现细节详见原文附录。 攻击设定:1. AFM(Attacking Final Model),即用户直接下载攻击者训练好的模型部署上线;2. APMF(Attacking the Pre-Trained Model with Fine-Tuning):用户下载攻击者发布的模型后在自己的干净训练数据上 fine-tune。 防御基线:STRIP [11]、ONION [12] 与 RAP [13]。
3.2 防御表现:DAN显著超过基线方法
具体来看,在 AFM 设定下,DAN 将 FAR 在 SST-2 上平均减少 8.8 个百分点,在 IMDB 上平均减少 10.5 个百分点,在 Twitter 上平均减少 9.1 个百分点;在 APMF 设定下,以 SST-2 为用户的数据集(target dataset),当 IMDB 为下毒数据集时,DAN 平均将 FAR 减少 21.6 个百分点,当 Yelp 为下毒数据集时,DAN 平均将 FAR 降低 56.5 个百分点。这些主要结果经验性地证实了 DAN 在检测下毒样本方面的巨大优势。
基于这些结果,我们讨论了基线方法的失败模式:
STRIP:在大多数攻击案例中性能都比 RAP 和 DAN 差,与 Yang et al., 2021 [3] 中的分析相符:当 trigger word 的数目很小时,它被替换的概率和普通 token 相近,导致干净样本和下毒样本的 randomness score 难以区分; ONION:在只有一个 trigger word 时表现尚可(BadNet-RW 和 EP),但难以适应有两个 trigger words(RIPPLES 和 LWP)和用句子作为 trigger 的情况(BadNet-SL); RAP:在后门效应较强、后门样本的对抗鲁棒性较高时效果较好,但当后门效应在最终的模型中被削弱时(如在 APMF 设定下用户在干净数据上 fine-tune 和 EP 攻击中只对 word embedding 下毒),后门样本的对抗鲁棒性也不好,施加对抗扰动后预测概率如干净样本一般明显下降,使防御表现不佳。
3.3 对关键组件的消融实验
3.4 对Adaptive Attack和Task-Agnostic Attack的鲁棒性
近来,为了实现真正通用的对预训练语言模型的后门攻击,NLP 研究者们提出了 NeuBA [5] 和 BadPre [6] 这两种模型无关的预训练模型后门攻击(task-agnostic attack),其做法是在预训练阶段将 trigger word 和特征空间中特殊的向量或者 mask language modeling 的某个标签绑定,当用户下载预训练模型并微调、部署后,搜索预训练阶段植入的 trigger,如果有 trigger 保持有效(使模型总是预测某个 label),就用它发动后门攻击。
如上图右侧表格中的结果所示,DAN 可以极为有效地防御这两类攻击(FAR 接近 0),远超基线方法的效果。
3.5 部署条件:DAN更轻便
另外,我们详细地讨论 DAN 作为在线后门防御算法在部署条件上的优势:
在推理开销上,对每个测试样本,DAN 只需要一次前向计算,而基线方法都需要多次前向计算(对应不同扰动后的输入),其中 STRIP 需要 次(通常 ),ONION 需要 次( 为句子长度),RAP 需要两次; DAN 不需要额外的模型,而 ONION 需要 GPT-2 这样的预训练语言模型;
DAN 不需要反向传播优化,而 RAP 需要一个优化过程构造对抗扰动(RAP trigger)。
结语与展望
如何构造有效的 Adaptive Attack:本文中一个有趣的实验结果是,DAN 对直接优化下毒样本到干净样本分布的 adaptive attack 是鲁棒的,说明在中间层很好地”藏”住后门是颇具挑战的,未来探索如何使后门在中间层更隐蔽可能会是一个颇有价值的方向(从攻击的角度来说,可以构造更隐蔽的攻击;从后门应用的角度来说,可以构造更隐蔽、更难被去除的模型水印); 如何在理论上解释下毒样本在特征层面的特性:另一个值得探索的问题是,如何使用优化理论解释下毒样本和干净样本在后门训练的过程中变得显著可区分这一广泛存在的现象,回答该问题有助于后续构建更有理论支撑的攻击和防御机制。
参考文献
[10]: Zhang, Zhiyuan, Lingjuan Lyu, Xingjun Ma, Chenguang Wang, and Xu Sun. "Fine-mixing: Mitigating Backdoors in Fine-tuned Language Models." arXiv preprint arXiv:2210.09545 (2022).
[11]: Gao, Yansong, Yeonjae Kim, Bao Gia Doan, Zhi Zhang, Gongxuan Zhang, Surya Nepal, Damith C. Ranasinghe, and Hyoungshick Kim. "Design and evaluation of a multi-domain trojan detection method on deep neural networks." IEEE Transactions on Dependable and Secure Computing 19, no. 4 (2021): 2349-2364.
[12]: Qi, Fanchao, Yangyi Chen, Mukai Li, Yuan Yao, Zhiyuan Liu, and Maosong Sun. "ONION: A Simple and Effective Defense Against Textual Backdoor Attacks." In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, pp. 9558-9566. 2021.
[17]: Chen, Bryant, Wilka Carvalho, Nathalie Baracaldo, Heiko Ludwig, Benjamin Edwards, Taesung Lee, Ian Molloy, and Biplav Srivastava. "Detecting Backdoor Attacks on Deep Neural Networks by Activation Clustering."
[18]: Lee, Kimin, Kibok Lee, Honglak Lee, and Jinwoo Shin. "A simple unified framework for detecting out-of-distribution samples and adversarial attacks." Advances in neural information processing systems 31 (2018).
[19]: Gu, Tianyu, Brendan Dolan-Gavitt, and Siddharth Garg. "Badnets: Identifying vulnerabilities in the machine learning model supply chain." arXiv preprint arXiv:1708.06733 (2017).
更多阅读
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
📝 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
📬 投稿通道:
• 投稿邮箱:[email protected]
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
微信扫码关注该文公众号作者