Redian新闻
>
TIP 2022 | 从分布视角出发理解和提升对抗样本的迁移性

TIP 2022 | 从分布视角出发理解和提升对抗样本的迁移性

公众号新闻


©作者 | 陈兆宇 
单位 | 复旦大学ROILab 
研究方向 | 对抗样本


论文标题:
Towards Understanding and Boosting Adversarial Transferability from a Distribution Perspective

论文链接:

https://arxiv.org/abs/2210.04213
官方代码:
https://github.com/alibaba/easyrobust




解决的问题


对抗迁移性(adversarial transferability)是指对抗样本可以在不同架构和参数的模型上产生攻击,即允许攻击者使用替代模型上生成的对抗样本来攻击未知的目标模型。


现有研究对抗迁移性的工作都是从模型的角度出发,认为决策边界、模型架构和替代模型测试集上准确率对对抗迁移性具有一个大的影响。因此,很多工作引入了数据增强或者训练生成器来减少对替代模型决策边界的依赖。另外,也有一些工作修改了模型的架构或者利用模型中间层的特征。上述方法在非目标攻击(untargeted attack)上很有效,但是在目标攻击(targeted attack)的场景下性能很有限。


在本文中为了充分理解对抗迁移性性,尤其是在目标攻击场景中,作者从数据分布提出了一个新的视角。回想一下机器学习中的经典假设,即与训练数据集独立同分布的验证集数据可以被不同的模型正确分类,而分布不均的样本会导致模型难以分类。于是,定义训练数据集的分布为 ,作者假设不同的模型倾向于将与 同分布的验证数据预测为 y,而很难将与 非同分布的数据分类为 y。

因此,将图像移出其原始分布会导致不同模型难以对这种分布外的样本进行分类,从而可以增强非目标攻击的迁移性。将图像拖入目标分布会误导不同的模型将图像归类为目标类别,可以增强目标攻击的迁移性。

为此,作者提出了一种名为分布相关攻击(Distribution-Relevant Attack,DRA)的方法来证明上述假设。该方法试图将输入图像推离其原始分布以生成可迁移的对抗样本。然而,由于无法访问真实数据集的数据分布,因此将图像直接推离其原始分布在技术上具有挑战性。

于是,作者借鉴了分数匹配生成模型(score-matching generative models)的思想,提出估计真实数据分布的梯度 并通过 Langevin 动力学,使用真实数据的估计梯度迭代地生成特定分布的图像。先前的工作都利用梯度来最大(或者最小化)模型的输出的交叉熵,在非目标(或者目标)攻击下。

为了估计迁移攻击中真实数据分布的梯度,作者微调代理分类器以匹配模型条件密度的梯度和真实数据分布的梯度。因此,微调模型的梯度可以近似于真实数据分布的梯度,并且微调模型的梯度生成对抗样本的过程可以近似于 Langevin 动力学的过程,这使能够操纵图像的分布。将使用微调模型将图像推离原始分布同时生成对抗样本的攻击称之为 Distribution-Relevant Attack(DRA)。更重要的是,DRA 兼容现有的迁移攻击,可以大大提高这些攻击的性能。

总的来说,作者从数据分布的角度来思考对抗迁移性,利用真实数据集来微调模型,使得微调模型的梯度方向能跟真实数据的梯度方向一致,从而提高对抗迁移性。



提出的方法


2.1 问题定义


基础的符号定义就是常规的。此外, 代表总类别数, 代表最后一层的第 k 个输出。所以,条件概率密度 可以表述为:



非目标攻击和目标攻击可以分别描述为:


迁移攻击的目标是使用代理模型生成的对抗样本来误导目标模型。


2.2 动机


现有的迁移攻击迭代地最小化(目标攻击)代理模型以生成对抗样本 (非目标攻击)或最大化 ,然后使用这些对抗样本来攻击目标模型。然而,现有的迁移攻击很难成功地进行目标攻击。而且,缺少为什么最小化替代模型的 也可以攻击架构和参数跟替代模型不一样的其他模型的解释。


在本文中,作者建议从数据分布的角度理解和改进对抗迁移性,它建立在机器学习方法中的经典假设之上,即深度模型可以正确分类与训练数据集独立且相同分布的验证数据,但很难对分布外的样本进行分类。


具体来说,模型倾向于正确预测跟分布 一致的图像为 y,但不能处理其原始分布的分布外。因此假设将图像移出其原始分布可以实现高非目标的对抗迁移性,并将图像拖入目标分布 可以实现高目标对抗迁移性。挑战来自如何将图像推离其原始分布,因为一般无法访问真实数据类别的条件数据分布


作者利用 score-matching generative models 来估计真实数据的分布,并借助Stochastic Gradient Langevin Dynamics(SGLD)将原始分布 的图像推到目标分布



是相当于从 中真实采样的。更新 SGLD 通过 的相反方向可以将图像远离分布 。基于上述推理,数据分布的梯度可用于通过迭代方法操纵输入图像的分布。

在本文中,作者提出将正常对抗攻击梯度的 log 条件密度 跟真实数据类别 log 条件数据分布 进行匹配。通过这种方式,对抗攻击可以逼近真实类条件数据分布的梯度方向。
具体地说,以目标攻击为例,如果 跟 匹配得很好,那么目标攻 可以视为 SGLD 采样 的近似,相当于将图像拉到目标分布 中。
下图表明,这种可以将目标分布的特征印记到图像上,并将树蛙语义更改为玉米,这可以误导模型将图像分类为目标类。与现有的迁移攻击相比,本文的方法旨在从本质上操纵图像的分布,而不仅仅是最小化或最大化分类损失。


2.3 利用梯度降低分布的距离


作者定义了 DCG 距离(Distance between the gradient of log Conditional density and the gradient of log Ground truth class-conditional data distribution)为:


为了方便思考,先忽视这里的积分符号。第一项是常数,因为不依赖模型的参数 。中间项是好处理的,因为没有涉及跟真实数据分布相关的分数。而最后一项是无法直接计算的,因为真实数据分布 是不知道的。Score matching methods 可以利用部分积分来消除这个真实数据分布的分数。作者引入这个方法后,一波推导(见正文),进行整理后得到:


忽视常数,定义 DCG 的损失函数为:


因为 tr 这一项需要大量计算,作者引入 Hutchinson’s trick 得到最终的 loss(推导见正文):


在实践中,可以调整样本数量 v 来权衡估计性能和计算成本。参考现有方法,在训练过程中为每个输入独立采样一个随机向量 v。Eq. 10 中的第一项可以通过一次反向传播来计算。第二项涉及 Hessian,但它是 Hessian 向量乘积的形式,可以在 O(1) 反向传播中计算。因此,Eq. 10 的计算不依赖于数据的维度,并且可以扩展以在高维数据集上训练深度模型。

综上所述,我们通过在训练期间联合优化分类损失和 DCG 损失来微调代理模型。优化目标可以表示为:


2.4 Distribution-Relevant Attack


这本节中,使用上节的分布相关微调代理模型将攻击命名为分布相关攻击(DRA)。DRA 包括两个步骤:微调代理模型以减小模型梯度与真实数据分布梯度之间的距离,并使用微调的代理模型在真实数据分布的近似梯度的指导下生成对抗扰动。具体算法如下所示:


利用微调后的模型,引入 PGD 攻击的框架得到非目标和目标攻击:


相较于单纯的 PGD,用 DRA 之后的进行 PGD 会具有更多的语义信息,如下图所示:





实验和效果


微调细节:需要在 ImageNet 上微调 20 个 epoch。在 V100 上训练 1 个 epoch(基于 ResNet50)需要大概 8 小时。

攻击设置:扰动为 16/255,步长 2/255。非目标攻击的迭代次数为 10,目标攻击的迭代次数为 300。

非目标攻击的性能:


目标攻击的性能,目标类别为特定 10 个类:


暂时主要关注这两个主实验,这篇文章21年12月投的,当时一些最新的target攻击方法确实还没出来。




总结和不足


这种方法降低了对替代模型的依赖,改变了对输入图像的数据分布,而且目标攻击的扰动具有一定的语义性。但是我感觉问题还挺大的:


1. 第一是在迁移攻击的时候,其实很难获取到训练数据集的,尤其是同源的,难度更大。像这种用 ImageNet 直接 fine-tune 的情况其实并不常见。从这个角度出发,其实对比有点不公平,比如普通的 PGD 或者 DI 只有一张图的信息,但是 DRA+PGD 其实利用了整个数据集的信息。论文对比了 DRA 下和没有 DRA 下非目标攻击的性能,DRA 确实提升了迁移性,但是目标攻击的没有做。


2. 第二是,这个微调的成本还是蛮高的,跟其他迁移攻击的效率不在一个复杂度上。


不过,从数据分布的这个角度来研究对抗迁移性,确实具有蛮大的启发意义。


更多阅读



#投 稿 通 道#

 让你的文字被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。


📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算


📬 投稿通道:

• 投稿邮箱:[email protected] 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿


△长按添加PaperWeekly小编



🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧


·
·

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
土耳其7.8级双震,向人类传递了怎样的信号和提醒!《老妈在美国》理解和接纳父母与子女的不同 | 北美候鸟NeurIPS 2022 | 序列(推荐)模型分布外泛化:因果视角与求解西加勒比海游轮 Cozumel Cruise(五)表演娱乐2022 湾区公立/私立高中 UCB 录取率排名Npj Comput. Mater.: 原子间势—准确性和可迁移性岁末Party博报预告:芝城圣诞晚宴舞会上的美女俊男从分散到聚集,“数字经济”法律服务队伍已集结出发[摩托] 人生第8辆摩托的选车和提车记军用卫星星座专题报告:对抗与反对抗,从保障性转向作战牵引中国杀手锏——中段反导,提升对美战略威慑能力!白衣执甲|既是白衣战士 也是一个普通人 多一份理解和包容【回顾与展望】 2022,非洲收宮之旅,阿尔及利亚,埃塞俄比亚,突尼斯CVPR 2023 | 由点到面:可泛化的流形对抗攻击,从个体对抗到流形对抗中选红潮未现,右翼媒体抛弃川普,共和党何去何从?【广发策略|“破晓”系列重温】地产产业链:信心筑底,从分化到扩散(首发于22.11.17)一日本男子涉嫌间谍活动在北京被捕,身份曝光!外交部:屡有发生,日方应加强教育和提醒开学在即,给小低年级的娃说说如何迎战未来的阅读理解和写作,来听听常爸的经验谈!NeurIPS 2022 | 全新迁移学习范式DeRy,把知识迁移玩成活字印刷迁移上云或跨云迁移如何做到安全、高效、低成本?2022 USNEWS发布美国薪酬最高行业TOP25最高法《关于完整准确全面贯彻新发展理念 为积极稳妥推进碳达峰碳中和提供司法服务的意见》中国的新冠疫情ECCV 2022 | SegPGD: 能有效提升语义分割模型鲁棒性的对抗攻击方法想知道细胞的迁移?细胞粒径?这份超详细的ImageJ教程合集!分分钟搞定SCI配图!AI对抗训练红队:使 ChatGPT 和 LLM 获得对抗鲁棒性相聚深圳 | 2022全国生物样本库人员能力提升培训班(I期)即将举办!理解世界、理解投资、理解抄底Spotify 移动工程平台迁移:将 Android 和 iOS 代码库迁移到 BazelChatGPT鲁棒性分析:对抗鲁棒与分布外泛化视角今早6点,纽约紧急状态生效!大桥、隧道关闭!三州学区关闭和提前放学信息公布...【回顾与展望】2022 后疫情时代的旅游,2023 回家招募复发性或转移性晚期子宫内膜癌患者@复旦肿瘤医院及全国42家医院从分级到哈利波特,这才是我一直等的经典ICLR 2023 | 基于视觉语言预训练模型的医疗图像小样本学习及零样本推理性能研究天哪!我娃的阅读理解和作文终于有救了!80后丁克夫妻,结婚十年不买房、有性有爱却各回各家:好的婚姻,都从分居开始?习近平:正确理解和大力推进中国式现代化今天随意浏览了一下CMU 2019窗帘流行简约风
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。