Data-Free Adversarial Perturbations for Practical Black-Box Attack阅读笔记


实用黑箱攻击的无数据对抗扰动

摘要

神经网络容易受到对抗性示例的攻击,这些示例是为欺骗预先训练的模型而设计的恶意输入。对抗性示例经常表现出黑匣子攻击的可转移性,这使得为一个模型设计的对抗性示例可以欺骗另一种模型。然而,现有的黑箱攻击方法需要训练数据分布中的样本来提高对抗性示例在不同模型之间的可传递性。由于数据的依赖性,对抗性扰动的欺骗能力仅适用于可访问训练数据的情况。在本文中,我们提出了一种用于制作对抗性干扰的无数据方法,该方法可以欺骗目标模型而无需任何有关训练数据分布的知识。在攻击者无法访问目标模型和训练数据的黑盒攻击场景的实际设置中,我们的方法在目标模型上实现了较高的欺骗率,并且胜过其他通用的对抗性摄动方法。我们的方法从经验上表明,即使攻击者无法访问训练数据,当前的深度学习模型仍然处于危险之中。

1 介绍

近年来,深度学习模型证明了在各种机器学习任务上的出色表现[2,5,6]。然而,最近的研究表明,深度神经网络极易受到对抗性干扰的影响[4,16]。对抗性例子是为欺骗目标模型而制作的细微,不易察觉的扰动。对于深度神经网络的对抗性示例缺乏鲁棒性的固有弱点带来了安全问题,尤其是对于需要强大可靠性的对安全敏感的应用程序而言[10]。

了解给定模型的结构和参数后,manyarXiv:2003.01295v1 [cs.CV] 2020年3月3日 这些方法可以成功地以白盒方式生成对抗性示例[16,4]。更严重的问题是,对抗性示例可以跨不同的模型传递,这被称为黑匣子攻击[4]。这种可传递性允许在不了解目标模型的结构和参数的情况下进行对抗性攻击。现有的黑匣子攻击方法着眼于假设攻击者可以获得训练目标模型的训练数据[3,4,7],从而提高了对抗性示例在不同模型之间的可传递性。攻击者首先在相同的训练数据上训练替代模型,然后以白盒方式生成对抗性示例。由于不同的模型在相同的训练集上学习相似的决策边界,因此为替代模型设计的扰动可以使目标模型变得愚蠢[4,7]

但是,在实践中,攻击者几乎无法获取目标模型的训练数据,即使是类别数量也是如此。例如,Google Cloud VisionAPI2(GCV)仅输出许多*类别的分数。在这种现实的黑盒设置中,大多数现有的黑盒攻击方法都无法应用。

在本文中,我们提出了一种无数据的方法来制作对抗性的扰动,以解决上述问题。我们的方法是制作无数据扰动,该扰动可以欺骗目标模型而无需任何有关数据分布的知识(例如类别数,数据类型等)。我们利用这样一种性质,从不同模型中提取的特征通常是相似的,因为大多数模型是根据常见的预训练模型权重进行微调的[8]。因此,我们在微调模型和预训练模型之间建立了映射关系。与其优化目标以减少预测标签的得分[4,3],不如说是建议学习可能干扰内部表示的对抗性扰动。我们提出的攻击方法将预训练模型的逻辑输出视为提取的内部表示,并迭代地最大化干净图像与其在此表示空间中测得的对抗示例之间的差异。由于映射关系的关系,内部模型中的预训练模型和微调模型相似,而对抗性实例将很可能误导目标模型。

我们在两个公共数据集(CIFAR-10 [9]和Caltech-101 [11])上评估了该方法,并在一个私有数据集上使用了各种模型,包括最新的分类器(例如ResNet [14],DenseNet [6])。等)。实验结果表明,在现实世界的黑匣子设置下,我们的方法可以实现极高的攻击成功率。在这种黑盒攻击场景的实际设置中,由于它们是图像不可知的方法,因此只能应用通用的对抗性摄动方法。与通用对抗性扰动(UAP)[12]和可推广的无数据通用对抗性扰动(GD-UAP)[13]相比,该方法具有以下优点。首先,我们的方法优于UAP和GD-UAP 8.05%和6.00%。其次,在制作图像不可知的扰动时,UAP需要大量训练样本才能收敛,并且GD-UAP还需要知道训练数据的分布以实现更好的性能。相反,我们的方法在不知道数据分布的情况下产生对抗性的扰动。三,建议方法 不需要培训阶段。可以通过单次反向传播获得扰动,而UAP和GD-UAP需要训练通用扰动,直到收敛为止。

2 相关工作

白盒攻击 借助给定模型的结构和参数的知识,许多方法都可以白盒方式成功生成对抗性示例。大多数白盒算法都基于损失函数相对于输入的梯度生成对抗性示例。塞格德耶塔尔[16]首先通过分析深度神经网络的不稳定性介绍对抗性示例的生成。 Goodfellowet等人[4]通过分析深度神经网络的线性行为进一步解释对抗实例现象,并提出一种简单有效的对抗实例生成方法。最近,Yinpeng Donget等人[3]将动量项集成到迭代过程中以实现快速梯度符号以实现更好的攻击性能。

黑盒攻击 现有的黑盒攻击可分为基于查询和基于传输的攻击。在基于查询的方法中,攻击者迭代查询目标模型的输出并估计目标模型的梯度[1]。对于基于转移的方法,现有方法主要集中在提高对抗性示例在不同模型之间的可转移性[7]。他们假设对手可以在不了解目标模型的结构和参数的情况下获得训练数据。由于基于查询的方法需要大量查询,因此很难在实际攻击中使用。在本文中,我们重点研究基于传输的黑盒攻击。

Moosavi-Dezfooliet等人的最新著作[12]提出了与图像无关的扰动(称为通用对抗扰动(UAP)),该扰动可以使大多数干净图像上的最新识别模型蒙蔽。 Mopurietal。[13]进一步提出了一种通用的制作通用对抗性扰动的方法,称为通用化无数据通用对抗性扰动(GD-UAP)。这两个与图像无关的通用对抗性扰动可以在真实的黑盒设置下有效地进行攻击。我们的方法不是寻找通用的对抗扰动,而是在不知道数据分布的情况下生成特定于图像的扰动。

3 无数据对抗扰动

基于引言中提出的动机,我们提出了无数据攻击框架。我们将特征级攻击的思想与微调模型和预训练模型之间的映射连接相结合,以方便在不知道数据分布的情况下对目标模型进行黑盒攻击。具体来说,我们使用预训练模型的输出作为内部表示,以测量干净图像和对抗示例之间的差异。通过相对于我们的目标函数方程式(1)迭代最大化散度,内部表示形式变得更加不同。最后,由于它们之间存在连接关系,对抗性实例将很可能误导目标模型。我们在算法1中简要展示了我们的攻击框架。

Data-Free Adversarial Perturbations for Practical Black-Box Attack阅读笔记

3.1 问题定义

令x表示给定数据集中的干净图像,y true表示类。目标模型是函数f(x)= y,它接受输入x∈X并产生输出y∈Yf(x)是目标模型的输出,包括softmax函数definefl(x )= z成为soft-max输出之前的最后一层的输出(也称为logits),而f(x)= softmax(fl(x))= y。对抗性攻击的目标是寻找一个具有对抗性扰动幅度的示例x *,它被目标模型错误分类。

3.2 黑匣子设置

在本文中,我们使用了现实世界中黑匣子的定义:对手无法获得目标模型的结构和参数以及其数据分布(例如类别数量,数据类型等)。此外,目标模型在预训练模型上进行了微调。 Lett(x):x∈X′→y∈Y′表示预训练模型,其中X′6 = X,Y′6 = Y。我们的目标是在f(x)和t(x)之间建立映射连接,并利用t(x)来制作可以欺骗foolf(x)的无数据扰动。

3.3 映射连接

对于一般的图像分类任务,提取的特征是相似的。代替使用随机权重初始化模型,而是使用预先训练的模型进行初始化可以提高性能并减少训练时间。因此,通常使用预训练模型来微调新任务[8]。在本文中,我们建立了微调的模型f(x)和预训练的模型t(x)之间的关系,称为映射连接。如图1所示,即使f(x)和t(x)之间的训练数据分布不同(X6 = X’),我们仍认为这两个模型之间的logits输出包含``映射’'连接:给定一个输入,每个可以通过神经元intl(x)的加权求和来获得神经元infl(x)。我们将在4.5节中给出一些实验性的解释。因此, 通过从t(x)产生对抗性扰动,它将成功地以高概率误导f(x)。

Data-Free Adversarial Perturbations for Practical Black-Box Attack阅读笔记

3.4 最大化差异

Data-Free Adversarial Perturbations for Practical Black-Box Attack阅读笔记
注意在第3.1节和第3.2节中,f(x):x∈X→y∈Y是目标模型,而t(x):x∈X′→y∈Y′是预训练模型。因为f(x)是从t(x)进行微调的,所以数据分布彼此不同(X6 = X’和Y6 = Y’)。给定清晰的图像x∈X,我们的目标是利用t(x)生成对应的对抗examplex ∗可能会误导目标模型asf(x ∗)6 = ytrue。

我们的目标是制作无数据扰动,该扰动可以欺骗目标模型而无需任何有关数据分布的知识(例如类别数,数据类型等)。因此,我们不是学习优化将分数降低到预测标签或翻转预测标签的目标[4,3],而是建议学习可以最大程度地提高干净图像与对抗示例之间特征差异的摄动。
Data-Free Adversarial Perturbations for Practical Black-Box Attack阅读笔记
Data-Free Adversarial Perturbations for Practical Black-Box Attack阅读笔记
其中,tl(x)是logits(softmax之前)层的输出。公式(1)度量了xandx’的对数输出之间的差异。| tl(x)|表示每个元素intl(x)的大小,tl(x)tl(x’)表示tl(x)和tl(x’)之间的差。 ,我们的等式(1)中的目标函数根据tlt(x)的方向增加或减少tl(x’)。并且,变化的大小取决于权重| tl(x)|。我们将在第4.6节中说明目标函数的有效性。 X轴与X轴之间距离的约束条件由L∞范数来表示,以将单个像素的最大偏差限制为。目标是限制摄动的可感知程度。

先前的对抗示例生成方法[16、4、3]旨在根据梯度off(x)(softmax输出)来增加损失函数。但是,由于体系结构的层次结构较深,因此在传播过程中,相对于输入的损耗梯度可能会消失。为了解决这个问题,我们旨在最大化输入x和对抗性示例x *之间的对数输出fl(x)的差异。从经验上看,我们发现不宜直接使用诸如KullbackLeibler散度之类的客观函数来度量散度,因为优化可能难以收敛。

3.5 实施细节

对于实现细节,我们首先将输入x缩放为[−1,1]并初始化x’= x。然后,我们计算目标(1)相对于inputx的梯度。对抗性示例将通过多个步骤进行更新。在每一步中,我们采用梯度的符号函数,并将对抗性示例剪裁为[-1,1]以制作有效图像。算法2给出了扰动产生的细节

Data-Free Adversarial Perturbations for Practical Black-Box Attack阅读笔记

4 实验

在本节中,我们提供实验结果以证明我们的无数据对抗性摄动方法的有效性。

4.1 实验设定

在整个实验中,基于ImageNet [2]预训练的模型对目标模型进行了微调。我们首先在不同的数据集上微调目标模型,以模拟实际的训练场景。然后,我们仅使用预先训练的模型来生成对抗性扰动,而不会通过算法1知道训练数据的分布或目标模型的体系结构。

我们探索了四个主流的深度模型:GoogleNet [15],VGG-16 [14],ResNet-152 [5]和DenseNet-169 [6]。我们将我们的方法与UAP [12]和GD-UAP [13]进行比较。尽管某些经典的攻击算法(例如FGSM [4]和MI-FGSM [3])是数据依赖的,不能直接与我们进行比较,但我们还是评估了这种黑箱攻击情形下的攻击性能。对于以下所有实验,由我们的方法称为“ DFP”。在所有实验中,最大摄动设置为10,像素值为[0,255],迭代次数为10。

4.2 数据集

CIFAR-10 CIFAR-10数据集[9]由10个类别的60,000张彩色图像组成,大小为32×32。我们使用训练图像来微调在ImageNet上预先训练的目标模型,并使用测试图像来评估攻击性能。由于UAP和GD-UAP是高分辨率的扰动(通常为224×224),因此直接使用CIFAR-10的低分辨率图像是不合适的。在微调目标模型之前,我们将图像调整为224×224的大小而又不损失识别性能。
Caltech101 Caltech101[ 11]由属于101类的对象组成。每个图像的大小约为300×200像素。与CIFAR-10相比,Cal-tech101更加复杂且具有更高的分辨率。
Cosmetic Insurance Dataset 为了充分说明我们的按需方法的有效性,我们构建了另一个私有的真实世界数据集,称为化妆品保险数据集。此数据集包含对化妆品(包括化妆品,过敏性皮肤,病历等)过敏的客户的凭证。此数据集不涉及任何个人身份信息(PPI)。数据仅用于学术研究并通过采样进行处理。在实验过程中,我们进行了充分的数据保护,以防止发生数据泄漏的风险并在实验后销毁数据。

4.3 无数据攻击能力

表1列出了我们的目标在三个数据集上针对各种网络体系结构所实现的攻击性能。基线表示模型在干净图像上的错误率(无扰动)。误码率是测试图像中我们精心制作的扰动成功更改了预测标签的百分比。表中的每一行表示一个目标模型,而各列表示不同的攻击方法。由于UAP和GD-UAP在Densenet-169上不提供扰动,因此在表中使用“ \”。我们的摄动导致Caltech101的平均愚弄率达到29.23%,分别比UAP和GD-UAP高出8.05%和6.00%。此外,与UAP和GD-UAP相比,我们的方法通过单次反向传播来制作微扰,而无需知道任何训练数据分布,这在实际情况下效率更高。

尽管以前的攻击方法(例如FGSM [4]和MI-FGSM [3])与训练数据有关,但与我们的方法不具有直接的可比性,但我们在表1所示的黑盒攻击情形下评估了它们的攻击性能。
Data-Free Adversarial Perturbations for Practical Black-Box Attack阅读笔记
图2显示了所提出的方法制作的示例无数据扰动。顶行显示干净,底行显示相应的对抗图像。扰动后的图像在视觉上无法与其相应的清晰图像区分开。图中显示的所有干净图像均已正确分类,并被添加的干扰成功欺骗。该模型预测的相应标签显示在每个图像下方。正确的标签以黑色显示,错误的标签以红色显示。
Data-Free Adversarial Perturbations for Practical Black-Box Attack阅读笔记

4.4 黑匣子攻击转移性

在第4.3节中,我们在不了解训练数据分布的情况下报告了攻击性能。在本节中,我们评估不同模型之间的黑箱攻击的愚弄率。表2中的每一行表示生成扰动的目标模型,列表示使用学习的扰动攻击的各种模型。对角虚假率表示第4.3节中提到的无数据白盒子攻击,其中除训练数据分布外,攻击者都知道有关模型的所有信息。斜率表示现实世界的黑匣子攻击,在这种情况下,攻击者不会泄露有关模型架构或受攻击的训练数据分布的信息。我们的摄动导致白盒子的平均愚弄率为25.91%,黑匣子的平均愚弄率为15.04%。鉴于优化的无数据性质,这些愚弄率非常惊人。

Data-Free Adversarial Perturbations for Practical Black-Box Attack阅读笔记

4.5 映射连接的经验论证

作为进一步的分析,我们揭示了第3.3节中提到的微调模型和预训练模型之间的映射关系。由于化妆品保险数据集的类别与ImangeNet没有重叠[11],因此我们使用ImageNet预训练的DenseNet-169对化妆品保险数据集的测试图像进​​行评估,并计算图3所示的出现频率。水平轴代表ImageNet中的类别,垂直轴代表纵轴表示化妆品保险数据集中测试图像的比例,横轴分类为类别。例如,通过评估属于聊天记录类别的测试图像,ImageNet中有35%的图像被归类为“大锅”,与聊天记录没有关系。
Data-Free Adversarial Perturbations for Practical Black-Box Attack阅读笔记
图3中每个类别的频率出现率都高于20%,这种现象表明,即使微调模型具有不同类别的预训练模型,这两个模型之间的对数输出仍然具有关系。因此,通过扰动预训练模型的对数输出,将以较高的概率成功干扰目标模型的对数输出,从而可能导致错误的预测。

4.6 目标函数的有效性

为了证明目标函数(1)的有效性,我们在优化方程式(1)之后比较了干净图像tl(x)(左)和相应的对抗性示例tl(x ∗)(右)之间的逻辑输出,如图所示4.横轴表示ImageNet中的每个类别(tl(x)i,i = 1,2,···,1000),纵轴表示logits的值。从图中可以看出,tl(x)和tl(x ∗)在大小和方向上都有很大的差异。结合映射连接,我们的目标函数可以有效处理第4.3节和第4.4节中说明的无数据扰动。

结论

在本文中,我们提出了一个无数据的目标来产生对抗性扰动。我们的目标是制作无数据扰动,该扰动可以欺骗目标模型而无需任何有关数据分布的知识(例如类别数,数据类型等)。我们的方法不需要利用任何训练数据样本,并且我们建议生成可以干扰内部表示的扰动。最后,我们证明了在不了解训练数据分布或模型体系结构的情况下,设计无数据对抗攻击的目标可以有效地欺骗目标模型。通过我们的方法获得的可观的愚弄率强调了当前的深度学习模型现在处于增加的风险中。
Data-Free Adversarial Perturbations for Practical Black-Box Attack阅读笔记

原文链接

link:https://arxiv.org/abs/2003.01295