【论文阅读】Query-efficient Meta Attack to Deep Neural Networks

【2020ICLR】

Du, Jiawei, Hu Zhang, Joey Tianyi Zhou, Yi Yang, and Jiashi Feng. "Query-efficient Meta Attack to Deep Neural Networks." arXiv preprint arXiv:1906.02398 (2019).

 

任务:基于meta-learning的灰盒攻击

 

本文研究的内容是基于meta-learning的灰盒攻击,使用一个autoencoder网络结构来估计梯度,并使用reptile的meta-learning训练方法进行训练

在测试时,首先使用coordinate-wise的方法使用少量坐标轴轴的梯度来进行finetune梯度估计的autoencoder网络,并同时生成对抗样本

 

任务目标

【论文阅读】Query-efficient Meta Attack to Deep Neural Networks

 

meta-learning的训练数据

使用n个模型来进行训练,对于每个模型,使用如下的max-logit的损失函数来求梯度:

【论文阅读】Query-efficient Meta Attack to Deep Neural Networks

Mi表示第i个模型,t为x对应的真实标签

【论文阅读】Query-efficient Meta Attack to Deep Neural Networks

训练数据:

【论文阅读】Query-efficient Meta Attack to Deep Neural Networks

 

 

训练算法

【论文阅读】Query-efficient Meta Attack to Deep Neural Networks

使用reptile的更新策略对参数进行更新

 

攻击算法

【论文阅读】Query-efficient Meta Attack to Deep Neural Networks

 

每个m步对梯度估计网络A进行finetune,具体为查询前q维坐标轴的梯度,并使用L2损失进行更新参数,其他情况使用网络生成梯度,并使用前q维中的梯度对输入图像进行扰动,直到攻击成功

 

 

假设图像中一共有p维,在每次梯度查询或者更新时,仅仅从中挑选q维作为子集(It),以减少查询量

q维的确定使用前一时间步的梯度g_{t-1}中值最大的q维

 

 

 

 

数据集

使用数据集MNIST、CIFAR10、tiny-ImageNet

CIFAR10使用VGG13、VGG16、GoogleNet训练meta attacker网络,攻击ResNet18

tiny-ImageNet使用VGG13、VGG16和ResNet18进行训练,攻击VGG19和ResNet34

 

 

训练细节

meta train时使用学习率为0.01的reptile算法

三个数据集训练时均使用10000个样本

finetune时m在MNIST和CIFAR10中选取为5,tiny-ImageNet中选取为3

选取坐标轴维度:MNIST中q为128,CIFAR10和tiny-ImageNet中q为500

 

 

 

实验

【无目标攻击】

【论文阅读】Query-efficient Meta Attack to Deep Neural Networks

【有目标攻击】

【论文阅读】Query-efficient Meta Attack to Deep Neural Networks

 

 

【查询次数vs成功率】

【论文阅读】Query-efficient Meta Attack to Deep Neural Networks

 

 

【meta learning方法的有效性】

【论文阅读】Query-efficient Meta Attack to Deep Neural Networks

 

【论文阅读】Query-efficient Meta Attack to Deep Neural Networks

 

init attacker为在meta train阶段没有进行训练,而在mete test阶段直接使用随机初始化的网络(由于该阶段会进行finetune,因此仍然可以攻击成功)

vanilla autoencoder为同样结构的网络,在一个白盒模型上训练的

estimated ZOO为使用ZOO估计的梯度在4个黑盒模型上训练的