DeepFool: a simple and accurate method to fool deep neural networks

文章目录

概
主要内容

二分类模型

$f$ 为线性
$f$ 为一般二分类

多分类问题

$f$ 仿射
$f$ 为一般多分类
$l_p$

Moosavidezfooli S, Fawzi A, Frossard P, et al. DeepFool: A Simple and Accurate Method to Fool Deep Neural Networks[C]. computer vision and pattern recognition, 2016: 2574-2582.

@article{moosavidezfooli2016deepfool:,
title={DeepFool: A Simple and Accurate Method to Fool Deep Neural Networks},
author={Moosavidezfooli, Seyedmohsen and Fawzi, Alhussein and Frossard, Pascal},
pages={2574–2582},
year={2016}}

概

本文从几何角度介绍了一种简单而有效的方法.

主要内容

adversarial的目的:
$\tag{1} \Delta(x;\hat{k}):= \min_{r} \|r\|_2 \: \mathrm{subject} \: \mathrm{to} \: \hat{k}(x+r) \not = \hat{k}(x),$
其中 $\hat{k}(x)$ 为对 $x$ 的标签的一个估计.

二分类模型

当模型是一个二分类模型时,
$\hat{k}(x) = \mathrm{sign}(f(x)),$
其中 $f:\mathbb{R}^n \rightarrow \mathbb{R}$ 为分类器, 并记 $\mathcal{F}:= \{x: f(x)=0\}$ 为分类边界.

$f$ 为线性

即 $f(x)=w^Tx+b$ :
DeepFool: a simple and accurate method to fool deep neural networks
假设 $x_0$ 在 $f(x)>0$ 一侧, 则
$r_*(x_0)= -\frac{f(x_0)}{\|w\|_2^2}w.$

$f$ 为一般二分类

此时, 我们 $f$ 的一阶近似为
$f(x_0+r)\approx f(x_0)+\nabla^T f(x_0) r,$
此时分类边界为 $\mathcal{F} =\{x:f(x_0)+\nabla^T f(x_0) (x-x_0)=0\}$ ,此时 $w=\nabla f(x_0),b=f(x_0),$ 故
$\tag{4} r_*(x_0) \approx -\frac{f(x_0)}{\|\nabla f(x_0)\|_2^2} \nabla f(x_0).$

所以, 每次
$r_i = -\frac{f(x_i)}{\|\nabla f(x_i)\|_2^2} \nabla f(x_i), \\ x_{i+1} = x_i+r_i,$
直到 $\hat{k}(x_i) \not= \hat{k}(x_0)$ 是停止, 算法如下
DeepFool: a simple and accurate method to fool deep neural networks

多分类问题

$f:\mathbb{R}^n \rightarrow \mathbb{R}^c$ , 此时
$\tag{5} \hat{k}(x) = \arg \max_k f_k(x).$

$f$ 仿射

即 $f(x) = W^Tx + b$ , 设 $W$ 的第 $k$ 行为 $w_k$ ,
$\tag{7} P=\cap_{k=1}^c \{x: f_{\hat{k}(x_0)}(x) \ge f_k(x)\},$
为判定为 $\hat{k}(x_0)$ 的区域, 则 $x+r$ 应落在 $P^{c}$ , 而
$\Delta (x_0;f)= \mathbf{dist} (x_0, P^c).$
当 $f$ 为仿射的时候, 实际上就是找 $x_0$ 到各分类边界(与 $x_0$ 有关的)最短距离,
$\tag{8} \hat{l}(x_0) = \arg \min _{k \not = \hat{k}(x_0)} \frac{|f_k(x_0) - f_{\hat{k}(x_0)}(x_0)|}{\|w_k-w_{\hat{k}(x_0)}\|_2},$
则
$\tag{9} r_*(x_0)= \frac{|f_{\hat{l}(x_0)}(x_0) - f_{\hat{k}(x_0)}(x_0)|}{\|w_{\hat{l}(x_0)}-w_{\hat{k}(x_0)}\|_2^2}(w_{\hat{l}(x_0)}-w_{\hat{k}(x_0)}),$

$f$ 为一般多分类

$\tag{10} \tilde{P}_i=\cap_{k=1}^c \{x: f_{\hat{k}(x_0)}(x_i) + \nabla^T f_{\hat{k}(x_0)}(x_i) (x-x_i)\ge f_k(x_i) + \nabla^Tf_k(x_i)(x-x_i)\},$
则
$r_i(x_i)=\frac{|f_{\hat{l}(x_i)}(x_i) - f_{\hat{k}(x_0)}(x_i)|}{\|\nabla f_{\hat{l}(x_i)}(x_i) - \nabla f_{\hat{k}(x_0)}(x_i)\|_2^2}(\nabla f_{\hat{l}(x_i)}(x_i) - \nabla f_{\hat{k}(x_0)}(x_i)).$
DeepFool: a simple and accurate method to fool deep neural networks

$l_p$

$p \in (1, \infty)$ 的时候
考虑如下的问题
$\begin{array}{ll} \min & \|r\|_p^p \\ \mathrm{s.t.} & w^T(x+r)+b=0, \end{array}$
利用拉格朗日乘子
$\min_r \: \|r\|_p^p + c(w^T(x+r)+b),$
由KKT条件可知(这里的 $r_k$ 表示第 $k$ 个元素)
$p\: |r_k|^{p-1} = c_kw_k,$
注: 这里有一个符号的问题, 但是可以把符号放入 $c_k$ 中进而不考虑,
故
$r_*= c \odot w^{q-1},$
其中 $q=\frac{p}{p-1}$ 为共轭指数, 并 $c=[c_1,\ldots]^T$ ,且 $|c_i|=|c_j|,$ 记 $w^{q-1}=[|w_1|^{q-1},\ldots]^T$ ,又
$w^T(x+c\odot w^{q-1})+b=0,$
故
$|c|=\frac{|w^Tx+b|}{\|w\|_q^q} ,$
故
$r_*=-\frac{w^Tx+b}{\|w\|_q^q} w^{q-1} \odot \mathrm{sign}(w).$

$p=1$ , 设 $w$ 的绝对值最大的元素为 $w_{m}$ , 则
$r_*=-\frac{w^Tx+b}{w_m} \mathrm{1}_m,$
$\mathrm{1}_m$ 为第 $m$ 个元素为1, 其余元素均为0的向量.
$p=\infty$ ,
$r_*=-\frac{|w^Tx+b|}{\|w\|_1} \mathrm{sign} (w).$

故:

$p \in [1, \infty)$ :

DeepFool: a simple and accurate method to fool deep neural networks
$p=\infty$ :

注: 因为, 仅仅到达边界并不足够, 往往希望更进一步, 所以在最后(?) $x=x+ (1+\eta) r$ , 文中取 $\eta=0.02$ .

DeepFool: a simple and accurate method to fool deep neural networks

文章目录

概

主要内容

二分类模型

fff为线性

fff为一般二分类

多分类问题

fff仿射

fff为一般多分类

lpl_plp​

相关推荐

$f$ 为线性

$f$ 为一般二分类

$f$ 仿射

$f$ 为一般多分类

$l_p$