【论文快读】DeepFool: a simple and accurate method to fool deep neural networks(2016)

作者：Seyed-Mohsen Moosavi-Dezfooli, Alhussein Fawzi, Pascal Frossard École Polytechnique Fédérale de Lausanne
链接：https://arxiv.org/abs/1511.04599
摘要：
【论文快读】DeepFool: a simple and accurate method to fool deep neural networks(2016)
本文内容：
对于robustness的量化与计算；
DeepFool算法。

形式化

图像 $x \in$ 图像空间 $R^{n}$ 。
分类器 $\hat{k} (x)$ 在点 $x$ 处的鲁棒性 $Δ (x; \hat{k})$ ：(几何意义是 $x$ 到分类边界的距离)

Δ (x; \hat{k}) := min_{r} {| | r | |}_{2} s . t . \hat{k} (x + r) \neq \hat{k} (x)

其中

r

是能够fool分类器的最小扰动。
分类器

\hat{k} (x)

的鲁棒性：

ρ_{a d v} (\hat{k}) = E_{x} \frac{Δ (x; \hat{k})}{| | x | |_{2}}

（点面距离越远，计算输入的样本度量越小，模型越健壮）

二分类问题

记 $\hat{k} (x) = s i g n (w^{T} x + b) := s i g n (f (x))$
分类边界 $F = {x : f (x) = 0}$
扰动向量 $r_{⋆} (x_{0}) := \arg min_{r} | | r | |_{2} s . t . s i g n (f (x_{0} + r)) \neq s i g n (f (x_{0}))$
$= - \frac{f (x_{0})}{| | w | |_{2}^{2}} w$
迭代算法如下：
【论文快读】DeepFool: a simple and accurate method to fool deep neural networks(2016)

多分类问题

label数： $c$
记分类函数 $f (x) = W^{T} x + b$
分类器 $\hat{k} (x) = \arg max_{k} f_{k} (x)$ ， $f_{k} (x) 是向量 f (x)$ 的第 $k$ 个维度。
扰动向量： $\arg min_{r} | | r | |_{2}$
$s . t . \exists k : w_{k}^{T} (x_{0} + r) + b_{k} \geq w_{\hat{k} (x_{0})}^{T} (x_{0} + r) + b_{\hat{k} (x_{0})}$
其中 $w_{k}$ 是 $W$ 的第 $k$ 列。、
几何意义为寻找 $x_{0}$ 与所在的凸区域 $P = ⋂_{k = 1}^{c} {x : f_{\hat{k} (x_{0})} (x) \geq f_{k} (x)}$ 边界的最小距离，即：

\hat{l} (x_{0}) = \arg min_{k \neq \hat{k} (x_{0})} \frac{| f_{k} (x_{0}) - f_{\hat{k} (x_{0})} (x_{0}) |}{| | w_{k} - w_{\hat{k} (x_{0})} | |_{2}}

所以最小扰动

r_{⋆} (x_{0}) = \frac{| f_{\hat{l} (x_{0})} (x_{0}) - f_{\hat{k} (x_{0})} (x_{0}) |}{| | w_{\hat{l} (x_{0})} - w_{\hat{k} (x_{0})} | |_{2}^{2}} (w_{\hat{l} (x_{0})} - w_{\hat{k} (x_{0})})

当边界非线性时，把上述

w

替换成

\nabla f ((x))

即可（如下算法2）

【论文快读】DeepFool: a simple and accurate method to fool deep neural networks(2016)

值得注意的是本算法的输出不是optimal的，但实验中已经能够大概率实现小幅度扰动了。

【论文快读】DeepFool: a simple and accurate method to fool deep neural networks(2016)

形式化

二分类问题

多分类问题

相关推荐