【迁移攻击笔记】图像&模型同时迁移2017Universal adversarial perturbations

核心思想:

这篇17年的文章核心思想很简单:
初始化v=0没有扰动,然后对于每个样本加上扰动v后:
分类错误,则下一个样本;
分类正确,寻找一个微小的扰动 ,使得分类错误。
不断重复,直到在这样本中错误样本满足错误率。
所以可以理解成最原始最暴力的迁移攻击方法。然而最原始最暴力的方法往往也是最泛用的,所以对全数据集全网络都能通用。

算法和示意图如下:【迁移攻击笔记】图像&模型同时迁移2017Universal adversarial perturbations【迁移攻击笔记】图像&模型同时迁移2017Universal adversarial perturbations
图像迁移和网络迁移结果如下:【迁移攻击笔记】图像&模型同时迁移2017Universal adversarial perturbations

【迁移攻击笔记】图像&模型同时迁移2017Universal adversarial perturbations
数学解释:
首先根据作者将“欺骗”GoogLeNet的过程用一个图来表示,其中线的长短代表扰动范式的大小。由图得出架构中确实存在一些dominant labels:
(图片截取至博客论文快读Universal adversarial perturbations【迁移攻击笔记】图像&模型同时迁移2017Universal adversarial perturbations
提取n个对抗扰动并对它们进行单位化,形成正规矩阵N:
【迁移攻击笔记】图像&模型同时迁移2017Universal adversarial perturbations
对N进行SVG分解,发现N的奇异值的特别大,又的特别小:
【迁移攻击笔记】图像&模型同时迁移2017Universal adversarial perturbations
说明这些扰动所在的决策边界存在着冗余性和相关性。

希望路过这儿的你可以关注我一下~~我会定期更新一系列阅读笔记和总结,加入自己的见解和思路,希望能对你有用~