对抗样本(论文解读十六): Adv-watermark: A Novel Watermark Perturbation for Adversarial Examples
Adv-watermark: A Novel Watermark Perturbation for Adversarial Examples
XiaojunJia,XingxingWei,XiaochunCao,XiaoguangHan
Institute of Information Engineering
Beihang University,
The Chinese University of HongKong (Shenzhen)
发表ACM MM 2020
目前关于对抗样本的研究可谓火热,但是真正有价值、有新意或者有突破性的工作非常少。更多的是拿来挪去,换个场景、换个数据集、增加点鲁棒性变换,即使是网络模型本身的修改、或者是损失函数的改变,也只是拆了东墙补西墙、效果微乎其微。当然,任何论文能够发表出来、尤其是定会论文,相比于那行被淘汰的论文,一定是有其可学习的地方。本篇论文在应用方向上,是有其一定新意的,一起来学习了解一下。
对抗水印:利用水印上的扰动,生成对抗样本。也可以把水印看作是物理攻击中的对抗块,但是相比对抗块,水印可能更加真实自然一些。
摘要
现有对抗扰动噪声不具有实际意义。我们可以将图像水印作为一种有意义的噪声,在不影响人类理解图像内容及不引起人类怀疑的基础上,添加到干净图像,生成相应的对抗图像。
贡献:
1、提出了Adv-watermark,基于水印扰动的对抗样本,结合图像水印技术和对抗样本算法,生成效果更加真实有效;
2、为了有效地生成对抗样本,提出了一种新的优化算法—Basin Hopping Evolution(BHE)。该方法采用population-based的全局搜索策略来生成对抗实例,在攻击DNN模型时能获得较高的性能;
3、具有更高的黑盒攻击成功率,对于现有基于图像变换的防御方法同样具有攻击性能。
引言部分的故事要讲好:
Adv-watermark除了执行对抗攻击,同样具有水印的功能,水印通常用于保护版权问题。现有通过添加水印来保护版权,但是也容易被恶意软件识别并篡改。而Adv-watermark可以避免这种场景,它不仅可以保护原有版权、同样可以执行对抗攻击来避免被现有恶意软件所操作。(Adv-watermark算不算是对水印的操作呢,哈哈。虽然作者想的是往好的方向操作,但是技术这个东西,一旦有了,那具体方向往哪里走、就得看使用的人了)
方法
方法其实是很简单的,只不过是将原有的引用场景更换一下。比如,对于原有物理攻击,其目标是更新一个的灰度块或者是任意块、最终行成一个对抗块;对于像素级扰动,同样如此,是对于原有图像或目标的全局像素扰动或者是生成。而本篇论文,将扰动生成范围,限制在了水印范围以内。
水印设置如下:
H表示原有图像、W表示水印图像,α表示背景图像H中前景区域W的透明度。透明度贴附。
i,j表示图像的像素位置,p、q表示水印的位置;
对抗设置如下:
t表示正确分类类别,g()为生成对抗图像,优化过程e为优化位置(p,q)及透明度α;
L为最大透明度限制。
这里面的几个参数是不固定的,比如水印的位置(p,q),以及水印的透明度α,这三个参数如何设置,又利用了随即搜索算法,进行最优化搜索设置。
优化算法BHE (这里不细讲)
1、启发式随机搜索算法,求解多元函数全局最小值。包括四部分
2、BHE基于群体进化的优化算法,每个解决方案都是一个群体的个体。其中p、q、α被认为是其基因。
3、Basin Hopping是一种随机优化算法。每次迭代中,BH生成一些随机扰动的新坐标,然后找到局部极小值,最后根据最小函数值接受或拒绝新坐标。
本篇论文的创新点其实说大也不大,只有这一点肯定是不够发顶会的。所以,本篇论文的实验设置,可以说是非常全、必须全。同样里面也包含很大实验上的技巧。
实验
1、数据集
1)水印:5个ACM MM logos,5个大学校标logos,5个文本图像水印,后面又"不得已"加了TV logos。。。
2)背景:ImageNet ,CASIA-WebFace
3)网络:各种图像分类网络
2、有效性
水印占原图像不同的比例大小下,其攻击的成功率。
对比试验:
相比现有攻击方法,本方法的攻击成功率,以及对于部分防御方法的鲁棒性。(这里与哪些方法相比较,选取哪些防御方法做展示,是具有很大技巧性地)
实验效果,及进一步"不得已"地探索
水印对于网络判别热力图地影响:
水印在网络不同层级上对于判别结果地影响: