论文学习笔记 MemGuard: Defending against Black-Box Membership Inference Attacks via Adversarial Examples
论文学习笔记 MemGuard: Defending against Black-Box Membership Inference Attacks via Adversarial Examples
背景
•文章:Membership Inference Attacks Against Machine Learning Models. IEEE Symposium on Security and Privacy 2017: 3-18
•这篇文章关注机器学习模型的隐私泄露问题,提出了一种成员推理攻击:给出一条样本,可以推断该样本是否在模型的训练数据集中——即便对模型的参数、结构知之甚少,该攻击仍然有效。
•出发点: 机器学习模型在其训练数据和初次遇见的数据上的表现往往不同,可据此推断某条数据是否在其训练数据集中。
成员推理攻击—攻击方式
•基本思想: 若已知目标模型的训练集,那么对于样本(x,y) ,设目标模型的输出为预测向量y ̂, 根据其是否在目标模型的训练集中,可以构建(y,y ̂,in) 或(y,y ̂,out), 将y ̂作为feature,in和out 作为label,可以训练二分类模型。即攻击模型是一个二分类模型,其以目标模型的输出y ̂作为输入,判断样本是否在目标模型的训练集中。
•关键技术:shadow model
•作用:构造与目标模型相似的训练集
黑盒设置中的成员推理攻击
防御目标
目标一:攻击者的攻击分类器对目标分类器训练数据集成员/非成员的推断不准确,即保护训练数据集的隐私。
目标二:置信评分向量的utility-loss是有界的
本文贡献
•提出了MemGuard,这是在黑盒设置下,第一个使用正式的utility-loss抵御成员推理攻击。
•提出了一种新的算法来寻找满足唯一utility-loss约束的噪声向量。
•推导出了把噪声向量加到置信评分向量的概率的解析解。
•在三个真实的数据集上评估了MemGuard。结果表明,MemGuard是有效的,并优于现有的防御。
MemGuard
•情景1:g(s)=0.5
•机制显然为以概率1添加噪声向量0的最优随机噪声添加机制
•情景2:g(s)≠0.5
•将噪声空间分为两组,添加第一组后通过g预测是成员的概率为0.5,添加第二组后通过g预测是成员的概率不是0.5。即
•g(s+n)=0.5是一组;g(s+n)≠0.5是另一组
•分为两个阶段求解
•第一:求解代表性的变形尽可能小的噪声向量
•第二:求解随机噪声添加机制的概率
第一阶段
第二阶段
One-time randomness
•攻击者:重复查询同一样本n次,得到m次????1s_1和n-m次????2s_2
•利用
计算出p, s_1和s_2的频率分别为m/n和(n-m)/n,频率接近于1-p的s_i就是真正的置信评分向量
one-time randomness
•概述:对于同一样本返回同一噪声置信评分向量,即选择同一噪声向量
•步骤:
•计算查询样本的hash,将hash作为seed利用伪随机数生成器生成????′∈[0,1]
•当????′<????,添加r,否则不添加
•证明:假设攻击者知道防御手段,能得到????′p^′,但他不知道????p,也就无法判断
返回的置信评分向量是否为真的
总结:
论文提出了一个很有意思的攻击解决方法,通过对目标模型得到的置信评分向量以一定的概率添加噪声得到一个随机噪声添加机制,并且让防御者模拟攻击者的攻击分类器形成防御分类器,进而提出优化问题并且求解。