Laplace函数
f(x∣μ,b)=2b1eb−∣x−μ∣
其图像为:
其中μ表示期望,图像上表示对称轴,x代表变量,b代表参数。
对于该函数,其期望为μ,方差为2b2,这里的证明,比较简单,略。
在差分隐私中通常,令μ等于0,b等于εΔf,此时函数Laplace函数记为:
Lap(εΔf)=(ε2Δf)1e(εΔf)−∣x∣
化简为:
Lap(εΔf)=2ΔfεeΔf−ε∣x∣
Laplace噪声满足ε-差分隐私定义
差分隐私定义:
对于相邻的数据集D和D’,他们两者之多相差一条数据。然后给定一个映射函数f:D→Rd。它表示一个数据集D到一个d维空间的映射关系。对于所得的函数f(D)=(x1,x2,…,xd)T上加入Laplace噪声,得到输出函数M(D)。
可记为:
M(D)=f(D)+(Lap1(εΔf),…,Lapd(εΔf))T
如果横着看不习惯,可以竖着看(看成列向量)。
关键点:
Δf=D,D′max∣∣f(D)−f(D′)∣∣p,其中p一般取值为1,即一范数。
算法M满足差分隐私定义条件是:
Pr[M(D)∈S]⩽eε∗Pr[M(D′)∈S]
S表示为一组观察到的所有序列组合。类比于函数的值域。
证明
首先,得出Δf的表示具体表示形式。
设,f(D)=(x1,…,xd)T,f(D′)=(x1′,…,xd′)T=(x1+Δx1,…,xd+Δxd)T,
则:
Δf=D,D′max(i=1∑n(∣xi−xi′∣))=D,D′max(i=1∑n∣Δxi∣)
为了简化,假定所有的xi均为0,那么f(D)=(0,…,0)T,f(D′)=(Δx1,…,Δxd)T
记一个输出序列(向量)S=(y1,…,yd)T。
证明技巧:化为分式比较
Pr[M(D)∈S]=i=1∏d2Δfεe−Δfε∣yi∣,累乘号,是因为xi独立同分布
Pr[M(D′)∈S]=i=1∏d2Δfεe−Δfε∣yi−Δxi∣
二者相比:
Pr[M(D′)∈S]Pr[M(D)∈S]=i=1∏d2Δfεe−Δfε∣Δxi−yi∣i=1∏d2Δfεe−Δfε∣yi∣=i=1∏de−2Δfε(∣yi∣−∣yi−Δxi∣)=eΔfεi=1∑d(∣yi−Δxi∣−∣yi∣)
由基本不等式知:
∣yi−Δxi∣−∣yi∣≤∣yi−Δxi−yi∣=∣Δxi∣
故上式:
i=1∑d(∣yi−Δxi∣−∣yi∣)≤i=1∑n∣Δxi∣≤D,D′max(i=1∑n∣Δxi∣)=Δf
于是有:
Pr[M(D′)∈S]Pr[M(D)∈S]⩽eε
得证。即Pr[M(D)∈S]⩽eε∗Pr[M(D′)∈S]
再由对称性知,Pr[M(D′)∈S]⩽eε∗Pr[M(D)∈S]
其他问题
我们已经知道,噪声是符合Laplace机制的,这样是符合差分隐私的定义的。问题是:
-
M(D)=f(D)+(Lap1(εΔf),…,Lapd(εΔf))T,这个“加法”是普通的加法就好了吗?对于数据集D的分布有什么要求吗?还是说任意数据都可以呢?
- 在累乘时,我们默认是独立同分布的,那么非独立同分布数据也可以这样算吗?
- 在Δf的定义时,我们假定是用一范数的,用其他范数来度量可以吗?答案是否定的,不可以。具体分析可以参考这篇文章。
- 根据范数的定义可知道,∣∣x∣∣p是一个随着p增大而不断减小的递减函数。这个结论是明显的,但是证明,现在我还不会。对于这题而言,这个范数的证明,是无关紧要的。但是这个结论是需要记住的。
参考自MathThinker
数学公式的排版好费时间呀,得多敲!排版公式的语法总结,后面写多了再做。