差分隐私-Laplace机制的简单证明

Laplace函数

f(xμ,b)=12bexμb f(x|μ,b)=\frac{1}{2b}e^{\frac{-|x-μ|}{b}}
其图像为:

差分隐私-Laplace机制的简单证明

​ 其中μμ表示期望,图像上表示对称轴,xx代表变量,bb代表参数。

​ 对于该函数,其期望为μμ,方差为2b22b^2,这里的证明,比较简单,略。

​ 在差分隐私中通常,令μμ等于0,bb等于Δfε\frac{\Delta f}{\varepsilon},此时函数Laplace函数记为:
Lap(Δfε)=1(2Δfε)ex(Δfε) Lap(\frac{\Delta f}{\varepsilon})=\frac{1}{(\frac{2\Delta f}{\varepsilon})}e^{\frac{-|x|}{(\frac{\Delta f}{\varepsilon})}}
化简为
Lap(Δfε)=ε2ΔfeεxΔf Lap(\frac{\Delta f}{\varepsilon})=\frac{\varepsilon}{2\Delta f}e^{\frac{-\varepsilon|x|}{\Delta f}}

Laplace噪声满足ε\varepsilon-差分隐私定义

差分隐私定义:

​ 对于相邻的数据集DDDD’,他们两者之多相差一条数据。然后给定一个映射函数f:DRdf:D\rightarrow R^d。它表示一个数据集DD到一个dd维空间的映射关系。对于所得的函数f(D)=(x1,x2,,xd)Tf(D)=(x_1,x_2,\dots,x_d)^T上加入Laplace噪声,得到输出函数M(D)M(D)

​ 可记为:
M(D)=f(D)+(Lap1(Δfε),,Lapd(Δfε))T M(D)=f(D)+(Lap_1(\frac{\Delta f}{\varepsilon}),\dots,Lap_d(\frac{\Delta f}{\varepsilon}))^T
​ 如果横着看不习惯,可以竖着看(看成列向量)。

​ 关键点:

Δf=maxD,Df(D)f(D)p\Delta f=\max \limits_{D,D'}||f(D)-f(D')||_p,其中pp一般取值为1,即一范数。

​ 算法MM满足差分隐私定义条件是:
Pr[M(D)S]eεPr[M(D)S] Pr[M(D)\in S]\leqslant e^\varepsilon * Pr[M(D')\in S]
SS表示为一组观察到的所有序列组合。类比于函数的值域。

证明

​ 首先,得出Δf\Delta f的表示具体表示形式。

​ 设,f(D)=(x1,,xd)Tf(D)=(x_1,\dots,x_d)^Tf(D)=(x1,,xd)T=(x1+Δx1,,xd+Δxd)Tf(D')=(x'_1,\dots,x'_d)^T=(x_1+\Delta x_1,\dots,x_d+\Delta x_d)^T

则:

Δf=maxD,D(i=1n(xixi))=maxD,D(i=1nΔxi)\Delta f=\max \limits_{D,D'}(\displaystyle \sum_{i=1}^n(|x_i-x'_i|)) = \max \limits_{D,D'}(\displaystyle \sum_{i=1}^n|\Delta x_i|)

​ 为了简化,假定所有的xix_i均为0,那么f(D)=(0,,0)Tf(D)=(0,\dots,0)^Tf(D)=(Δx1,,Δxd)Tf(D')=(\Delta x_1,\dots,\Delta x_d)^T

​ 记一个输出序列(向量)S=(y1,,yd)TS=(y_1,\dots,y_d)^T

​ 证明技巧:化为分式比较

Pr[M(D)S]=i=1dε2ΔfeεΔfyiPr[M(D)\in S]=\displaystyle\prod_{i=1}^d\frac{\varepsilon}{2\Delta f}e^{-\frac{\varepsilon}{\Delta f}|y_i|},累乘号,是因为xix_i独立同分布

Pr[M(D)S]=i=1dε2ΔfeεΔfyiΔxiPr[M(D')\in S]=\displaystyle\prod_{i=1}^d\frac{\varepsilon}{2\Delta f}e^{-\frac{\varepsilon}{\Delta f}|y_i-\Delta x_i|}

​ 二者相比:
Pr[M(D)S]Pr[M(D)S]=i=1dε2ΔfeεΔfyii=1dε2ΔfeεΔfΔxiyi=i=1deε2Δf(yiyiΔxi)=eεΔfi=1d(yiΔxiyi) \frac{Pr[M(D)\in S]}{Pr[M(D')\in S]}=\frac{\displaystyle\prod_{i=1}^d\frac{\varepsilon}{2\Delta f}e^{-\frac{\varepsilon}{\Delta f}|y_i|}}{\displaystyle\prod_{i=1}^d\frac{\varepsilon}{2\Delta f}e^{-\frac{\varepsilon}{\Delta f}|\Delta x_i-y_i|}}=\displaystyle \prod_{i=1}^d e^{-\frac{\varepsilon}{2\Delta f}(|y_i|-|y_i-\Delta x_i|)}=e^{\frac{\varepsilon}{\Delta f} \displaystyle \sum_{i=1}^d(|y_i-\Delta x_i|-|y_i|)}
​ 由基本不等式知:
yiΔxiyiyiΔxiyi=Δxi |y_i-\Delta x_i|-|y_i| \leq |y_i -\Delta x_i -y_i|=|\Delta x_i|
​ 故上式:
i=1d(yiΔxiyi)i=1nΔximaxD,D(i=1nΔxi)=Δf \sum_{i=1}^d(|y_i-\Delta x_i|-|y_i|) \leq \sum_{i=1}^n|\Delta x_i| \leq \max \limits_{D,D'}(\sum_{i=1}^n|\Delta x_i|)=\Delta f
​ 于是有:


Pr[M(D)S]Pr[M(D)S]eε \frac{Pr[M(D)\in S]}{Pr[M(D')\in S]} \leqslant e^{\varepsilon}
​ 得证。即Pr[M(D)S]eεPr[M(D)S]{Pr[M(D)\in S]} \leqslant e^{\varepsilon} * {Pr[M(D')\in S]}

​ 再由对称性知,Pr[M(D)S]eεPr[M(D)S]{Pr[M(D')\in S]} \leqslant e^{\varepsilon} * {Pr[M(D)\in S]}

其他问题

我们已经知道,噪声是符合Laplace机制的,这样是符合差分隐私的定义的。问题是:

  1. M(D)=f(D)+(Lap1(Δfε),,Lapd(Δfε))TM(D)=f(D)+(Lap_1(\frac{\Delta f}{\varepsilon}),\dots,Lap_d(\frac{\Delta f}{\varepsilon}))^T,这个“加法”是普通的加法就好了吗?对于数据集DD的分布有什么要求吗?还是说任意数据都可以呢?
  2. 在累乘时,我们默认是独立同分布的,那么非独立同分布数据也可以这样算吗?
  3. Δf\Delta f的定义时,我们假定是用一范数的,用其他范数来度量可以吗?答案是否定的,不可以。具体分析可以参考这篇文章

差分隐私-Laplace机制的简单证明

  1. 根据范数的定义可知道,xp||\vec x||_p是一个随着pp增大而不断减小的递减函数。这个结论是明显的,但是证明,现在我还不会。对于这题而言,这个范数的证明,是无关紧要的。但是这个结论是需要记住的。

参考自MathThinker

数学公式的排版好费时间呀,得多敲!排版公式的语法总结,后面写多了再做。