差分隐私总览--The Overview of Differential Privacy
2.2.5 Exponential Mechanism 12
1.安全计算
实现安全计算的方法: 一类是基于噪音的,另一类不是基于噪音的。
1.1 基于噪声的方法
基于噪音的安全计算方法,最主要代表是目前很火的差分隐私(differential privacy)。这类方法的思想是,对计算过程用噪音干扰,让原始数据淹没在噪音中,使别有用心者无法从得到的结果反推原始数据。
这种方法的优点是效率高(毕竟只需要生成服从特定分布的随机数即可),缺点是最后得到的结果不够准确,而且在复杂的计算任务中结果会和无噪音的结果相差很大导致结果无法使用。
1.2 非噪声方法
非噪音方法一般是通过密码学方法将数据编码或加密。
1.3 K-匿名化算法
To avoid linkage attack
2. 差分隐私
A privacy mechanism must be able to protect individual’s privacy from attackers who may possess background knowledge.
1.1 定义
敏感度(sensitivity):
差分隐私保护可以通过在查询函数的返回值中加入噪声来实现,但是噪声的大小同样会影响数据的安全性和可用性。通常使用敏感性作为噪声量大小的参数,表示删除数据集中某一记录对查询结果造成的影响。敏感度分为全局敏感度和局部敏感度,通常情况下采用全局敏感度会加入过大的噪音,使数据失真,但若使用局部敏感度,在一定程度上就会泄露数据分布信息,这个时候就有了平滑敏感度
隐私保护预算
从差分隐私保护的定义可知,隐私保护预算ε用于控制算法M在邻近数据集上获得相同输出的概率比值,反映了算法M所的隐私保护水平,ε越小,隐私保护水平越高。在极端情况下,当ε取值为0时,即表示算法M针对D与D’的输出的概率分布完全相同,由于D与D’为邻近数据集,根据数学归纳法可以很显然地得出结论,即当ε=0时,算法M的输出结果不能反映任何关于数据集的有用的信息。因此,从另一方面,ε的取值同时也反映了数据的可用性,在相同情况下,ε越小,数据可用性越低。
2.2 噪声机制
2.2.1 基础知识介绍
2.2.2 三种分布
2.2.3 Laplace Mechanism
2.2.4 Gaussian mechanism
问题转化为
2.2.5 Exponential Mechanism
For functions that do not return a real number:“what is the most common nationality in this room”: Chinese/Indian/American…
第一项
第二项
2.2.6 random response
2.2.7可用性评估
2.3 交互式数据发布
2.3.1 场景差分隐私
2.4 非交互式数据发布
更多深入学习差分隐私在我的github:https://github.com/Billy1900/Differential-Privacy