联合机器学习中的概念及应用
{% note info %}
{% endnote %}
Questions
heuristic | fundamental |
---|---|
数据少,指的是样本少; 数据的质量低,我觉得并不是数据不可信,而是数据的特征空间小,包含的信息少,建模后并不能得到有效的结论。 早期有一种观点是直接在这种数据少且质量低的情况下训练模型,并致力于提高该模型的精确度。我觉得这不可行,至少使用机器学习的方法不能做到。机器学习研究的是统计问题,归根到底是数学方法,它并不关心数据特征的具体含义,而敏感于数据的分布。我们借助机器学习,最终得到的是期望/可能性,是关于概率的。因此自然是样本越多越好,精确度就越高了。 数据的持有者结成联盟共同训练模型,是另一种观点。我觉得联邦学习走在正确的路上。 |
1. 如何清洗数据? |
理想的方法是直接将所有参与方的数据聚集在一起,不顾虑法律、技术和成本的约束。 而即使这样,因为不同机构所持有的数据或多或少都是异构的,在聚集时就必须将数据对齐,这也意味着非交集数据的损失。 既然如此,为何不先完成对齐,再将数据聚合呢?并且加密需聚合的数据。这一方面,于最终训练效果而言,并没有太大影响;另一方面,又满足了公众对数据隐私的诉求。 |
2. 什么是数据中毒(data poisoning)? |
水平联邦学习增大了样本空间,能够提高模型的精确度; 垂直联邦学期拓宽了特征空间,使得分析结果能够涵盖更多领域,产生1+1>2的效果 |
|
联邦迁移学习到底是什么? | |
联邦学习中,参与者越多越好吗? |
Abstract
{% hideToggle 词汇 %}
词汇 | 解释 | 词汇 | 解释 |
---|---|---|---|
strengthening | n. 加强 | propose | vt. 提出,建议 |
beyond | prep. 晚于,迟于 | secure federated learning | 安全联邦学习 |
federated transfer learing | 联邦迁移学习 | mechanism | n. 机制,原理 |
compromise | vt. 泄漏,使陷入危险,妥协 | CCS | abbr. Council of Communication Societies 通信学会理事会 |
methodology | n. 方法论 | phrase | n. 短语 |
GDPR | General Data Protection Regulation 通用数据保护协议 |
{% endhideToggle %}
目前AI领域面临着两个重要的挑战:
- 在大部分行业中,数据以孤岛的形式存在
- 加强数据隐私和安全
安全联邦学习(secure federated learning)中包含的三个方面:
- 水平联邦学习(horizontal federated learning)
- 垂直联邦学习(vertical federated learning)
- 联邦迁移学习(federated transfer learning)
论文介绍了联邦学习框架中的一些定义、架构和应用,并全面调查了联邦学习方面已有的工作。此外,论文中还提出了如何在不同的组织之间基于联邦机制来构建数据网络,作为一个解决方案使得能在不泄漏用户隐私的情况下分享知识(knowledge)。
Introduction
{% hideToggle 词汇 %}
词汇 | 解释 | 词汇 | 解释 |
---|---|---|---|
Go | n. 围棋 | defeat | vt. 击败 |
cutting-edge | adj. 最新的,先进的 | medical care | 医疗护理 |
walks of life | 各行各业 | inevitable | adj. 不可避免的 |
availability | n. 可获得性 | permission | n. 许可 |
hard copy | 复印件 | grant | vt. 授予 |
commercial | adj. 商业的,营利的 | citation | n. 引用 |
fuse | vt. 融合 | if not impossible | 如果有可能的话 |
recommendation | n. 推荐 | complicated administrative procedure | 复杂的管理程序 |
integration | n. 集成 | resistance | n. 阻力,反抗 |
institution | n. 公共机构 | issue | n. 问题 |
cause great concern | 引起巨大的影响 | data breach | 数据外泄 |
protest | n. 抗议,反抗 | enforce | vt. 实施 |
protect | vt. 保护,防卫 | plain | adj. 简单的 |
stiff fine | 硬性罚款,严厉处罚 | violate | vt. 违反 |
bill | n. 法案 | act | n. 法令 |
enact | vt. 颁布 | Cyber Security Law | 网络安全法 |
General Principles of Civil Law | 民法通则 | tamper | vi. 做手脚,破坏 |
tamper with | 篡改 | conduct | vt. 实施,进行 |
obligation | n. 义务,责任 | pose | vt. 造成,形成 |
dilemma | n. 困境,进退两难 | data fragmentation | 数据碎片 |
to be more specific | 具体而言,准确来说 | be responsible for | 对…负责 |
promote | vt. 促进 | complaint | adj. 服从的,顺从的 |
{% endhideToggle %}
由于市场资金的注入和大数据的支持,AI自2016年便迎来了空前的繁荣。
在大部分领域,数据有限或者数据的质量低,这使得AI技术的实现超乎想象的困难。一种可能的方法就是将不同机构的数据运输到同一个地方融合在一起。但是由于行业竞争、隐私安全和复杂管理程序方面的原因,即使是同一公司内不同部门之间的数据集成也会遇到很大的阻力。
facebook 的隐私外泄引起了广泛的抗议,世界各国开始加强数据安全和隐私方面的法律法规。这也给如今在AI领域普遍使用的数据事务程序带来了新的挑战。
GDPR:
- 禁止自主的建模和决定
- 解释模型的决定
- 授予用户遗忘数据的能力,允许用户删除或者撤销其个人数据
- 在设计层上就考虑数据隐私
- 使用清晰简单的语言说明数据使用的用户许可授权
AI 领域中传统的数据处理(data processing)模型涉及了一些简单的数据事务(data transactions)模型,其中一方收集和传输数据到负责清洗并融合数据的另一方,最终一个第三方会得到集成好的数据并构建其他方也可以使用的模型。构建好的模型通常也是最终的产品,作为一项服务销售。传统的处理程序面对着来自新法规的挑战,而用户也可能因不清楚模型在未来的使用从而触犯法律。因此,我们处在这样一个困境中:数据处于一种孤岛的形式,而我们在很多情境中被禁止去收集、融合来自不同地点的数据用以AI处理。
为了促进联邦学习的发展,论文作者希望能将AI发展的焦点从提高模型的表现切换到探索符合数据隐私安全法的数据集成方法上,前者是当前大部分AI领域都在做的事情。
An Overview of Federated Learning
{% hideToggle 词汇 %}
词汇 | 解释 | 词汇 | 解释 |
---|---|---|---|
effort | n. 努力 | personalizable | adj. 个性化的 |
optimization | n. 最佳化 | massive | adj. 大量的 |
partition | vt. 分割,区分 | decentralized | adj. 分散管理的 |
preliminary | adj. 初步的,开始的 | foundation | n. 基金会 |
multiagent theory | 可替换主体理论 | data mining | 数据挖掘 |
workflow | n. 工作流程 | consolidate | vt. 联合,巩固 |
respective | adj. 各自的,分别的 | conventional | adj. 常见的,惯例的 |
guarantee | n. 保证 | identify | vt. 鉴别,识别 |
simulation | n. 模拟,仿真 | proof | n. 验证 |
complete | adj. 完全的,彻底的 | desirable | adj. 可取的,令人向往的 |
partial | adj. 局部的 | disclosure | adj. 披露 |
semi-honest | adj. 半诚实的 | verification | n. 核查,验证 |
reveal | vt. 显示,泄漏 | collude | vi. 勾结,串通 |
well-defined | adj. 定义明确的,界限清楚的 | desire | vt. 要求 |
line of work | 行业 | anonymity | n. 匿名性,匿名者 |
diversification | n. 多样化,分化 | obscure | vt. 使…模糊不清,隐藏 |
restore | vt. 恢复,重建 | approach to | 约等于,通往…的方法 |
transmit | vt. 传输,传播 | homomorphic encryption | 同态加密 |
adopt | vt. 采用,采纳 | additively | adv. 附加地,叠加地 |
polynomial approximation | 多项式逼近 | intermediate | adj. 中间的,过渡的 |
constrain | vt. 驱使 n. 约束 |
scale | n. 规模 |
poisoning | n. 中毒 | loophole | n. 漏洞 |
variant | n. 变体,转变 | constant fraction | 恒比 |
blockchain | n. 区块链 | facilitate | vt. 促进,帮助 |
leverage | vt. 利用 | scalability | n. 可拓展性 |
robustness | n. 健壮性 | categorize | vt. 分类 |
identical | adj. 完全相同的 | regional | adj. 地区的,局部的 |
scheme | n. 计划,方案,模式 | intersection | n. 交集 |
address | vt. 设法解决 | straggler | n. 掉队者 |
partition | vt. 分割,区分 | compression | n. 压缩 |
bandwidth | n. 带宽 | preserving | n. 保护,保存 |
regression | n. 回归 | linear | adj. 线性的 |
entity | n. 实体 | applicable | adj. 可应用的,合适的 |
commerce | n. 贸易,商务 | revenue | n. 收益 |
expenditure | n. 支出,花费 | retain | vt. 保持,记住 |
corrupted | adj. 毁坏的 | geographical | adj. 地理的 |
restriction | n. 限制 | portion | n. 部分 |
exceeding | vt. 超越 | decrypt | vt. 解码 |
converge | vi. 聚集,收敛 | subject | adj. 容易遭受…的 |
Generative Adervasarial Network | GAN 生成对抗性网络 | entity | n. 实体 |
alignment | n. 对齐 | lossless | adj. 无损的 |
gather | vt. 收集 | scale | vi. 改变大小 |
parallel | adj. 平行的 | randomness | n. 随机性 |
secrecy | n. 机密性 | inability | n. 无能力 |
terminate | vt. 使结束 | oblivious | adj. 遗忘的 |
overall | adj. 全部的 | commercialize | vt. 商业化 |
incentive | n. 激励,动机 | manifest | vt. 表明,证明 |
permanent | adj. 永久的,永恒的 | better off | 达到某数量的,富裕的,渐入佳境 |
consensus | n. 一致 |
{% endhideToggle %}
联邦学习中最优化问题的几个重要因素:
- 在大量分布地间进行交流的成本
- 数据分布的不平衡
- 设备的可靠性
Definition of Federated Learning
假定有 N N N 个数据拥有者 { F 1 , ⋯ , F N } \{ \mathcal{F}_1,\cdots,\mathcal{F}_N \} {F1,⋯,FN} 希望通过联合他们各自的数据 { D 1 , ⋯ , D N } \{ \mathcal{D}_1,\cdots,\mathcal{D}_N \} {D1,⋯,DN} 来训练一个机器学习的模型。一种常见的方法就是把数据放在一起,即有 D = D 1 ∪ ⋯ D N \mathcal{D}=\mathcal{D}_1\cup\cdots\mathcal{D}_N D=D1∪⋯DN,由此训练模型 M S U M \mathcal{M}_{SUM} MSUM
联邦学习系统就是一个数据拥有者们合作性地训练模型 M F E D \mathcal{M}_{FED} MFED 的学习过程,在这个过程中任意数据拥有者 F i \mathcal{F}_i Fi 都不会将其数据 D i \mathcal{D}_i Di 暴露给其他的数据持有者
用 V F E D \mathcal{V}_{FED} VFED 表示模型 M F E D \mathcal{M}_{FED} MFED 的精确度。 V F E D \mathcal{V}_{FED} VFED 必须十分接近 V S U M \mathcal{V}_{SUM} VSUM ( M S U M \mathcal{M}_{SUM} MSUM 的性能)
令
δ
>
0
\delta > 0
δ>0,若
∣
V
F
E
D
−
V
S
U
M
∣
<
δ
(1)
\vert \mathcal{V}_{FED}-\mathcal{V}_{SUM} \vert < \delta \tag{1}
∣VFED−VSUM∣<δ(1)
则称这个联邦学习算法有
δ
\delta
δ 精确度损失
Privacy of Federated Learning
隐私是联邦学习中的一个重要属性,其需要安全模型和分析以提供有意义的隐私保证。论文介绍了联邦学习中一些隐私技术,识别方法以及间接隐私泄漏的预防中的潜在挑战。
-
安全多方计算(Secure Multi-party Computation, SMC):
SMC安全模型自然而然地包含了多个参与方,并且提供了安全验证在定义明确的模拟框架中用以保证 complete zero knowledge,也就是每个参与方只能知道自身的输入和输出。zero knowledge 很让人向往,但其通常需要复杂的计算协议,且也许不能有效的将之实现。而在低安全需求的情境中,可以构建一个基于SMC的安全模型以追求效率。
已进行的研究:
- MPC protocols:用以模型的训练和验证,且不会泄漏敏感数据
- Sharemind:最先进的SMC框架之一
- 3PC model:在半诚实和恶意的假设(malicious assumptions)中,考虑安全性
-
差分隐私(Differential Privacy):
在差分隐私(Differential Privacy)、k-匿名(k-Anonymity)和分化(diversification)的方法中,都向数据中添加了噪声,或者使用泛化方法(generalization methods)来隐藏一些敏感属性让第三方不能区分出个体之间的区别,由此使得数据不可能被重建,从而保护了用户的隐私。然而这些方法的根本仍然是将数据传输到其他地方,且这些方法也需要在精确度和隐私之间权衡。
-
同态加密(Homomorphic Encryption):
(不同于差别隐私的保护方法)在同态加密中,数据和模型本身不会被运输,也不能通过其他参与方的数据来猜中它们。因此,在原始数据的层次上几乎不可能发生泄漏。
在实践中,叠加同态加密(Additively Homomorphic Encryption)被广泛的使用,而多项式逼近(polynomial approximations)也被用于评估机器学习算法中的非线性函数,这都将导致需要在精确度和隐私之间权衡。
-
间接信息泄漏(indirect information leakage):
联邦学习中的一些前驱工作会暴露中间结果。比如从优化算法(如SGD算法)中上传参数时,由于未提供安全保证,梯度泄漏加上数据结构的暴露也许会导致重要的数据信息外泄。
联邦学习系统中的成员可以恶意地攻击其他参与者,通过植入后门来学习他们的数据。
研究者们也开始考虑引入区块链(blockchain)作为平台来促进联邦学习。Hysung Kim 等人提出了一个基于区块链的联邦学习架构(BlockFL),通过利用区块链来交换并验证移动设备之间本地学习模型的更新。他们也考虑了 an optimal block generation、网络的可拓展性及健壮性的问题。
A Categorization of Federated Learning
我们可以数据的分布特征为标准,来给联邦学习分类。
用矩阵 D i \mathcal{D}_i Di 表示数据拥有者 i i i 所持有的数据,矩阵的每一行都代表一个样本,每一列都代表一种特征。
同时,一些数据集可能还包含了标签(label)字段。我们用 X \mathcal{X} X 表示特征空间, Y \mathcal{Y} Y 表示标签空间, I \mathcal{I} I 表示样本ID空间,这三者组成了完整的训练数据集 ( I , X , Y ) (\mathcal{I},\mathcal{X},\mathcal{Y}) (I,X,Y)。
参与方们的数据的特征空间和样本空间也许不是完全相同的,所以我们可以基于数据在不同参与方(parties)的特征空间和样本 ID 空间上的分布情况,将联邦学习分为水平联邦学习(horizontal federated learing)、垂直联邦学习(vertical federated learning)和联邦迁移学习(federated transfer learning)。
-
水平联邦学习(horizontal federated learning):
也就是基于样本的联邦学习(sample-based federated learning),在这种联邦学习中,数据集共享了相同的特征但是各自的样本不同。可以描述为:
X i = X j , Y i = Y j , I i ≠ I j , ∀ D i , D j , i ≠ j (2) \mathcal{X}_i=\mathcal{X}_j,\quad\mathcal{Y}_i=\mathcal{Y}_j,\quad\mathcal{I}_i\neq\mathcal{I}_j,\quad\forall\mathcal{D}_i,\mathcal{D}_j,i\neq j \tag{2} Xi=Xj,Yi=Yj,Ii=Ij,∀Di,Dj,i=j(2)
比如两个不同地区的银行,它们的用户来自各自的地区,样本空间的交集很小。但是它们的业务是非常相近的,所以特征空间相同。安全定义(security definition):一个典型的联邦学习系统假定参与者是诚实的,而服务器是 honest-but-curious,也就是说只有服务器才有可能会泄漏参与者的隐私。但是参与者也可能不怀好意,这带来了额外的隐私挑战。
-
垂直联邦学习(vertical federated learning):
也叫做基于特征的联邦学学习(feature-based federated learning),适用于两个数据集共享了相同的样本 ID 空间但特征空间不同的情景。
比如,同一个城市中的一家银行以及一家电子商务公司,它们的用户群体就是这个地区中的大部分居民。所以他们的样本空间有很大的交集。但是,银行记录的是用户的收入、支出以及信用等级,而电子商务公司保存的是用户的浏览和购物的历史信息。它们的特征空间非常不同。
垂直联邦学习是一个聚集(aggregate)不同特征并计算训练损失和梯度的过程,以隐私保护的方式来构建模型,数据来自所有的合作参与方。在这种联邦机制下,所有参与方的身份和地位都相同,并且该联邦系统会帮助所有人建立一个 common wealth 的策略。这就是其被称为联邦学习(federated learning)的原因。
X i ≠ X j , Y i ≠ Y j , I i = I j , ∀ D i , D j , i ≠ j (3) \mathcal{X}_i\neq\mathcal{X}_j,\quad\mathcal{Y}_i\neq\mathcal{Y}_j,\quad\mathcal{I}_i=\mathcal{I}_j,\quad\forall\mathcal{D}_i,\mathcal{D}_j,i\neq j \tag{3} Xi=Xj,Yi=Yj,Ii=Ij,∀Di,Dj,i=j(3)
安全定义(security definition):一个典型的垂直联邦学习系统假定了存在 honest-but-curious 的参与方。比如在一个只有两个参与方的情境中,双方没有相互串通且最多只有一方被对手攻击而发生信息泄漏。那么安全就可以定义为,对手只能学习到被毁坏的客户端的数据,并不能得到其他未发生泄漏的客户端的数据。为了促进双方之间的安全计算,可以引入一个半诚实的第三方(Semi-honest Third Party, STP),且假定其不与其他参与方串通。学习结束后,每个参与方只能持有与自身特征关联的模型参数。因此在推理时,双方需要一起合作来生成输出。 -
联邦迁移学习(federated transfer learning):
联邦迁移学习应用于这样的场景中:两个数据集在其样本空间和特征空间上均不相同。
假设有两个机构,一个是位于中国的银行,另一个是位于美国的电子商务公司。由于地理上的限制,这两个机构的用户群体只有很小的交集。另一方面,由于两者业务的不同,特征空间也只有很小部分的重叠。
X i ≠ X j , Y i ≠ Y j , I i ≠ I j ∀ D i , D j , i ≠ j (4) \mathcal{X}_i\neq\mathcal{X}_j,\quad\mathcal{Y}_i\neq\mathcal{Y}_j,\quad\mathcal{I}_i\neq\mathcal{I}_j\quad\forall\mathcal{D}_i,\mathcal{D}_j,i\neq j \tag{4} Xi=Xj,Yi=Yj,Ii=Ij∀Di,Dj,i=j(4)
安全定义:一个典型的联邦迁移学习系统包含了两个参与方,其安全定义与垂直联邦学习系统相同。
Architecture for a federated learning system
水平联邦学习系统的架构
在水平联邦学习系统中,k 个参与者拥有相同的数据结构,通过参数服务器或者云服务器来共同学习一个机器学习模型。假设参与者都是诚实的,而服务器是 honest-but-curious,因此从任何参与方到服务器的泄漏是不被允许的。水平联邦学习系统的训练过程包含了以下4个过程:
- 参与者在本地计算训练梯度,使用加密(encryption)/差分隐私(differential privacy)/**共享(secret sharing)技术来掩饰(mask)精选出来的梯度(a selection of gradients),然后将masked结果上传到服务器
- 服务器执行安全数据聚集(secure aggregation),且不需要学习任何参与方的信息
- 服务器将聚合结果(aggregated results)返还给参与方
- 参与方们使用解码后的梯度更新各自的模型
不断的迭代这4个步骤直到损失函数收敛,整个训练过程就完成了。
这个构架不依赖特殊的机器学习算法(如 logistic regression 和 DNN 等),并且所有的参与方都能分享最终模型的参数。
安全分析:如果采用了 SMC 或者同态加密来聚集梯度,这种架构就可以用来预防半诚实(semi-honest)的服务器引起的数据泄露。但是在其他安全模式的联合训练过程中,水平联邦学习系统的架构很容易遭到恶意参与方的攻击,通过训练一个生成对抗性网络(Generative Aderversarial Network, GAN)
垂直联邦学习系统的架构
假设公司 A 和 B 共同训练一个模型,它们的商务系统有各自的数据。此外,公司B持有模型需要预测的标签。出于数据隐私和安全的考虑,A 和 B 之间不能直接交换数据。为了确保在训练过程中数据的机密性,可以引入一个第三方合作者 C。假设 C 是诚实的,且不与 A 或 B 串通,而 A、B 之间相互是 honest-but-curious。这样一个可信任的第三方 C 通常由权威机构来充当,比如政府,或者安全计算结点(如Intel Software Guard Extension, SGX)。垂直联邦学习系统通常由两部分构成:
-
加密实体对齐(encrypted entity alignment)。由于两个公司的用户群体并不相同,系统使用了基于加密的用户 ID 对齐技术来确保双方公共的用户集合中不会暴露各自的数据。在实体对齐过程中,系统不会暴露各自除了重叠部分的用户数据。
-
加密模型训练(encrypted entity alignment)。决定好公共实体后,我们就可以用这些实体的数据来训练一个机器学习模型。训练过程可以分为以下4步:
- 合作者 C 创造加密对(encryption pairs),把公钥分发别发送给 A 和 B
- A 和 B 互相交换梯度和损失的中间计算结果
- A 和 B 分别计算加密后的梯度并添加额外的掩码,且 B 也需要计算加密后的损失,然后 A 和 B 将它们加密后的值传送给 C
- C 进行解码且将解码后的梯度和损失返还给 A 和 B,A 和 B 去除梯度上的屏蔽(unmask)并相应地更新模型参数
在实体对齐和模型训练的过程中,A 和 B 的数据都被保存在本地,且数据参与训练的交集部分也不会导致数据隐私泄漏。C 引起的数据泄露可能或不可能(may or may not)被认为是隐私泄露(privacy violation)。在这个情境中为了进一步预防 C 学习来自 A 和 B 的信息,A 和 B 会添加加密的随机掩码(encrypted random mask)来向 C 隐藏它们的信息。因此,两个参与方都到达了它们的目的:通过联邦学习来联合训练一个公共模型。
因为在整个训练过程中,每个参与方接收到的损失值和梯度,与在数据被收集在同一个地方且没有隐私约束的情况下训练模型而得到的损失值和梯度是一样的。所以,这个模型是无损失的,其效率取决于交流的成本和加密数据计算的成本。
在每次迭代过程中,A 和 B 之间传输数据的规模取决于重叠样本的多少。因此,可以采用分布式并行计算技术来进一步提高算法的效率。
安全分析:训练协议不会泄漏任何信息给 C,因为 C 学习到的都是添加掩码后的梯度。并且添加掩码后的矩阵,其随机性和安全性都得到了保证。在这样的协议中,参与方 A 在每一步都能学习到自身的梯度,但这并不足够让其学习到 B 的任何信息。因为标量积协议的安全性建立于这样一个基本事实:不能从 n 个等式中求解出超过 n 个未知量。
联邦迁移学习系统的架构
在上面垂直联邦学习的例子中,A 和 B 只有很小的样本交集,我们希望学习到参与方 A 所有数据集的标签。垂直联邦学习框架只操作了数据的重叠部分,为了将其覆盖范围拓展到整个样本空间,我们引入了迁移学习。这并没有改变垂直联邦学习整体的框架,但是参与方 A 和 B 之间交换中间计算结果的细节改变了。
迁移学习涉及了 A 和 B 的特征之间公共表示(common representation)的学习过程,以及利用原始域方(source-domain party)标签来预测目标域方(target-domain party)标签过程中的误差最小化。因此,A 和 B 的梯度计算过程与在垂直联邦学习中是不一样的。在推理时,仍然需要每个参与方去计算其预测结果。
奖励机制
为了将不同组织间的联邦学习充分商业化,就需要去开发一个公平的平台和激励机制。模型建立后,其性能可以在具体的应用中表现,并且可以记录在一个永久的数据记录机制中(如区块链)。机构能更加宽裕的提供更多数据,而模型的效果取决于数据提供者对系统的贡献。模型的效能惠及联邦机制的各个参与者,这又继续激励更多的机构参与到数据联合中。
这种架构的实现不止考虑了隐私保护和多机构间协作建模的效果,还顾及了如何奖励贡献了更多数据的机构以及如何通过共识机制(consensus mechanism)来执行奖励措施。因此,联邦学习是一种闭环的学习机制。
Related Work
{% hideToggle 词汇 %}
词汇 | 解释 | 词汇 | 解释 |
---|---|---|---|
originality | n. 创意 | devote | vt. 致力于 |
garbled | adj. 篡改的,混乱的 | follow-up | 后续的 |
allocate | vt. 分配 | autonomy | n. 自治 |
cope | vi. 处理,对付 | stringent | adj. 严格的,紧缩的 |
regulatory | adj. 管理的,控制的 | IID | Independent Identically Distributed,独立相似分布 |
coordination | n. 协调性 | convergence bound | 收敛约束 |
manage | vt. 管理,控制 | interoperability | n. 互操作性 |
heterogeneous | adj. 多种多样的,参差的 | premise | n. 前提,假定 |
{% endhideToggle %}
联邦学习使得多个参与方能协作构建一个机器学习模型,且其私人训练数据仍然保持私密性。作为一门新兴的技术,联邦学习有几条有创意的路线,其中一些根植于已存在的领域。
Privacy-preserving machine learning
联邦机器学习可以看作是保护隐私的分散协作机器学习(privacy-preserving decentralized collaborative machine learning),与多方保密的机器学习(multi-party privacy mechine learning)密切相关。
Federated Learning vs Distributed Machine Learning
第一眼看上去,水平联邦学习很像分布式机器学习(distributed machine learning)。分布式机器学习包含了很多方面:训练数据的分布存储、计算任务的分布式操作以及模型结果的分布式分布(distributed distribution of model results)。
参数服务器(parameter server)是一个分布式机器学习中的典型元素,可用来加速训练过程。参数服务器存储了分布式工作结点上的数据,并且通过中心调度结点来分配数据和计算资源,这提高了训练的效率。
在水平联邦学习中,工作结点就是数据持有者,其对本地数据拥有完全的自治权,可以决定何时以及如何加入联邦学习。而在其参数服务器中,中心结点始终保有控制权。所以,联邦学习面对着更加复杂的学习环境。此外,联邦学习强调在训练过程中保护数据持有者的数据隐私。有效的隐私保护方法可以在未来更好的处理日益严格的隐私保护和数据安全管理环境。
如同在分布式机器学习中,联邦学习也需要去定位非独立相似分布的数据(address Non-IID data)。
Federated Learning vs Edge Computing
联邦学习提供了关于协调性和安全性的学习协议,所以也可以看作是边缘计算的操作系统。
Federated Learning vs Federated Database Systems
联邦数据库系统将多个数据库单元集成起来,并且将集成系统作为一个整体来管理。联邦数据库的概念被提出来用以实现多个相互独立的数据库之间的互操作性(interoperability),其数据库单元使用分布式存储,而每个单元中对数据的操作是多样的(heterogeneous)。因此,联邦数据库系统与联邦学习在数据的类型和存储上有很多相似的地方。
但是联邦数据库系统在集成数据库的过程中没有涉及任何隐私保护机制,所有的数据库单元对于管理系统来说都是完全可见的。也就是说,联邦数据库系统致力于数据的基本操作(如插入、删除、搜索和合并等),而联邦学习是在保护数据隐私的前提下创建一个联合模型。因此数据包含的各种价值和规律为我们提供了更好的服务。
Applications
{% hideToggle 词汇 %}
词汇 | 解释 | 词汇 | 解释 |
---|---|---|---|
innovative | adj. 创新的 | intellectual property rights | 知识产权 |
personalized | adj. 个性化的 | personal preference | 个人喜好 |
characteristic | n. 特征 | hinder | vt. 阻碍,打扰 |
heterogeneity | n. 异质性 | mutual | adj. 共同的 |
limitation | n. 限制,极限 | ecosphere | n. 生态圈 |
borrowing | n. 借贷 | loan | n. 贷款 |
collapse | v. 崩溃 | symptom | n. 临床症状 |
envisage | vt. 设想,想象 | vision | n. 想象,美景 |
pivotal | adj. 关键的 |
{% endhideToggle %}
联邦学习是一种创新的建模机制,能基于来自不同参与方的数据上训练联合模型,且不泄漏这些数据的隐私和安全,在销售、金融以及其他(出于知识产权、隐私保护和数据安全的原因,数据不能直接聚集起来用以训练机器学习模型的)行业上很有前途。
联邦学学习可用于智慧零售(smart retail)。智慧零售的目的是使用机器学习技术来给消费者提供个性化服务,主要包括商品推荐和销售服务,其业务的数据特征主要有:
- 用户购买力——可从银行存款上推测得出
- 用户个人喜好——从用户的社交网中分析得到
- 商品特性——通常在网店中留有记录
这些数据通常存储在三个不同的部门或者企业中。
这样的话,我们就面临了两个问题:
- 出于对数据隐私和安全的保护,很难去打破银行、社交网站和网购站点之间的数据壁垒。因此数据不能直接聚合起来以训练模型。
- 存储在三个地方的数据通常都是参差不齐的,而传统的机器学习不能直接处理这种异构数据(heterogeneous data)。
而使用联邦学习和迁移学习时,这些问题迎刃而解。
- 利用联邦学习,我们可以在不暴露企业数据的前提下,就建立好机器学习模型。这不仅完全保护了数据隐私和数据安全,而且给用户提供了个性化服务和针对性服务,并且由此实现了诸多好处。
- 同时,我们可以利用迁移学习来定位数据异质性问题(data heterogeneity problems),并且打破传统人工智能技术的局限性。
因此,联邦学习为我们提供了很好的技术支持,让我们能为大数据和人工智能构建跨企业、跨数据、跨领域的生态圈。
联邦学习框架可用于不暴露数据的多方数据库查询(multi-party database querying without exposing the data)。在金融的应用中,我们对探测多方借贷(detecting multi-party borrowing)很感兴趣,这通常是银行行业的一个主要风险因素,往往发生在有某些恶意用户从一个银行中借钱来支付另一家银行的贷款时。多方借贷对金融稳定来说是一个威胁,大量的这种非法行为可能会导致整个金融系统崩溃。
银行 A 和银行 B 为了找到这种用户且不将自身的用户名单泄漏给对方,可以利用联邦学习框架。特别是,我们可以采用加密机制来加密每个参与方的用户名单,并且把加密名单的交集加入联邦中。最终结果的译码给出了多方借贷者的名单,而且这并不会将参与方自身的“好”用户暴露给其他参与方。我们可以看到,这种操作与垂直联邦学习有关。
联邦学习还可以用于智慧健康护理(smart healthcare)。
Federated Learning and Data Alliance of Enterprises
{% hideToggle 词汇 %}
词汇 | 解释 | 词汇 | 解释 |
---|---|---|---|
alliance | n. 联盟 | paradigm | n. 范例 |
equitable | adj. 公平的,公正的 | regardless of | 不管,不顾 |
carry out | 实现 |
{% endhideToggle %}
借助区块链技术中的共识机制(consensus mechanism),联邦学习形成了公平分配利益的规则(profits allocation)。
Conclusions and Prospects
{% hideToggle 词汇 %}
词汇 | 解释 | 词汇 | 解释 |
---|---|---|---|
bonus | n. 红利 |
{% endhideToggle %}