Domain Adaption 领域自适应
-
定义(from Wiki):
Domain Adaption是transfer leanring(迁移学习)中很重要的一项内容。主要目的是将具有不同分布的(data distribution)的具有标签(label)的源域(source domain)和不带标签的目标域(target domain) 映射(map)到同一个特征空间(embedding mainfold)。
-
数学化(Formalization)
X , Y X, Y X,Y 分别为输入空间和输出空间;
Machine Leanring 算法的目的是学习一个数据模型(假设 hypothesis) h : X → Y h: X \rightarrow Y h:X→Y。学习样本为 S = { ( x i , y i ) ∈ ( X × Y ) } i = 1 m S = \{ (x_i,y_i) \in (X \times Y)\}_{i=1}^m S={(xi,yi)∈(X×Y)}i=1m。 -
Domain Adaptation不同方法
(1)无监督式domain adaption:数据为一组labeled的source domain数据、一组unlabeled的source domain数据、一组unlabeled的target domain数据。(2)半监督式domain adaption:同时包括了一“小”组labeled的target domain数据。
(3)监督式domain adaption:所有的数据都为labeled。
-
四种算法框架
(1)重采样算法(2)迭代算法
(3) 寻找共同编码space
标准的框架如2006年Granin[1]提出的一种基于对抗式方法,如下图所示:
主要由三部分组成:特征提取网络 G f ( x , θ f ) G_f(x,\theta_f) Gf(x,θf), 分类网络 G y ( z , θ y ) G_y(z,\theta_y) Gy(z,θy) 以及域判别器 G d ( z , θ d ) G_d(z,\theta_d) Gd(z,θd) 。
训练策略分别是:
G f G_f Gf : 编码的feature能使分类网络尽量识别出label,同时使域判别器无法分辨两种domain。
G y G_y Gy : 尽量predict出label。
G d G_d Gd : 尽量区分出feature是来自source domain还是target domain。
(4)层级贝叶斯模型