Domain Adaption 领域自适应

  • 定义(from Wiki):

    Domain Adaptiontransfer leanring(迁移学习)中很重要的一项内容。主要目的是将具有不同分布的(data distribution)具有标签(label)的源域(source domain)和不带标签的目标域(target domain) 映射(map)到同一个特征空间(embedding mainfold)

  • 数学化(Formalization)

    X , Y X, Y XY 分别为输入空间和输出空间;
    Machine Leanring 算法的目的是学习一个数据模型(假设 hypothesis) h : X → Y h: X \rightarrow Y h:XY。学习样本为 S = { ( x i , y i ) ∈ ( X × Y ) } i = 1 m S = \{ (x_i,y_i) \in (X \times Y)\}_{i=1}^m S={(xi,yi)(X×Y)}i=1m

  • Domain Adaptation不同方法
    (1)无监督式domain adaption:数据为一组labeled的source domain数据、一组unlabeled的source domain数据、一组unlabeled的target domain数据。

    (2)半监督式domain adaption:同时包括了一“小”组labeled的target domain数据。

    (3)监督式domain adaption:所有的数据都为labeled。

  • 四种算法框架
    (1)重采样算法

    (2)迭代算法

    (3) 寻找共同编码space

    标准的框架如2006年Granin[1]提出的一种基于对抗式方法,如下图所示:
    Domain Adaption 领域自适应

    主要由三部分组成:特征提取网络 G f ( x , θ f ) G_f(x,\theta_f) Gf(x,θf), 分类网络 G y ( z , θ y ) G_y(z,\theta_y) Gy(z,θy) 以及域判别器 G d ( z , θ d ) G_d(z,\theta_d) Gd(z,θd)

    训练策略分别是:

    G f G_f Gf : 编码的feature能使分类网络尽量识别出label,同时使域判别器无法分辨两种domain。

    G y G_y Gy : 尽量predict出label。

    G d G_d Gd : 尽量区分出feature是来自source domain还是target domain。

    (4)层级贝叶斯模型