[cvpr2017]Domain Adaptation by Mixture of Alignments of Second- or Higher-Order Scatter Tensors
三个散度矩阵:
LDA上的三个散度矩阵
introduction
- 作者将自己的模型称为Second or
Higher-order Transfer of Knowledge (So-HoT),是一个对source domain和target domain之间进行二阶或者更高阶次的统计量的一个对齐(alignment). - 作者使用二阶或者更高阶的scatter 张量,source domain一个,target domain一个
- scatter张量从AlexNet的fc7建立
- 作者建议,因为source domain和target domain仅仅通过他们的共有部分相关联,所以source domain和target domain的类内散度(within-class scatters)应当被调整到一个适当的程度(较小),来捕获source domain和target domain之间共同的分布。并在此同时,类间散度(between-class scatters)应该较高以保持判别性
- 作者认为,source domain和target domain当中不同的类可能需要以不同的方式进行对齐(alignment),因为source domain和target domain中的共有部分可能和类相关。
- (?unweighted和weighted,不清楚对什么加权)we investigate not only an unweighted
alignment loss (class-independent level of alignment) but also its weighted counterpart which learns
one weight per class (class-specific levels of alignment). - 作者使用2阶或者更高阶张量的时候采用了核方法,速度更快
Related Work
The Commonality
- 传统的想法认为,预测的做出必须基于“无法去区分是来自source domain或者target domain”的特征(domain-invariant feature)
- 作者则是将共同的部分(The Commonality)定义为source domain和target domain在二阶或者更高阶次的scatter后重叠的部分
- 但是作者也会使用非重叠的部分进行学习,作者认为这样得出的分类器更具有一般性(能够避免域特定偏差(domain-specific bias)
Tensor Methods
- 3阶以上的张量在机器学习中是有用的
- 作者使用张量作为域和类的特定表示,类似于核方法,并把它们用于对齐任务(alignment task)。
Background
Notations
Second- or Higher-order Scatter Tensors
- r阶散度张量如下:
- 作者提出说在AlexNet的
fc7 层输出这个张量X ,当需要特殊说明这是r 阶散度张量的时候,会使用X(r) -
X 的性质:- 超对称性:改变
X 的下标的排列不会影响到X 中独立的参数的个数 - 对于任意偶数阶次的
X ,他所有切片(slice)都是半正定的。特别地,当X 为2阶时,X 就是协方差矩阵 - (奇数阶次的我没看懂,说是核心张量(core-tensor)可以有正、负、0)
- 作者说使用欧式距离来表达各个张量
X 之间的距离
- 超对称性:改变
frobenius范数的性质(作者貌似把这个拿来当成欧式距离)
内积的性质:
Proposed Approach
Problem Formulation
- 定义(
Φ 是数据的特征向量,X 是scatter张量): - 损失函数总形式:
- 包括分类损失(classfier loss)和建立在scatter 张量基础上的alignment loss(对齐损失?)
- 分类损失使用Softmax,并且分类是对source domain和target domain同时进行(参数共享))。
λ||W||2F 项是为了使W 更小 - alignment loss(对齐损失)
g(Φ,Φ∗) 由特征向量的scatter 张量X(Φ) 和均值μ(Φ)决定 ,特征向量source domain和target domain参数不共享。每个域的每一个类都有自己的Xc 或者X∗c ,μc 或者μ∗c (现在为止我很好奇target domain作者你要怎么分类)。σ1 和σ2 控制均值和scatter张量对齐的程度,τ1 和τ2 则限制特征向量ϕ 不至于过大
Weighted Alignment Loss
- 作者在对齐损失中引入了类特定权重(class-specific weights)
- 作者将所有除了阶次1的scatter张量都拿来加入了损失函数(最高到阶次
r ) -
α1 和α2 控制了权重的梯度
Kernelized Alignment Loss
- 梯度下降期间使用scatter
张量进行计算开销很大,所以作者对frobenius范数采用了核方法 - 作者用多项式核表示了两个scatter张量的内积
复杂度计算:
Experiments
(自行参看原论文)