Larger Norm More Transferable: An Adaptive Feature Norm Approach for Unsupervised Domain Adaptation

AFN—Larger Norm More Transferable: An Adaptive Feature Norm Approach for Unsupervised Domain Adaptation学习笔记

tip

文章通过VisDA2017源模型上源域和目标域样本的特征可视化推导了两个假设:错位特征范数假设与较小特征范数假设。在每次迭代中,将特征范数自适应应用于任务特定的特征。而对应两个假设,作者提出两种新的域适应方法:对于AFN的硬变换与逐步变换。硬变换在实验中证明之前的假设错误,而在逐步变换SAFN中,当前的特征范数要接近于上一次迭代的特征二范数+ Δ r \Delta r Δr,以渐进的方式学习具有更大范数的特定任务特征。

文章还提出了针对模型鲁棒性的衡量方法。

Abstract

在这篇文章中,作者从经验上揭示了目标域的不稳定辨别主要源于它相对于源域的小得多的特征范数。为此,作者提出了一种新的无参数自适应特征范数方法。逐步调整两个领域的特征范数到范围较大的值可以导致显著的迁移效果,这意味着那些具有更大范数的特定任务特征更容易迁移。我们的方法成功地统一了标准域和部分域自适应的计算,对负迁移问题具有更强的鲁棒性。

introduce

模型退化的概念已经在数据分析团体中得到很好的认可,但是很少有方法来分析该现象的内在原因。因此,现有的统计差异的方法可能无法精确地描述域迁移,并且着这种差异可能无法保证跨域的安全迁移。 在本文中,作者从一个坚实的经验观察中向揭示模型退化的本质迈出了一步。

Larger Norm More Transferable: An Adaptive Feature Norm Approach for Unsupervised Domain Adaptation

该图为源模型上源域和目标域样本的特征可视化。这种技术被广泛用于描述softmax相关目标下的特征嵌入。具体来说,我们将特定于任务的特征设置为二维,并重新训练模型。与t-SNE不同的是,这里的空白空间的大小考虑了两个数据点之间的相似性,这种可视化地图使我们能够解释特征范数的大小以及类间和类内的差异。如图所示,目标样本倾向于在小范数(即低半径)区域中碰撞,该区域容易受到决策边界的微小角度变化的影响,并导致不稳定的辨别。

从目前的观察来看,仍有两种假设的解释:

  1. 错位特征范数假设:源域和目标域之间的域迁移依赖于它们错位的特征范数期望。将两个域的平均特征范数与任意共享标量相匹配,可以产生相似的传输增益。
  2. 较小特征范数假设:对于目标任务来说,域迁移实质上依赖于具有较小范数的过多的小特征信息。尽管没有严格的比对,但调整目标特征远离小范数区域可以实现安全迁移

作者提出了无参数的 Adaptive Feature Norm (AFN) 方法,首先,作者提出了一个简单而有效的统计距离来表征跨域的均值-特征-范数差异。第二,作者设计了硬AFN,通过限制两个域的期望特征范数来接近于一个共享标量,从而弥合域间差异。

这表明,范数对齐的特征可以带来有效的迁移,结果可以使用一个大标量来进一步改善。为了以一种稳定的方式探索一个更充分的大特征范数,我们提出了逐步AFN法,以鼓励对跨域的每个个体样本进行渐进的特征范数扩大。正如逐步AFN揭示的那样,实现成功迁移的关键是在于将目标样本适当地提升到较大范数的区域,而严格的比对是多余的。

作者认识到,那些具有更大范数的特定任务特征意味着具有更多的信息可传递性。作者将较大范数约束放在任务特定的特征上,以促进目标域上更具信息性和可迁移性的计算。

值得注意的是,在部分域适应问题中,负迁移不仅来自共享类别中的无关样本,还来自源域非共享类别中的无关数据

作者的贡献:

凭经验揭示了模型退化的本质,目标域特征相对于源域特征的非常小的范数解释了它们辨别的不稳定。

为部分域适应提出一种新的AFN方法,通过逐步调整两个域的特征范数来适应大范围的标量。

我们成功地统一了普通域适应和部分域适应中的计算方法,并且特征-范数-自适应方式对抵抗负迁移更为鲁棒。

Method

Preliminaries

源域表示为 D s = { ( x i s , y i s ) } i = 1 n s D_s=\{(x_i^s,y_i^s)\}^{n_s}_{i=1} Ds={(xis,yis)}i=1ns,其中 n s n_s ns表示源域样本的数量,源域拥有类别的个数为 ∣ C s ∣ |C_s| Cs。目标域表示为 D t = { x i t } i = 1 n t D_t=\{x_i^t\}^{n_t}_{i=1} Dt={xit}i=1nt,其中 n t n_t nt表示目标域未标注样本的数量,目标域拥有类别的个数为 ∣ C t ∣ |C_t| Ct

Vanilla Setting: C s = C t C_s=C_t Cs=Ct

Partial Setting C s ⊃ C t C_s\supset C_t CsCt

L2-preserved Dropout

在这一部分中,作者首先证明了标准的drop操作是L1保持的。由于作者的算法是基于隐藏特征的L2范数计算的,因此我们引入以下L2保持的drop操作来实现我们的目标。

drop是深度神经网络中常用的正则化技术。给定一个d维的向量 x x x,在训练阶段,随机用 a k ∼ P a_k\sim P akP以概率 p p p归零向量中的某一维的数据:

KaTeX parse error: No such environment: equation at position 7: \begin{̲e̲q̲u̲a̲t̲i̲o̲n̲}̲ P(a_k)=\left\{…

为了在评估阶段计算单位函数,输出被进一步缩放一个因子 1 1 − p \frac{1}{1-p} 1p1,即

x ^ k = a k 1 1 − p x k \hat{x}_k=a_k\frac{1}{1-p}x_k x^k=ak1p1xk

因为 x k x_k xk a k a_k ak是独立的,所以在训练和测试阶段都隐含地保留了L1范数:

E [ ∣ x ^ k ∣ ] = E [ ∣ a k 1 q − p x k ∣ ] = 1 1 − p E [ a k ] E [ ∣ x k ∣ ] = E [ ∣ x k ∣ ] \mathbb{E}[|\hat{x}_k|]=\mathbb{E}[|a_k\frac{1}{q-p}x_k|]=\frac{1}{1-p}\mathbb{E}[a_k]\mathbb{E}[|x_k|]=\mathbb{E}[|x_k|] E[x^k]=E[akqp1xk]=1p1E[ak]E[xk]=E[xk]

然而,在追求自适应L2特征范数时,将输出缩放一个因子 1 1 − p \frac{1}{\sqrt{1-p}} 1p 1得到:

x ^ k = a k 1 1 − p x k \hat{x}_k=a_k\frac{1}{\sqrt{1-p}}x_k x^k=ak1p 1xk

并满足:

E [ ∣ x ^ k ∣ 2 ] = E [ ∣ a k 1 q − p x k ∣ 2 ] = 1 1 − p E [ a k 2 ] E [ ∣ x k ∣ 2 ] = E [ ∣ x k ∣ 2 ] \mathbb{E}[|\hat{x}_k|^2]=\mathbb{E}[|a_k\frac{1}{q-p}x_k|^2]=\frac{1}{1-p}\mathbb{E}[a_k^2]\mathbb{E}[|x_k|^2]=\mathbb{E}[|x_k|^2] E[x^k2]=E[akqp1xk2]=1p1E[ak2]E[xk2]=E[xk2]

Framework

该方法的框架包括一个骨干网络G和一个分类器F。现有的研究表明,深层特征最终会沿着网络从一般过渡到特定,并且特征可迁移性在更高层会显著下降

在该方法中,G视为一个特征生成提取单元,它继承了如ResNet等流行的网络体系结构。F表示一个拥有l个全连接层的特定特征的分类器。作者将分类器前l-1层表示为 F f F_f Ff,这叫做所谓的瓶颈特征嵌入,那些由 F f F_f Ff计算的特征在很大程度上依赖于特定的领域,并且不能安全地迁移到新的领域。使用最后一层作为 F y F_y Fy来计算类别的概率。 G , F f , F y G,F_f,F_y G,Ff,Fy的参数分别表示为 θ g , θ f , θ y \theta_g,\theta_f,\theta_y θg,θf,θy

作者的目的是探索一种仅使用源域监督来计算域可迁移特征 f = F f ( ⋅ ) f=F_f(·) f=Ff()的自适应算法。另一方面,当统一关于普通和部分域适应的计算时,还要防御由源域中的非共享类别引起的负转移效应。

Larger Norm More Transferable: An Adaptive Feature Norm Approach for Unsupervised Domain Adaptation

AFN方法的模型框架。G表示特征提取模块,F表示一个拥有l个全连接层的特定特征的分类器,每一层的形式都是FC-BN-ReLU-Dropout。在每次迭代中,将特征范数自适应应用于任务特定的特征,同时将源分类损失作为我们的优化目标。对于AFN的硬变换(Hard)源样本和目标样本的平均特征范数被约束到一个共享标量。对于逐步变换(Stepwise),我们鼓励在步长为 Δ r \Delta r Δr的情况下对每个个体样本进行渐进的特征范数扩大。为此,在自适应后远离小范数区域,目标样本可以在没有任何监督的情况下被正确分类.

Hard Adaptive Feature Norm

基于错位特征范数假设,作者提出了最大平均特征范数差异(MMFND)来表征两个分布之间的平均特征范数距离,并验证弥合这一统计域差距是否能导致可观的迁移增益。MMFND定义为

M M F N D [ H , D s , D t ] : = sup ⁡ h ∈ H 1 n s ∑ x i ∈ D s h ( x i ) − 1 n t ∑ x i ∈ D t h ( x i ) MMFND[\mathcal{H},D_s,D_t]:=\sup\limits_{h\in \mathcal{H}}\frac{1}{n_s}\sum\limits_{x_i \in D_s}h(x_i)-\frac{1}{n_t}\sum\limits_{x_i \in D_t}h(x_i) MMFND[H,Ds,Dt]:=hHsupns1xiDsh(xi)nt1xiDth(xi)

其中函数类 H \mathcal{H} H是由L2范数与深度表征模块合成的所有可能函数的组合, h ( x ) = ( ∣ ∣ ⋅ ∣ ∣ 2 ◦ F f ◦ G ) ( x ) h(x)=(||·||_2◦F_f◦G)(x) h(x)=(2FfG)(x).

直观上,H类的函数足够丰富,在输入x上包含实质上的正实值函数,如果对函数类型没有限制,上界会大大偏离零。为了避免这种情况发生,作者放置了一个限制性标量R来匹配相应的平均特征范数。通过限制两个域的平均特征范数分别收敛到共享平衡,域间隙将消失为零。我们通过**硬自适应特征范数算法(HAFN)**实现这一点:

C 1 ( θ g , θ f , θ y ) = 1 n s ∑ ( x i , y i ) ∈ D s L y ( x i , y i ) + λ ( L d ( 1 n s ∑ x i ∈ D s h ( x i ) , R ) + L d ( 1 n t ∑ x i ∈ D t h ( x i ) , R ) ) ( 7 ) C_1(\theta_g,\theta_f,\theta_y)=\frac{1}{n_s}\sum\limits_{(x_i,y_i)\in D_s}L_y(x_i,y_i)+\lambda(L_d(\frac{1}{n_s}\sum\limits_{x_i\in D_s}h(x_i),R)+L_d(\frac{1}{n_t}\sum\limits_{x_i\in D_t}h(x_i),R))(7) C1(θg,θf,θy)=ns1(xi,yi)DsLy(xi,yi)+λ(Ld(ns1xiDsh(xi),R)+Ld(nt1xiDth(xi),R))7

优化目标由两项组成:

  1. 源域分类器损失 L y L_y Ly,以便通过最小化源域已标记样本上的softmax最大交叉熵来获得任务区分特征,由等式(8)表示。其中 p = p 1 , . . . , p ∣ C s ∣ p = p_1,...,p_{|C_s|} p=p1...pCs是分类器预测的softmax**值,即 p = s o f t m a x ( F ( G ( x ) ) p =softmax(F(G(x)) p=softmax(F(G(x))
  2. 通过最小化两个域之间的特征范数差异来获得域可迁移特征的特征范数惩罚,其中 L d ( ⋅ ) L_d(·) Ld()被视为L2距离,λ是权衡两个目标的超参数。

L y ( x i s , y i s ; θ g , θ f , θ y ) = − ∑ k = 1 ∣ C s ∣ 1 [ k = y i s ] l o g ( p k ) ( 8 ) L_y(x^s_i,y^s_i;\theta_g,\theta_f,\theta_y)=-\sum\limits^{|C_s|}\limits_{k=1}\mathbb{1}_{[k=y^s_i]}log(p_k)(8) Ly(xis,yis;θg,θf,θy)=k=1Cs1[k=yis]log(pk)(8)

通过执行HAFN将这种特征-规范差异与仅源域监督联系起来,最终可以实现任务区分和域可转移的特征。

然而,R的偏好设置仍未确定。正如之前错位特征范数假设所指出的,将两个域的特征范数期望与任意共享的真实值相匹配,应该会产生相似的迁移增益。但我们的是实验结果发现这种说法并不正确。具体而言,尽管将两个域的平均特征范数限制为一个相当小的值(例如,R = 1,即特征归一化)已经显示出有效的结果,但是,随着R逐渐增加,所获得的模型仍然倾向于在目标任务上实现更高的精度。为此,需要探索一个足够大的R,并验证特征-范数期望之间的严格对齐是否是必要的,这是由我们的较小特征范数假设揭示的。事实上,不幸的是,HAFN未能设置非常大的R,因为由特征范数惩罚产生的梯度最终可能导致爆炸

Stepwise Adaptive Feature Norm

为了打破上述瓶颈,作者引入了一种称为逐步自适应特征范数(SAFN)的改进变体,以鼓励模型以渐进的方式学习具有更大范数的特定任务特征,如等式所示:

C 2 ( θ g , θ f , θ y ) = 1 n s ∑ ( x i , y i ∈ D s ) L y ( x i , y i ) + λ n s + n t ∑ x i ∈ D s ∪ D t L d ( h ( x i ; θ 0 ) ) + Δ r , h ( x i ; θ ) ( 9 ) C_2(\theta_g,\theta_f,\theta_y)=\frac{1}{n_s}\sum\limits_{(x_i,y_i\in D_s)}L_y(x_i,y_i)+\frac{\lambda}{n_s+n_t}\sum\limits_{x_i\in D_s\cup D_t}L_d(h(x_i;\theta_0))+\Delta r,h(x_i;\theta)(9) C2(θg,θf,θy)=ns1(xi,yiDs)Ly(xi,yi)+ns+ntλxiDsDtLd(h(xi;θ0))+Δr,h(xi;θ)(9)

其中 θ = θ g ∪ θ f \theta=\theta_g\cup \theta_f θ=θgθf θ 0 \theta_0 θ0 θ \theta θ分别表示上次迭代和当前迭代中更新的模型参数, Δ r \Delta r Δr表示表示控制特征范数放大的正剩余标量。

在每次迭代过程中,SAFN当前的特征范数要接近于上一次迭代的特征二范数+ Δ r \Delta r Δr。SAFN没有指定硬值,而是使优化过程更加稳定,并且很容易在两个目标之间进行权衡。为此,执行SAFN可以通过用更大的范数生成更多的信息特征来实现目标任务的更高精度。值得注意的是,SAFN并没有严格地弥合均值-特征-范数的差异,但可以选择放置一个终端R来限制无限扩大,如E公式(10)所示。然而,我们的实证结果显示,公式(10)替换了公式(9)中的第二项后会有稍微不同的结果。正如较小特征范数假设所指出的,一旦我们将目标样本适当地调整到大范数区域,严格的比对就变得多余了.

L D ( m a x ( h ( x i ; θ 0 ) + Δ r , R ) , h ( x i ; θ ) ) ( 10 ) L_D(max(h(x_i;\theta_0)+\Delta r,R),h(x_i;\theta))(10) LD(max(h(xi;θ0)+Δr,R),h(xi;θ))(10)

Model Robustness Evaluation

作者提出了有意义的协议来评估给定算法的鲁棒性,特别是在更一般的局部设置下。值得注意的是,在这种情况下,负迁移不仅是由共享类别中的不相关样本引起的,也是由源域非共享类别中的不相关样本引起的

使用 A T ∣ C t ∣ l % 、 A S ∣ C t → ∣ C t ∣ 、 A S ∣ C s ∣ → T ∣ C t ∣ A^{l\%}_{\mathcal{T}|C_t|}、A_{S|C_t\rightarrow|C_t|}、A_{S|C_s|\rightarrow \mathcal{T}_{|C_t|}} ATCtl%ASCtCtASCsTCt分别表示使用了 l % l\% l%已标注样本的精度、不包括源域非共享类别的精度、包括源域非共享类别的精度。

作者定义:

A T ∣ C t ∣ l % − A S ∣ C t → ∣ C t ∣ A^{l\%}_{\mathcal{T}|C_t|}-A_{S|C_t\rightarrow|C_t|} ATCtl%ASCtCt:Closed Negative Gap(CNG):如果算法不能从另一个域的负面影响中获得比仅仅标记几个(例如,1%)目标数据更多的传输增益,就会产生负面影响,这在实际部署时是没有价值的。

A S ∣ C t → ∣ C t ∣ − A S ∣ C s → ∣ C t ∣ A_{S|C_t\rightarrow|C_t|}-A_{S|C_s\rightarrow|C_t|} ASCtCtASCsCt:Outlier Negative Gap, (ONG):测量由源域非共享类别引起的负面影响。

A T ∣ C t ∣ l % − A S ∣ C s → ∣ C t ∣ A^{l\%}_{\mathcal{T}|C_t|}-A_{S|C_s\rightarrow|C_t|} ATCtl%ASCsCt:Partial Negative Gap, (PNG):揭示了算法是否有价值在SNG与PNG的潜在风险下进行迁移。一旦Gap差距值为正,负效应就会超过正增益,反之亦然。较大的绝对值意味着更绝望的负面影响或更令人鼓舞的正面收益。