针对多任务学习的“十字绣网络”

多任务学习是机器学习的重要组成部分,但是对于应用深度学习进行多任务学习时会遇到一个棘手的问题,那就是我们该如何确定网络的共享部分。针对不同的任务,其最佳共享层往往不同。

此外,针对不同的多任务学习,我们需要根据任务需求设计不同的共享层,并没有统一的标准。因此,本文针对这一问题设计了“十字绣”单元,通过端对端的学习来自动决定共享层。

论文: Cross-stitch Networks for Multi-task Learning
作者: Ishan Misra / Abhinav Shrivastava / Abhinav Gupta / Martial Hebert
转载自:PaperWeekly

引出主题

多任务学习是机器学习的重要组成部分,但是在应用深度学习进行多任务学习时会遇到一个棘手的问题,那就是我们该如何确定网络的共享部分。针对不同的任务,其最佳共享层往往不同。

本文使用 AlexNet 网络分别进行图像检测、图像属性生成及图像语义分割、图像平面法向量生成(Surface Normal)等多任务学习。针对两个任务,作者分别从 fc8 层进行共享,一直测试到两者完全不进行共享的为止。
针对多任务学习的“十字绣网络”

▲ 图1

实验结果如图 1 所示,其中,图 1(b)是不同共享层完全独立时的效果对比,可以看出对于任务一来说,共享部分在 conv4 时所能达到的效果,针对于任务二来说,在 fc7 层的效果最好。

此外,针对不同的多任务学习,我们需要根据任务需求设计不同的共享层,并没有统一的标准。因此,本文针对这一问题设计了“十字绣”单元,通过端对端的学习来自动决定共享层。

“十字绣”单元与网络设计

Cross-stitch Unit

本文的核心就在这里,设计“十字绣”单元的思想如图 2 所示,通过在两个网络的特征层之间增加“十字绣”单元可以使网络自动学习到需要共享的特征。

针对多任务学习的“十字绣网络”

▲ 图2

其中的“十字绣”单元就是一个系数矩阵。其表达式如式(1)所示。

[x~Aijx~Bij]=[αAAαBAαABαBB][xAijxBij](1)

针对这个“十字绣”单元如何进行端对端学习呢?作者给了具体的计算公式:
[LxAijLxBij]=[αAAαBAαABαBB][Lx~AijLx~Bij](2)

LαAB=Lx~BijxAij,LαAA=Lx~AijxAij(3)

在下文中,为了方便,将 αAB 及 αBA 统称为 αD 表示不同任务的权重值,αAA 及 αBB 统称为 αS 表示相同任务的权重值。

“十字绣”网络设计

图 3 是作者通过对网络添加“十字绣”单元设计的网络。

针对多任务学习的“十字绣网络”

▲ 图3

网络设计好之后,作者又针对网络提出了以下几个问题:
1. 如何对“十字绣”单元进行初始化,及如何设置“十字绣”单元的学习速率?

作者认为初始值设置应该在 [0,1] 之间,此外,作者还针对初始值及学习速率的设计进行了实验,以决定如何对两者进行设计能够达到最优效果。

2. 如何对网络 A 和 B 进行初始化?

如何对 A、B 进行初始化呢?作者提出了两种方案,第一种就是网络全用由 ImageNet 训练出的参数进行初始化,然后对整个“十字绣”网络进行训练。第二种是针对一种任务在网络上进行微调,然后再添加“十字绣”单元,并对网络进行训练。

参数选取

针对 2.2 中提到的两个问题,作者分别尝试了不同的策略来对参数进行选择。实验结果如表 1 所示:

针对多任务学习的“十字绣网络”
▲ 表1

在对“十字绣”单元进行训练时作者发现,用来更新网络参数的学习速率相对于“十字绣”单元而言太小了,以至于无法得到好的效果,实验结果如表 2 所示:

针对多任务学习的“十字绣网络”
▲ 表2

关于如何对网络 A、B 进行初始化,作者同样进行了实验,实验结果如表 3 所示:

针对多任务学习的“十字绣网络”
▲ 表3

表 4 展示了在 αDαS 取不同的初始值时,最终网络各层各个通道的 αDαS 的值的分布情况。其中 αD 越大说明共享程度越大, αS 越大,说明特征的特殊性越强。

针对多任务学习的“十字绣网络”
▲ 表4

实验及结果分析

为验证本文算法的有效性,作者分别在 NYU-v2 数据集进行了图像语义分割及图片平面法向量生成实验,在 PASCAL VOC 2008 数据集上进行了物体检测和属性预测实验。

作者分别针对单任务网络、结合两个单任务的网络(文中称为“ensemble”)、多任务网络(如图 1 中那样尝试在各个特征层共享特征)进行了实验。平面法向量生成及图像语义分割的实验结果如表 5 所示:

针对多任务学习的“十字绣网络”
▲ 表5

从表 5 可以看出,使用“十字绣”单元的网络均能在两个任务上得到较好的结果。此外,作者分析在图像语义分割任务中,存在严重的数据匮乏问,如图 5 中黑线所示,wall、floor 的数据数量远超出其余的类别数,其中,蓝色柱状表示采用“十字绣”单元的多任务学习相对于单任务学习在效果上的增益,从图中可以看出,数量越少的类别所获得增益越多。

针对多任务学习的“十字绣网络”
▲ 图5

图像检测及属性预测的实验结果及增益情况分别如表 6 及图 6 所示:

针对多任务学习的“十字绣网络”
▲ 表6
针对多任务学习的“十字绣网络”
▲ 图6

总结与分析

虽然本文作者提到他们的方法相对于传统方法不需要去依次尝试如何选取所要共享的特征层,但是增加的“十字绣”单元同样带来了很多麻烦的东西,例如,如何进行初始化,如何设置学习速率。最终的实验结果表明,使用该方法对多任务学习的性能有一定的提升。