HR Net阅读笔记

摘要

大多数现有方法从由高到低分辨率网络产生的低分辨率表示中恢复高分辨率表示。相反，本文在整个过程中保持高分辨率的表示。本文将高分辨率子网开始作为第一阶段，逐步添加高到低分辨率子网以形成更多阶段，并行连接具有不同分辨率的子网。本文还进行了重复的多尺度融合，使得高到低分辨率表示可以重复从其他分辨率的表示获取信息，从而导致丰富的高分辨率表示。因此，预测的关键点热图可能更准确，空间更精确。

1、简介

多数现有方法：通过由高分辨率到低分辨率的子网串联而成的网络处理输入。
- Hourglass：通过对称的低到高分辨率过程(symmetric low-to-high process)恢复高分辨率
- SimpleBaseline：采用转置卷积层¹ 生成高分辨率的表示
- VGGNet/ResNet后几层：空洞卷积(dilated convolution)²增大感受野(receptive field)并捕获多尺度信息

HR Net：整个过程中保持高分辨率表示。以高分辨率子网开始作为第一阶段，逐个添加高到低分辨率子网以形成更多阶段，并且并行连接多分辨率子网。在整个过程中反复交换并行多分辨率子网络中的信息来进行重复的多尺度融合。
- 优点：
  （1）并行连接高低分辨率子网，能够保持高分辨率而不是通过从低到高的过程恢复分辨率，因此预测的热图可能在空间上更精确。
  （2）借助相同depth和level的低分辨率表征进行重复的多尺度融合以提高分辨率的表示。因此，预测的热图可能更准确。

个人感受：保持高分辨率而非通过low-to-high的处理做覆盖在一定程度上能使结果更精确，而同时不同分辨率图像采样到相同尺度的反复融合，在一定程度上增加了并行子网间的交互并保持了信息量，加之网络的学习能力，能使最终结果趋于正确的表示。

HR Net阅读笔记

2、相关工作

2.1 High-to-low and low-to high

high-to-low生成low-resolution、high-level的表征，而low-to-high产生high-resolution的表征。多次重复这两个步骤可以提升性能。

symmetric low-to-high process：对称结构。eg. Hourglass
Heavy high-to-low and light low-to-high：high-to-low基于ImageNet分类网络，low-to-high简单采用双线性上采样(bilinear-upsampling)或转置卷积层(transpose convolution)。 eg. cascaded pyramid，simple baseline

此处的heavy和light理解：

heavy指下采样时经过很多卷积，结构较复杂

light指上采样时只经过较少的层，形式偏简单

combination with dilated convolutions：消除空间分辨率损失

2.2 Multi-scale fusion

最直接的方法是将多分辨率图像分别送入多个网络，并aggregate聚合输出响应映射图。

Hourglass：使用跳层连接将high-to-low处理中的low-level特性合并到low-to-high处理中相同分辨率的high-level特征，恢复下采样丢失的信息。
Cascaded pyramid：globalnet将high-to-low处理中的low-to-high level特征逐步合并到low-to-high处理过程中，然后refinenet将经过卷积处理的低到高特征组合到一起。

2.3 Intermediate supervision

中间监督或深度监督。早期用于图像分类，现也被用于帮助深度网络训练和提升热图估计质量。
HR Net阅读笔记

优缺点思考：

Hourglass: 通过跳层连接恢复下采样丢失的信息，但层级之间没有交互信息，仅为简单的数据融合。

Cascaded pyramid：不同level间的特征进行了融合，能较好地避免信息损失。但融合操作无重复，且只有低分辨率的融合至高分辨中，反之则无。

SimpleBaseline:采用转置卷积上采样，但无数据融合。

Combination with Dilated convolution：减少了下采样的次数，采用了空洞卷积，可以不改变feature map的大小而增大感受野。但在实际中不好优化，速度会大大折扣。

3、Approach

3.1 并行的多分辨率子网络

以高分辨率子网开始作为第一阶段，逐个添加高到低分辨率子网以形成更多阶段，并且并行连接多分辨率子网。
$N_{sr}$ 表示第s阶段的分辨率索引为r的子网络
HR Net阅读笔记

3.2 重复的多尺度融合

在并行子网之间引入交换单元(exchange unit)，使得每个子网重复地接收来自其他并行子网的信息。
$C_{sr}^b$ 表示在第s个stage中第b个block的分辨率索引为r的卷积单位， $\xi_s^b$ 为相应的exchange unit
HR Net阅读笔记
exchange unit的图示说明如下：

上采样：最近邻插值(simple nearest neighbor sampling) + $1\times1$ 卷积操作升维
下采样：strided $3\times3$ 卷积操作
ps: $3\times3$ 卷积 $s=2,p=1$ 得到 $2\times$ 下采样，若要获得 $2^n\times$ 下采样，则执行n次该卷积操作

3.3 网络实例化

HRNet包含四个阶段，四个并行的子网，其分辨率逐渐降低到一半，相应的宽度(通道的数量)增加到原来的两倍。第一阶段(first layer)包含4个残差单位(Bottleneck),，紧接着一个3×3卷积将特征图的宽度减少到c，第二,第三,第四阶段分别包含1、4、3个exchange unit。一个stage包含4个残差单元(BasicBlock)（其中每个单元在每个分辨率中包含两个3×3的卷积）、一个跨分辨率的exchange unit。综上所述，共有8个exchange unit，即，进行了8次多尺度融合。

转置卷积操作构建了和普通的卷积操作一样的连接关系，只不过这个是从反向方向开始连接的。我们可以用它进行上采样。另外，这个转置卷积矩阵的参数是可以学习的，因此不需要一些人为预先定义的方法。需要注意的是该参数不一定从原始的卷积矩阵中简单转置得到的，转置这个操作只是提供了转置卷积矩阵的形状而已。 ↩︎
Dilated Convolution的最大价值是可以不改变feature map的大小而增大感受野。但在实际中不好优化，速度会大大折扣。 ↩︎

HR Net阅读笔记

HR Net阅读笔记

摘要

1、简介

2、相关工作

2.1 High-to-low and low-to high

2.2 Multi-scale fusion

2.3 Intermediate supervision

3、Approach

3.1 并行的多分辨率子网络

3.2 重复的多尺度融合

3.3 网络实例化

相关推荐