UNet

本文的比较对象为Ciresan et al. [1]，该文章通过输入以某个像素点为中心的一个patch以获得该像素点的label，但存在两点不足：1）由于需要逐patch地输入来进行预测，因此非常的慢；2）没有解决位置信息和上下文信息之间的trade-off问题，即大patch有上下文信息但是缺少位置信息(max-pooling所致)，小patch有位置信息但是缺少上下文信息；
本文的方法基于FCN。
采用了Overlap-tile strategy:

即由于边界区域的像素缺乏上下文信息，通过在原图像外围“tile”一圈的做法来补全上下文。举例来说，若要补全上图中黄色区域的上下文成蓝框区域，具体的做法就是将黄框和蓝框之间的右侧以及下侧的像素经过镜像拷贝的方式复制到左侧和上侧，以补全蓝框。
数据增强的策略：通过对原始图像进行弹性形变来增加数据，这可以让网络学习弹性形变不变性。
网络结构

（1）Encoder：左半部分，由两个3×3的卷积层（ReLU）+2×2的max pooling层反复组成，每经过一次下采样，通道数翻倍；
（2）Decoder：右半部分，由一个2×2的上采样卷积层（ReLU）+concat（crop对应的Encoder层的输出feature map然后与Decoder层的上采样结果相加）+2个3×3的卷积层（ReLU）反复构成；
（3）最后一层通过一个1×1卷积将通道数变成期望的类别数。

论文阅读：UNet

UNet

相关推荐