U-net 阅读笔记
论文地址 https://arxiv.org/pdf/1505.04597.pdf
本文主要讨论了一个用于生物科学图像分区的一个卷积网络--U-Net
摘要:本文提到的模型包含一个收缩路径用于捕捉上下文环境信息、以及一个对称的扩张路径用于标签准确定位;一个端到端的模型优于以前的任何模型包括滑动窗口卷积网络(直译的, 原文里的名称a sliding-window convolutional network),性能方面可以对一个512*512的图片在一秒内进行图像分区。
介绍
1、传统的卷积网络的输出为一个图片一个端都的分类标签
2、然而生物图像处理中一般需要定位信息(should include localization),比如像素级别的标签,以前的滑动窗口卷积网络能够胜任此项任务将像素周围的区域作为补丁(patch)作为网络的输入,但有两个明显的缺陷:1.训练时间长,由于输入为补丁(patch),存在大量重叠的冗余补丁(patch);2.定位准度与环境信息需要一定权衡,大的补丁需要更多的池化导致定位准确性较低、小的补丁令上下文信息明显不足。
3、本文基于一个更优雅的算法,称为“全卷积网络“(fully convolutional network),对于输入的训练图像样本集需求更少,能给出更为精确的输出。
全卷积网络主要思路是使用连续的隐藏层构建普通的收缩网络,池化操作被unsampling 操作代替(这操作尚不了解),因此这些层提升了输出的辨别能力;为了获取定位信息,由收缩网络结合unsample的输出,获取高辨别能力的特征。
本文的重要调整就是在unsample部分同样包含大量的特征,用于网络传播环境信息到更高的辨别层种,最终扩展层近似收缩层的对称形成了个u型,本算法中不含任何全连接层,仅使用各种卷积层,这样所有的环境信息可以用于输入的图片。这个策略允许使用overlap-tile策略,无缝切分任意大小的图片---在预测图片边缘区域的像素时,可以使用输入信息的镜像数据来屯段缺失的上下文信息
网络结构:
包括两个部分
1.收缩部分
收缩部分主要由典型的卷积网络组成,包括的unpadded的双层3*3卷积层,紧跟一个**函数relu,以及2*2的最大池化层(步长为2)用于降采样;每次降采样后增加特征图数量为原来2倍;
2.扩展部分
每一步扩展部分包括使用一个2*2的“up-convolution”进行升采样,并会将特征图数量减半