深度学习第35讲:图像语义分割经典论文研读之 u-net

      在上一讲中,笔者和大家一起研读了图像语义分割的基本网络框架 FCN,在 FCN 之后,图像语义分割网络基本都在使用这种 downsampling 和 upsampling 的结构,也就是我们之前所说的编码-解码的框架。本节笔者将在 FCN 的基础之上,继续给大家介绍目前图像分割领域的通用网络框架——u-net。尤其是在医学图像分割领域,u-net 因其较高的分割准确度而备受青睐。下面我们就来研读 u-net 的这篇论文。

u-net 论文

      一般而言进行深度卷积网络的训练都需要足够数量的图像数据,换句话说就是小样本的训练数据不大适合使用深度学习方法。当然,鉴于在大量高质量的打标数据并不是谁都可以有机会拿到的情况下,使用经典网络的预训练权重进行迁移学习是一个非常好的替代方案。但在提出 u-net 的这篇论文里,作者在基于 FCN 的基础上提出了新的网络结构并使用图像增强技术来弥补训练样本不足的问题。 

      论文摘要如下:

深度学习第35讲:图像语义分割经典论文研读之 u-net

u-net 网络架构

      既然是基于 FCN 的基础框架,u-net 必然也少不了编码解码/下采样上采样的网络框架,所以 u-net 本质上也是一种全卷积网络。在论文中,作者将编码/下采样过程称之为收缩路径(contracting path),将解码/上采样称之为扩张路径(expanding path)。收缩路径类似于经典的卷积网络,能够有效捕捉上下文信息,而扩张路径即上采样,旨在恢复像素尺寸,扩张路径能够更为精准的进行分割位置定位。

      u-net 的整体架构如下图所示:

深度学习第35讲:图像语义分割经典论文研读之 u-net

      如上图所示,网络左半边为收缩路径,即编码模块,从输入图像开始,每一层使用了两个 3x3 的卷积核进行卷积操作,每次卷积都进行 ReLU **和步长为 2 的最大池化进行下采样。经过 4 次下采样之后特征图尺寸下降到 30x30 的大小。

      然后进入到网络右半边的扩张路径。使用 2x2 大小的反卷积核进行上采样,在此过程中特征图的通道数减半。与此同时,将左半边卷积下采样生成的对称位置的特征图裁剪复制到右半边来,即将上采样形成的特征图和下采样的特征图进行 merge,合并之后为保持尺寸不被扩大的太厉害,再进行 3x3 的卷积操作。如此经过四次上采样、特征图合并和 3x3 卷积逐渐使得图像达到语义分割标准的同时图像也恢复到输入尺寸大小。

      左半边的收缩路径和右半边的扩张路径组合起来就像一个 U 形形状,u-net 的名称也因此而来。

深度学习第35讲:图像语义分割经典论文研读之 u-net

论文中关于u-net结构的描述

u-net 的训练

      u-net 的网络输出是像素级的 softmax 分类,像素级的 softmax 计算公式如下:

深度学习第35讲:图像语义分割经典论文研读之 u-net

      其中 x 为像素位置,K 为类别数,αk(x) 为输出像素中 x 所对应的第 k 个通道的值。

      损失函数使用负交叉熵损失,交叉熵损失如下:

深度学习第35讲:图像语义分割经典论文研读之 u-net

      u-net 在训练时还有个关键点就是分割任务中部分像素点更为重要,为了使得这部分重要的像素点得以体现出来,我们需要对不同的像素点赋予有区别的权重。论文中使用了形态学进行分割边界进行计算,权重计算公式如下:

深度学习第35讲:图像语义分割经典论文研读之 u-net

深度学习第35讲:图像语义分割经典论文研读之 u-net

      u-net 在海拉细胞分割任务中的表现:

深度学习第35讲:图像语义分割经典论文研读之 u-net

      以及在 ISBI 细胞分割 2015 上的成绩:

深度学习第35讲:图像语义分割经典论文研读之 u-net

      此外在训练数据量少的情况下,论文中对数据增强技术进行了重点关注,好的数据增强能够使得网络分割效果提升数倍之多。关于数据增强这里就不再细述了。

u-net 为什么适用于医学图像分割

      u-net 在医学图像分割任务上要明显优于其他网络,近年来的医学图像分割竞赛也都体现了这一点,各种冠军方案中都用到了 u-net 的网络结构:

深度学习第35讲:图像语义分割经典论文研读之 u-net

      究其原因,笔者认为主要有如下两点:

      一是医学图像分身的特点,大多数以灰度图为主,切图像中特征复杂度较高,边界也存在着较大的不清晰。另一点则是 u-net 的网络结构所决定,除了继承 FCN 的编码解码结构,更重要的是下采样与上采样之间的同层分辨率级联,即两边的特征图的合并,这个操作改善了上采样信息不全的情况,使得 u-net 的效果大大增强。

u-net 论文:

U-Net: Convolutional Networks for Biomedical Image Segmentation

u -net Tensorflow 开源实现参考

https://github.com/jakeret/tf_unet

参考资料:

Ronneberger O, Fischer P, Brox T. U-Net: Convolutional Networks for Biomedical Image Segmentation[C]// International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, Cham, 2015:234-241.

往期精彩:


一个数据科学从业者的学习历程

深度学习第35讲:图像语义分割经典论文研读之 u-net

深度学习第35讲:图像语义分割经典论文研读之 u-net

长按二维码.关注数据科学家养成记

深度学习第35讲:图像语义分割经典论文研读之 u-net