目标分割网络-segnet
1. 网络结构
- VGG16去掉全连接层
- 结构分为编码网络和解码网络
- 编码网络(encoder network):由13个卷积层组成(使用的时预训练的VGG16的前13层),该部分提取输入特征,用于目标分类,这就是使用预训练的VGG原理所在,至于丢弃FC层是为了保持更高的分辨率,同时也减少了参数。
总共5个Block,每个Block都由Conv + Batch Norm + ReLU组成 - 解码网络(decoder network):每个encoder会对应一个decoder,故decoder具有13层,将低分辨率的feature map映射回和输入一样大小分类器(mask)。Decoder交替采用conv+upsampling
每个block由Upsampling + Conv + BN组成 - 像素分类层(pixelwise classification layer):decoder的输出会送到分类层,最终为每个像素独立的产生类别概率
- 编码网络(encoder network):由13个卷积层组成(使用的时预训练的VGG16的前13层),该部分提取输入特征,用于目标分类,这就是使用预训练的VGG原理所在,至于丢弃FC层是为了保持更高的分辨率,同时也减少了参数。
2. 总结
SegNet一种用于语义分割的深度卷积网络架构。SegNet背后的主要动机是需要设计一种有效的道路和室内场景理解架构,这在存储和计算时间方面都是有效的。
SegNet更有效率,因为仅存储特征映射的最大池索引,并将其用于解码器网络以实现良好的性能。在大型和众所周知的数据集中,SegNet具有竞争力,实现道路现场理解的高分。