基于卷积神经网络的图像语义分割
基于卷积神经网络的图像语义分割
浙江大学硕士论文
图像分割:就是把感兴趣的内容从图像上分割出来,但是一般会对这个目标加上一定的语义信息,即语义标签,把加上语义的图像分割称为图像语义分割。
本文主要研究图像语义分割,并且以提升图像语义分割的准确性和他通用性为目标。
1.分析了卷积神经网络在图像语义分割的应用前景,实现基于卷积神经网络和反卷积神经网络相结合的图像语义分割模型。
2.对基于卷积神经网络和反卷积神经网络相结合的图像语义分割模型进行参数优化,通过在标准数据集上和其他算法进行对比实验,验证该模型语义分割的效果。
3.将上述图像语义分割算法应用到医学图像分析领域,参加Kaggle左心室动力预测比赛,提升评分结果。
4.将本文的图像语义分割算法应用到人体衣物分割,并不低于当前业界水平。
第二章:相关工作
2.1图像分割技术
阈值分割、边缘检测、区域提取、特定理论工具
2.2图像语义分割基础算法
2.3应用
人体衣物图像分割
医学图像分析研究
2.4图像分割流程
将第三步替换为卷积神经网络用来提取特征。
R-CNN:首先用选择查找的方式代替传统滑动窗口,提取出2000个候选区域;其次,对于每个区域,使用去掉最后一层Softmax层的AlexNet来提取特征,高达4096维的特征;然后对于每个类别都使用一个线性的SVM作为分类器,使用上一步提取出来的特征作为输出,得到每个区域属于某一类的得分;最后通过过滤舍弃部分的区域,通过増强算法得到识别物体的轮廓输出。
但是这个过程还是太复杂,可以直接利用深度卷积神经网络对图像在像素级别进行分类。
第三章:问题描述
3.1图像语义分割,即对图像中重要的具有语义的部分进行分割,分割需要保证分割类型的准确性和轮廓的平整性,一般展示效果通过改变识别类的色彩来表示图像分割结果的不同语义。
3.2实现难点
对输入图片直接在像素水平上进行预测,避免了区域搜索,区域合并的过程。本文实现的算法采用卷积层和反卷积层相结合深度学习网络结构,是在16层VGG-net结构的基础上做镜像后得到的深度网络结构,从而将图片通过卷积神经网络的正过程的特征刻画,再在反卷积过程中将特征映射到原来的图片大小上实现图像语义分割。
第四章:基于卷积神经网络的图像语义分割
整个过程相较于传统基于区域特征的图像语义分割更加简洁有效,不需要前期的包含目标图像的区域搜索,也不需要在后期对去别家进行合并等操作。卷积和池化提取特征,缩小特征映射,通过反卷积和upooling层来进行逆向操作,将特征重新映射到原来的图像大小上。
4.1卷积层和反卷积层
在VGG-16的基础上去掉最后一层的Softmax层,可以生成热度图表征图片主要物体的轮廓。
4.2防止过拟合和优化
数据增强
Dropout
pre-training参数:预训练1000张图片,再用其参数进行全集训练
BN:在每一层输入数据之前进行归一化操作,有利于模逃出局部最优解从而找到全局最优解
模型融合
第五章:基于CNN图像语义分割应用
1.医学图像:
https://www.kaggle.com/c/second-annual-data-science-bowl
kaggle比赛都是这样,提供训练集和标签,但是测试集不提供标签。
这里把图像分割作为数据处理的一部门了,拿到这个图像数据之后在进行卷积神经网络进行数据预测,加图像分割和不加图像分割之间相差如下图所示:
2.穿衣搭配
第六章:对比试验
四种对比算法,实验采用预测的语义类别和正确的语义类别像素点的重合度