PSPNET
(自用)侵删
PSP NET : 提出金字塔池化模块------聚合不同区域的上下文信息,从而提取获得全局信息的能力。
提出问题:
大多数场景解析里,都采用FCN进行图像分割,但存在一些问题:
- 例如水上的是boat,不是car-----FCN缺乏依据上下文推断的能力
- 类别混淆:例如:田野和土地;山脉和丘陵;墙、房子、建筑物和摩天大楼,它们的外观十分相似。在图2的第二行中,对于框中的物体,FCN预测其部分是摩天大楼,部分是建筑物。这些结果是不正确的,框中的整个物体只能要么是摩天大楼,要么是建筑物,但不能两者兼有,而利用类别之间的关系即可解决上述问题。
- 模型可能会忽略小的东西,而大的东西可能会超过FCN接收范围,从而导致不连续的预测。如上图第三行,枕头与被子材质一致,被识别成到一起了。为了提高不显眼东西的分割效果,应该注重小面积物体。------FCN缺乏对小物体的识别。
FCN不能有效的处理场景之间的关系和全局信息。本论文提出了能够获取全局场景的深度网络PSPNet,能够融合合适的全局特征,将局部和全局信息融合到一起。
贡献:
1、提出了PPM模块。
2、增加了辅助损失。
PP Module:
该模块融合了4种不同金字塔尺度的特征,第一行红色是最粗糙的特征–全局池化生成单个bin输出,后面三行是不同尺度的池化特征。为了保证全局特征的权重,如果金字塔共有N个级别,则在每个级别后使用1×1的卷积将对于级别通道降为原本的1/N。再通过双线性插值获得未池化前的大小,最终concat到一起。
论文中使用的4个等级,核大小分别为1×1,2×2,3×3,6×6。
网络结构:
基础层经过预训练的模型(ResNet101)和空洞卷积策略提取feature map,提取后的feature map是输入的1/8大小。
(主体网络由ResNet101构成,使用了残差网络、空洞卷积和降维卷积的方法(先使用11降低维度,然后使用33卷积,再用1*1恢复维度)。网络中一共出现三次特征图缩小,一次使用maxpool,两次使用conv,每次减少二分之一大小,最终得到的特征图是原尺寸的1/8,最后使用双线性插值恢复原尺寸)
feature map经过Pyramid Pooling Module得到融合的带有整体信息的feature,在上采样与池化前的feature map相concat。
最后过一个卷积层得到最终输出。
辅助损失:
这种辅助性的损失有助于优化学习过程,而主分支机构的损失则承担着最大的责任。我们增加重量以平衡辅机损耗。
在测试阶段,我们放弃该辅助分支,而仅使用经过优化的主分支进行最终预测。