PSPNET

（自用）侵删
PSP NET ： 提出金字塔池化模块------聚合不同区域的上下文信息，从而提取获得全局信息的能力。
PSPNET
提出问题：
大多数场景解析里，都采用FCN进行图像分割，但存在一些问题：

例如水上的是boat，不是car-----FCN缺乏依据上下文推断的能力
类别混淆：例如：田野和土地；山脉和丘陵；墙、房子、建筑物和摩天大楼，它们的外观十分相似。在图2的第二行中，对于框中的物体，FCN预测其部分是摩天大楼，部分是建筑物。这些结果是不正确的，框中的整个物体只能要么是摩天大楼，要么是建筑物，但不能两者兼有，而利用类别之间的关系即可解决上述问题。
模型可能会忽略小的东西，而大的东西可能会超过FCN接收范围，从而导致不连续的预测。如上图第三行，枕头与被子材质一致，被识别成到一起了。为了提高不显眼东西的分割效果，应该注重小面积物体。------FCN缺乏对小物体的识别。
FCN不能有效的处理场景之间的关系和全局信息。本论文提出了能够获取全局场景的深度网络PSPNet，能够融合合适的全局特征，将局部和全局信息融合到一起。

贡献：
1、提出了PPM模块。
2、增加了辅助损失。
PP Module：
PSPNET
该模块融合了4种不同金字塔尺度的特征，第一行红色是最粗糙的特征–全局池化生成单个bin输出，后面三行是不同尺度的池化特征。为了保证全局特征的权重，如果金字塔共有N个级别，则在每个级别后使用1×1的卷积将对于级别通道降为原本的1/N。再通过双线性插值获得未池化前的大小，最终concat到一起。
论文中使用的4个等级，核大小分别为1×1，2×2，3×3，6×6。

网络结构：
PSPNET
 基础层经过预训练的模型(ResNet101)和空洞卷积策略提取feature map，提取后的feature map是输入的1/8大小。
（主体网络由ResNet101构成，使用了残差网络、空洞卷积和降维卷积的方法（先使用11降低维度，然后使用33卷积，再用1*1恢复维度）。网络中一共出现三次特征图缩小，一次使用maxpool，两次使用conv，每次减少二分之一大小，最终得到的特征图是原尺寸的1/8，最后使用双线性插值恢复原尺寸）
 feature map经过Pyramid Pooling Module得到融合的带有整体信息的feature，在上采样与池化前的feature map相concat。
 最后过一个卷积层得到最终输出。

辅助损失：
这种辅助性的损失有助于优化学习过程，而主分支机构的损失则承担着最大的责任。我们增加重量以平衡辅机损耗。
在测试阶段，我们放弃该辅助分支，而仅使用经过优化的主分支进行最终预测。

相关推荐