Multi论文笔记

对分类任务而言,更深的网络往往比浅层网络效果更好,但是在COCO keypoints 2016、2017比赛中,冠军算法是single-stage的

针对multi-stage算法效果不好的问题,作者提出了3点可优化的方向,汇总如下,

1、采用的single-stage module不够优秀,比如Hourglass module中所有层的channels个数完全相同;
2、越多的single-stage module做级联,信息丢失的越严重,导致模型难以被优化训练;
3、所有的stages按照先后顺序,预测出的关节点位置越来越精细,如何对intermediate supervision策略做调整。

继续沿用top-down的思路。基于CPN做了一些修改,比如把backbone不停的扩大,发现效果提升很不明显。原来CPN的两个stage可能并没有把context信息利用好,单个stage的模型能力可能已经比较饱和了,增加更多stage来做refinement可能是一个解决当前问题,提升人体姿态估计算法uppper-bound的途径。所以在CPN的globalNet基础上面,做了多个stage的堆叠,类似于Hourglass的结构。

Multi论文笔记
相比Hourglass结构,MSPN做了如下三个方面的改进。
首先是Hourglass的每个stage的网络,使用固定的256 channel,即使中间有下采样,这种结构对信息的提取并不是很有益。所以使用了类似ResNet-50这种标准的ImageNet backbone做为每个stage的网络。
另外,在两个相邻stage上面,也加入了一个连接用于更好的信息传递。
最后,对于每个stage的中间层监督信号做了不同的处理,前面层的监督信号更侧重分类,找到coarse的位置,后面更侧重精确的定位。从最后效果上面来看,在COCO test-dev上面跑到了76.1