Lightweight OpenPose
Real-time 2D Multi-Person Pose Estimation on CPU: Lightweight OpenPose
1、优势
1) 迷你PCIntel®NUC上的28 fps(它消耗的功率很少,并具有45瓦CPU TDP)
2)在常规CPU上为26 fps,而无需图形处理器
3)AP精度下降不超过1%(大小仅4.1M ,是two-stages openpose的15%)
2、常规openpose总结:
1、关键点热图及其成对关系(部分相似性字段,pafs)。 该输出被下采样8次。
2、按人员实例对关键点进行分组。 它包括对原始图像的升采样张量大小,热图峰值处的关键点提取及其按实例分组。
网络首先提取特征,然后对热图和pafs进行初始估计,之后进行5个优化阶段。 它能够找到18种类型的关键点。 然后从预定义的关键点对列表中搜索每个关键点的最佳对(按亲和力),例如左肘和左手腕右臀部和右膝盖,左眼和左耳等,总共19对。
在推理期间,调整输入图像的大小以匹配网络输入。按高度大小调整宽度,以保留图像的宽高比,然后填充为8的倍数
3、openpose的网络结果和计算量
可以看出,后期阶段对每个GFLOP的改进较少,因此对于优化版本,我们将仅保留前两个阶段:初始阶段和单个优化阶段。
4、优化方法
1、通道数不变,但使用膨胀卷积节省空间分辨率。
2、共享大部分计算
原因:To produce new estimation of keypoint heatmaps and pafs the refinement stage takes features from backbone, concatenated with previous estimation of keypoint heatmaps and pafs.
3、将每个具有7x7内核大小的卷积替换为具有相同接收场的卷积块,以捕获远程空间依赖性[15]。 我们使用此区块设计进行了一系列实验,观察到足以进行三个连续的卷积,分别具有1x1、3x3和3x3内核大小,后者的膨胀参数等于2,以保留初始接收场。 由于网络越来越深,我们为每个这样的块添加了剩余连接[5]。
4、后处理加速
我们决定跳过调整大小的步骤,直接对网络输出进行分组,但是准确性显着下降。
因此,利用upsample factor 8 去调整图片大小
6、结果