【总结】Recognizing Human Actions as the Evolution of Pose Estimation Maps

  对整个视频提取特征进行动作识别有两个阻碍:背景杂乱和非动作的运动。因此,可以先对视频进行姿势估计,再根据姿势结果的估计进行动作识别。

  姿势估计得到heatmaps,可以分为probabilistic maps和estimated 2D human poses两部分来用,前者表示了body shape,后者表示了body pose。结合shape和pose来进行动作识别。

  由于heatmap的稀疏性,论文利用spatial rank pooling(c)聚合heatmap,得到body shape evolution image。Body shape不区分身体的部分,因此又设计了body guided sampling(d)聚合body shape evolution image,得到body pose evolution image。Shape和pose互相补充,以提高识别准确率。
【总结】Recognizing Human Actions as the Evolution of Pose Estimation Maps