【论文阅读】基于光流的快速人体姿态估计
文献: 周文俊,郑新波,卿粼波,熊文诗,吴晓红.基于光流的快速人体姿态估计.计算机系统应用,2018,27(12):109–115. http://www.c-s-a.org.cn/1003-3254/6665.html
目录
一、研究目的及意义
针对视频对象,提出一种基于光流的快速人体姿态估计算法,利用视频帧之间的时间相关性(相邻帧之间的人体姿态表现出的运动连续性),实现人体姿态估计的加速,解决现有人体姿态估计算法计算复杂度高的问题,提升检测速度,且在一定程度上提升了对视频序列的检测性能(尤其是背景复杂、部件遮挡等问题)
二、研究方法
1、方法概述
在一个视频帧组内,首先根据人体姿态估计算法对关键帧进行人体姿态检测,而对于其他的非关键帧,计算它与前向关键帧之间的光流场信息 (时间相关性),然后根据光流场将关键帧的检测结果传播到非关键帧上,避免了在每一帧上运行人体姿态估计算法。
2、视频帧姿态相关性分析
视频帧间相关性及人体姿态相关性效果图:
Frame——原始视频帧;
Pose——原始视频帧对应的真实姿态信息;
Flow——第 i 帧(i = 2,...,5)图像与第一帧图像之间的真实光流场,光流是在图像灰度模式下,图像间的亚像素级运动矢量,广泛用于估计连续帧之间的像素点运动;
Dsp——第 i 帧(i = 2,...,5)图像中人体关键点与第一帧图像人体关键点之间的运动矢量场,也就是视频帧之间对应相似块的运动信息。
需要注意,随着时间的推移, 当前帧 Framei(i = 2, …, 5))与 Frame1 的人体姿态信息变化越来越大, 相关性也越来越低.
3、基于光流的快速人体姿态估计框架
方法
首先将视频帧分割成多个视频帧组确定关键帧(每个视频帧组的第一帧为该视频帧组的关键帧,其余视频帧为非关键帧);
然后采用PAFs算法确定关键帧人体姿态信息;
最后利用轻量级光流算法Flownet2-c计算关键帧与非关键帧之间的光流信息,将关键帧的检测结果与光流场融合后,传播到非关键帧。
相关定义
——第 i 帧图像与对应关键帧
之间的光流信息;
——将关键帧的真实人体姿态信息
通过第 i 帧图像与关键帧之间的光流场融合后的人体姿态信息.
存在问题
(1)关键帧的选取:视频帧间相关性随着时间推移而降低,因此应思考如何选取关键帧;
(2)融合效果直接影响非关键帧的估计精度,且融合中光流计算算法对噪声过于敏感,应优化.
4、算法改进
(1)自适应关键帧检测算法
通过已有的光流场,判断两视频帧之间是否出现剧烈位移运动,从而划分关键帧与非关键帧。
算法步骤
1)第 i 帧与前向关键帧 之间的光流信息
,计算局部光流信息模的累加和 Local_sum(f) 和局部光流信息的最大值 Local_max(x,y), mask为图像中每个人的矩形掩模框并集 (如图所示, 恰好覆盖所有人的关节点),s为关键帧所有关节点处像素点的集合.
2)确定判断阈值
将mask_sum*m(m 为掩模系数,mask_sum是关键帧中每个人的矩形掩模框并集的总面积) 作为 Local_sum(f) 的阈值。当模小于
等于10 个像素时,光流场可以有效的预测关节点的位移,所以 Local_max的阈值为10.
3)比较确定第 i 帧是否为关键帧
式 (6) 成立时第 i 帧为非关键帧,否则结束该视频帧组,第 i 帧为下一视频帧组的关键帧.
(2)关键点局部融合优化
运动物体周围的光流信息分布十分不均匀. 因此若在融合关键帧姿态信息和光流信息时, 只使用关键帧关节处的光流信息作为非关键帧关节点的运动信息, 则会因光流信息计算不准确导致关节点信息预测失败,如图所示:
采用关节点处 5x5 邻域的光流信息代替关节点的运动信息, 以提高融合预测的准确率。
:关键帧关节点处5×5邻域的光流信息的均值;
:非关键帧关节点坐标,
是关键帧关节点坐标.
三、实验
1、实验设置
框架:caffe
硬件:Intel i5,8G内存,单张GTX 1070的机器上测试
数据集:OutdoorPose 数据集和HumanEvaI 数据集
评价指标:帧率评估算法检测速度,PCP评价标准评估算法对人体各部件估计准确度
2、实验结果
(1)定性比较
与PAFs比较,可以看到在复杂环境下本文算法较原算法PAFs在一定程度上可增加人体姿态检测的检测性能.
(2)定量比较
OutdoorPose 数据集上,本文算法较PAFs算法在检测准确度上提升1.3%,检测帧率提升87.5%;
HumanEvaI 数据集上,本文算法较PAFs算法在检测准确度下降1%的情况下,检测帧率提升 91.8%.
四、总结
本文以视频为对象,利用视频帧之间的时间相关性,提出基于光流的快速人体姿态估计算法,将视频分为视频帧组,然后每一个视频帧组中,分为关键帧和非关键帧,首先对关键帧进行人体姿态估计,然后将关键帧与非关键帧计算得到两者间的光流信息,最后将关键帧人体姿态估计结果和光流信息融合,得到非关键帧的人体姿态估计结果,这样有利于减轻计算复杂度,且一定程度改善复杂背景、遮挡等问题,同时从关键帧检测和融合算法两方面对算法进行了优化。