TPAMI14 Fast Feature Pyramids for Object Detection
$的这篇TPAMI长文,主要是对上篇文章“The Fastest Pedstrain Detector in the West”中特征近似的insight做了详细的补充说明并且加了很多实验,其实从”Fast Feature Pyramids for Object Detection”的题目名字也可以看出来文章主题是啥。
之前一直以为这篇文章是详细讲ACF算子的,因为特征近似这个insight在上篇西方的报道中不都有了么。结果仔细看了几遍,只有一小节带过了一下ACF,关键感觉还没怎么讲清楚,看得一脸蒙蔽。后来才想明白,$巨苣本来也没说这篇论文是讲ACF的啊,手动微笑。
文章前一部分的特征近似理论和上篇文章都差不多,其实就是把实验补充全了,步骤写详细了,论点突出了些。
图一到图四上篇文章都有相关说明,其中图三讲比例μ和scale的关系并拟合lambda,图四讲s小的情况下估计偏差σ也很小,意思就是近似理论比较精确。
图五另外做了关于插值算法和通道滑动框大小对尺度近似的影响,图中表示的是相邻特征通道上的归一化梯度直方图比较。结论说明了插值算法对近似效果几乎没有影响;滑动框大小对特征比例μ无影响,但是小窗口会增大估计偏差σ。感觉可以这么理解:小窗口过于关注细化的局部特征,从而导致偏差增大。
图六上篇文章有相关说明;图七示意了图像金字塔的构造过程对比。
整篇文章到第六节才开始讲ACF,篇幅也比较短,具体细节还是要看代码。从上面这张图看ACF,∑步骤指的是Aggregate,是由4x4的block summed得出的,感觉像是一个pooling过程,但与ICF不同因为ACF是垮Channel的;:步骤指的是特征向量化,是由在聚合通道中的pixel lookups得到的,感觉也就是直接把通道中的特征值列向量化了。
Boosting那部分包括为什么要用两层的tree和adaboost的参数基本就是直接给出了,文中没有详细的实验。
这里再对比一下ACF和ICF,这个问题是看这篇文章最困扰我的问题。根据文中叙述:(个人理解应该会有偏差,具体对不对还是要看代码)
ACF:ACF的Feature是cross channel的,是由4x4的block summed,然后通过single pixel lookups向量化得到的,每个特征是4x4的block中的一个pixel;
ICF:ICF的Feature也是cross channel的,是通过channel区域上的不同大小的矩形框summed的,每个特征就是每个矩形框中的累加和,没有向量化步骤;
(ICF和ACF根据代码来看应该都是把10个通道并排后,再进行相应步骤的summed,所以应该都是cross channel)
ICF通过积分图可以很快的计算channel上矩形框的特征,这也是它为什么会比它之前的算子要快;
但是,1)由于积分图构造需要时间;2)在channel区域上通过积分图计算矩形框summed还是比single pixel lookups查表操作来的慢多了;基于以上ACF还是比ICF要快。
文章后面(图10,11,12)做了几个实验对比了一下ACF和其他行人检测算子,以及参数设定对ACF和ICF的影响。
另外说一下表1,表1中对比了其他一些算子以及ICF和ACF用与不用(分别对应*CF和*CF-Exact)近似理论在行人检测数据集上的Miss Rate,由此可见近似理论对算子性能的影响大概在1%-3%左右,但是速度上却是数量级上的提高。
表2对比了一下近似理论用在当年很火的DPM模型的上效果。
文章提及说近似理论不是在所有条件下都管用,尤其是纹理丰富和白噪声的条件下,但是一般的自然图像还是有效的。总结一下,作者提出的foundation insight(近似理论)可应用于任何图像处理前端,需要对细粒度尺度特征进行采样的操作任务中,即可以直接近似推导而不需要实际计算采样。