TPAMI14 Fast Feature Pyramids for Object Detection

$的这篇TPAMI长文，主要是对上篇文章“The Fastest Pedstrain Detector in the West”中特征近似的insight做了详细的补充说明并且加了很多实验，其实从”Fast Feature Pyramids for Object Detection”的题目名字也可以看出来文章主题是啥。
之前一直以为这篇文章是详细讲ACF算子的，因为特征近似这个insight在上篇西方的报道中不都有了么。结果仔细看了几遍，只有一小节带过了一下ACF，关键感觉还没怎么讲清楚，看得一脸蒙蔽。后来才想明白，$巨苣本来也没说这篇论文是讲ACF的啊，手动微笑。

文章前一部分的特征近似理论和上篇文章都差不多，其实就是把实验补充全了，步骤写详细了，论点突出了些。
图一到图四上篇文章都有相关说明，其中图三讲比例μ和scale的关系并拟合lambda，图四讲s小的情况下估计偏差σ也很小，意思就是近似理论比较精确。
TPAMI14 Fast Feature Pyramids for Object Detection

图五另外做了关于插值算法和通道滑动框大小对尺度近似的影响，图中表示的是相邻特征通道上的归一化梯度直方图比较。结论说明了插值算法对近似效果几乎没有影响；滑动框大小对特征比例μ无影响，但是小窗口会增大估计偏差σ。感觉可以这么理解：小窗口过于关注细化的局部特征，从而导致偏差增大。

图六上篇文章有相关说明；图七示意了图像金字塔的构造过程对比。
TPAMI14 Fast Feature Pyramids for Object Detection

整篇文章到第六节才开始讲ACF，篇幅也比较短，具体细节还是要看代码。从上面这张图看ACF，∑步骤指的是Aggregate，是由4x4的block summed得出的，感觉像是一个pooling过程，但与ICF不同因为ACF是垮Channel的；：步骤指的是特征向量化，是由在聚合通道中的pixel lookups得到的，感觉也就是直接把通道中的特征值列向量化了。
Boosting那部分包括为什么要用两层的tree和adaboost的参数基本就是直接给出了，文中没有详细的实验。

这里再对比一下ACF和ICF，这个问题是看这篇文章最困扰我的问题。根据文中叙述：（个人理解应该会有偏差，具体对不对还是要看代码）
ACF：ACF的Feature是cross channel的，是由4x4的block summed，然后通过single pixel lookups向量化得到的，每个特征是4x4的block中的一个pixel；
ICF：ICF的Feature也是cross channel的，是通过channel区域上的不同大小的矩形框summed的，每个特征就是每个矩形框中的累加和，没有向量化步骤；
（ICF和ACF根据代码来看应该都是把10个通道并排后，再进行相应步骤的summed，所以应该都是cross channel）

ICF通过积分图可以很快的计算channel上矩形框的特征，这也是它为什么会比它之前的算子要快；
但是，1）由于积分图构造需要时间；2）在channel区域上通过积分图计算矩形框summed还是比single pixel lookups查表操作来的慢多了；基于以上ACF还是比ICF要快。

文章后面（图10,11,12）做了几个实验对比了一下ACF和其他行人检测算子，以及参数设定对ACF和ICF的影响。
另外说一下表1，表1中对比了其他一些算子以及ICF和ACF用与不用（分别对应*CF和*CF-Exact）近似理论在行人检测数据集上的Miss Rate，由此可见近似理论对算子性能的影响大概在1%-3%左右，但是速度上却是数量级上的提高。
表2对比了一下近似理论用在当年很火的DPM模型的上效果。

文章提及说近似理论不是在所有条件下都管用，尤其是纹理丰富和白噪声的条件下，但是一般的自然图像还是有效的。总结一下，作者提出的foundation insight（近似理论）可应用于任何图像处理前端，需要对细粒度尺度特征进行采样的操作任务中，即可以直接近似推导而不需要实际计算采样。

TPAMI14 Fast Feature Pyramids for Object Detection

相关推荐