目标检测
目标检测
1、目标检测的相关技术
- 梯度直方图 (histogram of oriented gradient)
- 图像金字塔 (image pyramid)
- 滑动窗口 (sliding window)
2、HOG描述符
用于图像目标检测的描述符内部机制差不多:将图像划分成多个部分,并计算各个部分的梯度,
HOG不是基于颜色值而是基于梯度来计算直方图的,HOG所得到的特征描述符能够为特征匹配和目标检测提供非常重要的信息
HOG提取特征的方法:首先把图像分成小单元,每个单元都包含了视觉表示,该视觉表示是将八个方向所计算得颜色梯度,每个单元的八个值就是直方图,因此每个单元都会有唯一的标识,
当然仅仅比较两幅图像的单元是行不通的,除非两幅图像相同(大小和数据方面),这就带来了两个问题
(1):尺度问题 图片的大小 -----》图像金字塔
(2):位置问题 检测目标可能在图像中的任何位置 ----》滑动窗口
3、图像金字塔
构建图像金字塔:
- 获取图像
- 使用任意尺度的参数来调整(缩小)图像的大小
- 平滑图像(使用高斯模糊)
- 如果图像比最小的尺寸还大,从第一步开始重复这个过程
4、滑动窗口
滑动窗口通过扫描较大图像的较小区域来解决定位问题,这种技术需要将图像分解成多个部分,然后丢掉那些不太可能包含对象的部分,并对剩余部分进行分类。
每个窗口会丢掉几个像素,这意味着一个滑动窗口可以对同一张人脸的四个不同位置进行正匹配,但是我们只要一个结果,而不是四个,所以我们只要对最高评分的图像区域感兴趣(采用非最大抑制)
5、非最大抑制
非最大抑制算法的过程;
- 一旦建立图像金字塔,为了检测目标,可以采用滑动窗口来搜索图像
- 收集当前所有含有目标的窗口(超出一定任意阈值),并得到有最高响应的窗口W,
- 消除所有与W有明显重叠的窗口
- 移动到下一个最高响应的窗口,在当前尺度下重复上述过程
在这个过程之后,移动图像金字塔的下一个尺度,并重复前面的过程,为了确保窗口在整个非最大抑制过程结束时能正确的表示,一定要计算相对于图像原始尺寸的窗口大小(例如:如果在只有原始尺寸50%的尺度下检测一个框,那么检测的窗口实际上是原始图像大小的四分之一)
上述过程结束后,会得到一系列平分最高的窗口,另外可以检查完全包含在其他窗口中的窗口,并消除这些窗口