Day-1 目标检测-目标定位
目标检测
目标定位
简单的图片分类,将一张图片输入到多层卷积神经网络中,他会输出一个特征向量,并反馈给softmax单元来预测。
如果想识别出汽车的位置,就需要在神经网络多输出几个单元,用来表示框的位置,标记为bx、by、bw和bh,表示边界框的位置的参数化。规定图片的左上角坐标为(0,0)右下角为(1,1),bx、by、bw和bh均为0到1的数。
目标标签的定义如下:y=[Pc,bx,by,bw,bh,C1,C2,C3]T (T是转置)
Pc 是否含有对象
C 对象的类型(对多种类型的训练与识别需要用到softmax,还未理解)
针对这个目标定位问题,图片中只能有一个物品或没有物品。
看几个样本
这是一张训练集图片,Pc=1 ,C2=1
这时Pc=0,y的其他参数将毫无意义。
最后 神经网络的损失函数为平方差函数
以上就是目标的定位
特征点检测
与目标定位类似,在图片放入多层卷积神经网络后输出标注的特征点的坐标
如图根据特征点的相对位置可以判断目标物体的动作。
要明确一点,特征点1的特性在所有图片中必须保持一致,就好比,特征点1始终是右眼的外眼角,特征点2是右眼的内眼角,特征点3是左眼内眼角,特征点4是左眼外眼角等等。
目标检测
训练集采用图中的X的图片,标注有汽车的图片需要整张图都被汽车所占据。
有汽车的图片卷积网络输出y=1或0表示有无汽车。
训练完成后即可进行滑动窗口检测。