2015-12-ECCV-SSD: Single Shot MultiBox Detector
1.要做的事情
多目标检测
2. 数据集
COCO和VOC07
3. 网络结构
其中,先经过一个VGG16 提取特征,最后一层的conv层的参数不一样,会得到不同制度的特征。
然后输入到detections部分。
SSD方法基于前馈卷积网络,该网络产生固定大小的边界框集合,并对这些边界框中存在的目标类别实例进行评分,然后进行非极大值抑制步骤来产生最终的检测结果。
3.1一些概念
feature map cell:feature map 中的每一个小格子,如下图,b图中有64个cell。
default box:在每一个feature map cell都有固定大小的box,如图b,在object猫的位置上有四个box
prior box:在真正训练中实际用到的default box,也就是说,prior box 小于等于default box。不是每一个feature cell的default box都会被选择。
3.2 训练
3.2.1 选择不同大小的scale和ratio
按照不同大小的scale和ratio生成k个default box。
scale:
其中,sk表示的是prior框相对于图片的比例。k为第i层的feature map。smin=0.2,smax为0.9,m为有多少层feature map。
ratio:
则,每一层default box的width:
height:
当ratio为1,则scale为:
每个default box的中心坐标为:
其中|fk|为第k个feature map的大小,。
这样就知道了default box了。
3.2.2 NMS
非极大值抑制算法:
输入:prior boxes;
输出:最优的boxes。
过程:去除冗余的重叠的boxes,对全部的boxes进行迭代-遍历-消除。
首先,对所有框的类别得分进行排序,选出得分最高的boxes;
其次,遍历所有的框,如果和当前最高分的框的IoU大于一定的阈值,就将框删除;
在从未处理的框中继续选一个得分最高的,重复上述过程。
3.2.3 loss
其中,N为匹配的默认框的数量。
其中,={1,0},表示在类别p下,default box i为GT box j的匹配程度。
cx为default bounding box的中心坐标x,cy为default bounding box的中心坐标y。l为yucedebox的位置参数,g为GT的位置的参数。
smooth L1为:
其中, 表示的是在类别p 下,default box输出的概率。