YOLO-V2

1 introduction

通过已有的分类数据扩大当前检测系统的范围, 使用目标分类层的分层视图, 将不同的数据集组合在一起.

联合训练算法: 分类与检测相结合训练 , 使用标记好的检测数据实现目标的精确定位，利用分类数据提高其识别范围及稳健性.

代码:

Batch Normalization

在YOLO所有卷积层上添加批量标准化, 删除dropout.

High Resolution Classifier

先使用448X448的ImageNet进行10epoch微调, 为了更好地适应高分辨率输入.

Convolutional With Anchor Boxes

移除FC层, 使用锚框预测边界框.

1 移除一个池化层, 为了获得高分辨率特征图

2 输入416X416, 为了获得奇数个位置, 只有一个中心单元

YOLO-V2

Dimension Clusters(维度聚类)

在训练集边界框上运行k-means, 找到良好的先验(即或者锚中那些框设置什么样最合理).

距离度量为:

d(box, centroid) = 1 - IOU(box, centroid)

用不同k值进行k-means. 回执最接近质心的平均IOU. 最终选择K=5.

Direct location prediction

YOLO-V2

Fine-Grained Features

通过叠加高分辨率特征层, 有利于小的物体定位. 方法和ResNet类似

直通层将高分辨率特征与低分辨率特征连接起来，将相邻特征叠加到不同的通道中，而不是空间位置上，类似于ResNet中的恒等映射。将26×26×512的特征图变为13×13×2048的特征图，然后就可以与原来的特征连接。

Multi-Scale Training

每隔几次迭代就改变一次网络。每10个批次我们的网络会随机选择一个新的图像尺寸大小.

取值集合为{320,352，…，608}

Darknet19

YOLO-V2

混合来自检测和分类数据集的图像. 网络看到标记为检测的图像时，可以根据完整的YOLOv2损失函数进行反向传播。当它看到分类图像时，只会反向传播分类部分的损失

因为网络softmax预测的每个分支都是相互排斥的, 所以对于合并的数据集, 标签问题的解决方式如下:

分层分类:

WordTree，一个视觉概念的分层模型, 例如terier节点

YOLO-V2

图片是否是Norfolk terrier

YOLO-V2