OverFeat 部分翻译+总结

OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks
部分翻译:

提出了一种利用卷积网络进行分类、定位和检测的综合框架。我们展示了一个多尺度和滑动窗口的方法可以有效地实现在一个ConvNet。我们还介绍了一种新的深度学习方法,通过学习预测对象的边界来定位。然后,为了增加检测的置信度,对边界框进行累积而不是抑制。我们证明了使用一个共享网络可以同时学习不同的任务。
在本文中,我们探索了三个难度递增的计算机视觉任务:(i)分类、(ii)定位和(iii)检测。每个任务都是下一个任务的子任务。虽然所有任务都是使用一个框架和一个共享的特性学习基础来处理的,但是我们将在下面的部分中分别描述它们。

分类

我们的分类架构类似于最好的ILSVRC12架构by krizhevskyet al.[15]。但在网络设计和推理步骤上进行了改进。由于时间的限制,krizhevskyet 模型中的一些训练特性没有得到充分的探索,因此我们期望我们的结果能够得到进一步的提高。这些将在以后的工作第6节中讨论
我们使用ImageNet 2012培训集(120万张图片,C = 1000个类)[5]对网络进行培训。我们的模型使用了Krizhevsky等人在训练时提出的相同的固定输入大小方法,但是在下一节中我们将转向多尺度分类。每幅图像都向下采样,使最小的维数为256像素。然后我们提取5个大小为221x221像素的随机作物(以及它们的水平翻转),并以128像素的小批量呈现给网络。在网络初始化随机权重(µσ)= (0,1×10−2)。然后更新通过随机梯度下降,伴随着动量项的0.6和ℓ2重量1×10−5的衰变。学习速率最初为5×10−2,经过(30、50、60、70、80)个世代后,学习速率依次降低0.5倍。在分类器的全连通层(6层和7层)上采用了速度为0.5的DropOut [11]

OverFeat 部分翻译+总结

写不下去了,以后补充
未完待续。。。。