论文阅读笔记《leaning spatiotemporal features with 3D convolutional network》

论文阅读笔记《leaning spatiotemporal features with 3D convolutional network》

论文链接 Learning Spatiotemporal Features with 3D Convolutional Networks项目主页 C3D: Generic Features for Video Analysis, 3D卷积神经网络在这篇论文之前就被提出,这篇论文的主要贡献为:

  1. We experimentally show 3D convolutional deep networks are good feature learning machines that model appearance and motion simultaneously.
  2. We empirically find that 3 × 3 × 3 convolution kernel for all layers to work best among the limited set of explored architectures.
  3. The proposed features with a simple linear model out- perform or approach the current best methods on 4 different tasks and 6 different benchmarks . They are also compact and efficient to compute

在第三部分包括两个方面一是通过实验分析不同结构的3D卷积神经网络,二是阐述了怎么在大规模的数据集上训练。

2D卷积和3D卷积的比较

2D卷积只能提取空间特征,3D卷积既能提取空间特征也能提取时间特征,在处理多帧图像时2D卷积把每帧图像作为一个通道来看待,输出为一张图像,而3D卷积在处理多帧图像时,保存了图像之间的连时间连贯性,输出为一个“体”

论文阅读笔记《leaning spatiotemporal features with 3D convolutional network》

a)和b)分别为2D卷积用于单通道图像和多通道图像的情况(此处多通道图像可以指同一张图片的3个颜色通道,也指多张堆叠在一起的图片),对于一个滤波器,输出为一张二维的特征图,多通道的信息被完全压缩了。而c)中的3D卷积的输出仍然为3D的特征图。

3D卷积核参数的选择

通过设计不同大小的卷积核(只改变时间维度的大小),在UCF101上进行训练确定卷积核的大小。结果表明3 × 3 × 3 的核效果最好。
论文阅读笔记《leaning spatiotemporal features with 3D convolutional network》

C3D的网络结构

C3D网络包含:8个卷积层,5个池化层,2个全连接层,1个softmax层,所有3D卷积核的大小为3×3×3,stride1×1×1,pool1核的大小1×2×2,stride1×2×2,其他的pool核为2×2×2,stride2×2×2,全连接层为4096,每次输入16帧图像,网络的输入大小为3×16×112×112.

论文阅读笔记《leaning spatiotemporal features with 3D convolutional network》

训练

C3D网络在sports-1M数据集上进行训练,从训练视频中随机提取2秒长的clips,通过SGD训练,batch大小30,初始学习率0.003,学习率每150K迭代减小一半,最大迭代次数1.9M。