
卷积神经网络CNN(convolutional neural networks,CNN)是一种类似于人工神经网络的深度学习模型或多层感知机,常用在图像分类、目标检测、图像语义分割等领域,随着大规模图像数据的产生以及计算机硬件(特别是GPU)的飞速发展,其强大的特征学习与分类能力引起了广泛的关注,具有重要的分析与研究价值。

一、what is CNN?


1. 视觉感知




2. CNN结构



  • 输入层:用于数据的输入
  • 卷积层:使用卷积核进行特征提取和特征映射
  • 激励层:由于卷积也是一种线性运算,因此需要增加非线性映射
  • 池化层:进行下采样,对特征图稀疏处理,减少数据运算量。
  • 全连接层:通常在CNN的尾部进行重新拟合,减少特征信息的损失
  • 输出层:用于输出结果

2.1 输入层

图像在计算机中是一堆按顺序排列的数字,数值为0到255。0表示最暗,255表示最亮。 可以把这堆数字向量来表示,也就是tensorflow进阶的784(24*24)维向量,如下图所示。


而对于更常见的RGB颜色模型,单个矩阵就扩展成了有序排列的三个矩阵,也可以用三维张量去理解,其中的每一个矩阵又叫这个图片的一个channel。画面识别的输入是shape为(width, height, depth)的三维张量,如下图所示。


2.2 卷积层


2.2.1 局部关联

在卷积神经网络中,我们先选择一个局部区域,用这个局部区域去扫描整张图片。 局部区域所圈起来的所有节点会被连接到下一层的一个节点上。因此,隐藏层中的神经元的感受视野比较小,只能看到上一次的部分特征,上一层的其他特征可以通过平移感受视野来得到同一层的其他神经元。而在全连接神经网络中,隐藏层中的神经元的感受视野足够大乃至可以看到上一层的所有特征。


在上图中,黄色的方框就叫做卷积核( filter )。 而filter的范围叫做filter size,这里所展示的是3x3的filter size。



2.2.2 权值共享



  • 参数大大减小,数量与Filter大小相关;
  • Filter在图片上的移动就相当于相同的weight在输入向量不同的元素上的移动,这个就是weight共享 动态图的最后一帧则显示了所有连接 





2.3 激励层




ReLU**函数会为输入图像中的每个负值返回 0,每个正值则返回同样的值,如下所示。


2.4 池化层

 池化层夹在连续的卷积层中间, 用于压缩数据和参数的量,减小过拟合。简单说就是采样,用于压缩图像。在实际应用中,池化根据下采样的方法,分为最大值下采样(Max-Pooling)与平均值下采样(Mean-Pooling),下图所示最大值采样。


2.5 全连接层

当抓取到足以用来识别图片的特征后,接下来的就是如何进行分类。 全连接层(也叫前馈层)就可以用来将最后的输出映射到线性可分空间。通常卷积网络的最后会将末端得到的长方体平摊(flatten)成一个长长的向量,并送入全连接层配合输出层进行分类。其实全连接层就是一个分类器(可以是softmax、BP等),他可以将特征进行分类,并通过反向传播将误差回传调整整个网络的权值。如下图所示。


 二、why is CNN?

用Deep Learning来做图片识别最简单的办法就是用一个全连接的神经网络做模型,然后训练和优化,如下图所示。


 假设图中的输入图片猫大小为100x100,转化为一个输入向量则有30000维(彩色图片RGB表示3个channel),假设第一层Hidden Layer有1000个neural,则第一层Hidden Layer的总参数为3千多万个,而实际上稍微高清点的图片远大于100x100,同时Hidden Layer的层数也比较多,所以用全连接的神经网络做模型最大的问题就参数数量太多,对参数训练来说太困难。






三、CNN model

1. LeNet


2. AlexNet

2012 ILSVRC比赛远超第2名的CNN,类似LeNet,但更深更大。使用了层叠的卷积层(多层小卷积层叠加替换单大卷积层)来抓取特征(通常是一个卷积层马上一个max pooling层)。

3. ZF Net

2013 ILSVRC比赛冠军,增加了中间卷积层的尺寸,让第一层的stride和filter size更小。

4. GoogLeNet

2014 ILSVRC比赛冠军,减少parameters数量,最后一层用max pooling层代替了全连接层,更重要的是Inception-v4模块的使用。

5. VGGNet

2014 ILSVRC比赛中的模型,只使用3x3 卷积层和2x2 pooling层从头到尾堆叠,图像识别略差于GoogLeNet,但是在很多图像转化学习问题(比如object detection)上效果奇好。

6. ResNet

引入了跨层连接和batch normalization。

7. DenseNet



  • 源于Berkeley的主流CV工具包,支持C++,python,matlab
  • Model Zoo中有大量预训练好的模型供使用
  • Facebook用的卷积神经网络工具包
  • 通过时域卷积的本地接口,使用非常直观
  • 定义新网络层简单
  • Google的深度学习框架
  • TensorBoard可视化很方便
  • 数据和模型并行化好,速度快

五、 MNIST手写识别Demo


1. 卷积函数

tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu=None, data_format=None, name=None)


  • data_format:表示输入的格式,有两种分别为:“NHWC”和“NCHW”,默认为“NHWC”
  • input:输入是一个4维格式的(图像)数据,数据的 shape 由 data_format 决定:当 data_format 为“NHWC”输入数据的shape表示为[batch, in_height, in_width, in_channels],分别表示训练时一个batch的图片数量、图片高度、 图片宽度、 图像通道数。当 data_format 为“NHWC”输入数据的shape表示为[batch, in_channels, in_height, in_width]
  • filter:卷积核是一个4维格式的数据:shape表示为:[height,width,in_channels, out_channels],分别表示卷积核的高、宽、深度(与输入的in_channels应相同)、输出 feature map的个数(即卷积核的个数)。
  • strides:表示步长:一个长度为4的一维列表,每个元素跟data_format互相对应,表示在data_format每一维上的移动步长。当输入的默认格式为:“NHWC”,则 strides = [batch , in_height , in_width, in_channels]。其中 batch 和 in_channels 要求一定为1,即只能在一个样本的一个通道上的特征图上进行移动,in_height , in_width表示卷积核在特征图的高度和宽度上移动的布长。
  • padding:表示填充方式:“SAME”表示采用填充的方式,简单地理解为以0填充边缘,当stride为1时,输入和输出的维度相同;“VALID”表示采用不填充的方式,多余地进行丢弃。


tf.nn.max_pool( value, ksize,strides,padding,data_format=’NHWC’,name=None) 


  • value:表示池化的输入:一个4维格式的数据,数据的 shape 由 data_format 决定,默认情况下shape 为[batch, height, width, channels]
  • 其他参数与 tf.nn.cov2d 类型
  • ksize:表示池化窗口的大小:一个长度为4的一维列表,一般为[1, height, width, 1],因不想在batch和channels上做池化,则将其值设为1。

3. 完整代码

#!/usr/bin/env python
# load MNIST data
import input_data
mnist = input_data.read_data_sets("Mnist_data/", one_hot=True)

# start tensorflow interactiveSession
import tensorflow as tf
sess = tf.InteractiveSession()

# weight initialization
def weight_variable(shape):
	initial = tf.truncated_normal(shape, stddev=0.1)
	return tf.Variable(initial)

def bias_variable(shape):
	initial = tf.constant(0.1, shape = shape)
	return tf.Variable(initial)

# convolution
def conv2d(x, W):
	return tf.nn.conv2d(x, W, strides=[1, 1, 1, 1], padding='SAME')
# pooling
def max_pool_2x2(x):
	return tf.nn.max_pool(x, ksize=[1, 2, 2, 1], strides=[1, 2, 2, 1], padding='SAME')

# Create the model
# placeholder
x = tf.placeholder("float", [None, 784])
y_ = tf.placeholder("float", [None, 10])
# variables
W = tf.Variable(tf.zeros([784,10]))
b = tf.Variable(tf.zeros([10]))

y = tf.nn.softmax(tf.matmul(x,W) + b)

# first convolutinal layer
w_conv1 = weight_variable([5, 5, 1, 32])
b_conv1 = bias_variable([32])

x_image = tf.reshape(x, [-1, 28, 28, 1])

h_conv1 = tf.nn.relu(conv2d(x_image, w_conv1) + b_conv1)
h_pool1 = max_pool_2x2(h_conv1)

# second convolutional layer
w_conv2 = weight_variable([5, 5, 32, 64])
b_conv2 = bias_variable([64])

h_conv2 = tf.nn.relu(conv2d(h_pool1, w_conv2) + b_conv2)
h_pool2 = max_pool_2x2(h_conv2)

# densely connected layer
w_fc1 = weight_variable([7*7*64, 1024])
b_fc1 = bias_variable([1024])

h_pool2_flat = tf.reshape(h_pool2, [-1, 7*7*64])
h_fc1 = tf.nn.relu(tf.matmul(h_pool2_flat, w_fc1) + b_fc1)

# dropout
keep_prob = tf.placeholder("float")
h_fc1_drop = tf.nn.dropout(h_fc1, keep_prob)

# readout layer
w_fc2 = weight_variable([1024, 10])
b_fc2 = bias_variable([10])

y_conv = tf.nn.softmax(tf.matmul(h_fc1_drop, w_fc2) + b_fc2)

# train and evaluate the model
cross_entropy = -tf.reduce_sum(y_*tf.log(y_conv))
train_step = tf.train.GradientDescentOptimizer(1e-3).minimize(cross_entropy)
#train_step = tf.train.AdagradOptimizer(1e-5).minimize(cross_entropy)
correct_prediction = tf.equal(tf.argmax(y_conv, 1), tf.argmax(y_, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, "float"))
for i in range(20000):
	batch = mnist.train.next_batch(50)
	if i%100 == 0:
		train_accuracy = accuracy.eval(feed_dict={x:batch[0], y_:batch[1], keep_prob:1.0})
		print("step %d, train accuracy %g" %(i, train_accuracy))
	train_step.run(feed_dict={x:batch[0], y_:batch[1], keep_prob:0.5})


/opt/modules/anaconda3/envs/mnist/bin/python /home/lee/PycharmProjects/mnist/mnist_deep.py
