Tensorflow基础概念与编程(第四讲)
MNIST数字识别的问题
MNIST是一个非常有名的手写体数字识别数据集,MNIST是NIST数据集的一个子集,它包含了60000张图片作为训练数据,10000张图片作为测试数据;在MNIST中每一张图片都代表了0-9中的一个数字,图片的大小都是28*28;虽然这个数据集中只有训练集和测试集,但是为了测试的效果,我们一般会从训练数据集中划分出一部分作为验证数据集
from tensorflow.examples.tutorials.mnist import input_data
# 输入数据集
mnist = input_data.read_data_sets('/path/to/MNIST_DATA/', one_hot=True)
# 打印训练数据集
print(mnist.train.num_examples)
# 打印测试集数据
print(mnist.test.num_examples)
# 打印验证集的训练数据
print(mnist.validation.num_examples)
batch_size = 100
xs, ys = mnist.train.next_batch(batch_size)
print(xs.shape)
print(ys.shape)
运行结果:
Extracting /path/to/MNIST_DATA/train-images-idx3-ubyte.gz
Extracting /path/to/MNIST_DATA/train-labels-idx1-ubyte.gz
Extracting /path/to/MNIST_DATA/t10k-images-idx3-ubyte.gz
Extracting /path/to/MNIST_DATA/t10k-labels-idx1-ubyte.gz
55000
10000
5000
(100, 784)
(100, 10)
从上面代码中可以看出,通过input_data.read_data_sets函数生成的类自动将数据集分为train、test、validation三个数据集;处理后的数据输入都是长度为784的一维数组,因为神经网络的输入是一个特征向量,所以把二维图像的像素放到一个以为数组中可以方便tensorflow将图片的像素矩阵提供给神经网络的输入,像素矩阵中的元素的取值范围是[0,1],它代表了颜色的深浅,其中0表示白色背景,1表示黑色背景;为了方便使用SGD,input_data.read_data_sets还提供了mnist.train.next_batch函数,它可以从所有的训练数据中读取一小部分作为一个训练batch。
神经网络模型训练及不同模型结果对比
Tensorflow训练神经网络
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
# MNIST数据集相关的常数
INPUT_NODE = 784
OUTPUT_NODE = 10
LAYER1_NODE = 500
BATCH_SIZE = 100
LEARNING_RATE_BASE = 0.8
LEARNING_RATE_DECAY = 0.99
REGULARIZATION_RATE = 0.0001 # 描述模型复杂度的正则化在损失函数的系数
TRAINING_STEPS = 10000
MOVING_AVERAGE_DECAY = 0.99 # 滑动平均衰减率
# 一个辅助函数,给定神经网络的输入和所有参数,计算神经网络中的前向传播结果
def inference(input_tensor, avg_class, weights1, biases1, weights2, biases2):
# 当没有滑动平均类,直接使用参数当前的取值
if avg_class == None:
layer1 = tf.nn.relu(tf.matmul(input_tensor, weights1) + biases1)
pred = tf.matmul(layer1, weights2) + biases2
else:
layer1 = tf.nn.relu(tf.matmul(input_tensor, avg_class.average(weights1)) + avg_class.average(biases1))
pred = tf.matmul(layer1, avg_class.average(weights2)) + avg_class.average(biases2)
return pred
# 训练模型的过程
def train(mnist):
x = tf.placeholder(tf.float32, [None, INPUT_NODE], name='x_input')
y = tf.placeholder(tf.float32, [None, OUTPUT_NODE], name='y_output')
weights1 = tf.Variable(tf.truncated_normal([INPUT_NODE, LAYER1_NODE], stddev=0.1))
biases1 = tf.Variable(tf.constant(0.1, shape=[LAYER1_NODE]))
weights2 = tf.Variable(tf.truncated_normal([LAYER1_NODE, OUTPUT_NODE], stddev=0.1))
biases2 = tf.Variable(tf.constant(0.1, shape=[OUTPUT_NODE]))
# 计算在当前参数下神经网络前向传播的结果
pred = inference(x, None, weights1, biases1, weights2, biases2)
# 计算使用了滑动平均之后的前向传播结果
global_step = tf.Variable(0, trainable=False)
variable_average = tf.train.ExponentialMovingAverage(MOVING_AVERAGE_DECAY, global_step)
# tf.trainable_variables函数返回的就是图上的所有变量的集合
average_op = variable_average.apply(tf.trainable_variables())
pred1 = inference(x, variable_average, weights1, biases1, weights2, biases2)
# 计算交叉熵作为刻画预测值和真实值之间差距的损失函数,这里使用sparse_softmax_cross_entropy_with_logits函数来计算交叉熵,当分类
# 问题只有一个正确答案的时候,可以使用这个函数来加速交叉熵的计算
# 这个函数的第一个参数是神经网络不包括softmax层的前向传播的结果,第二个是训练数据的正确答案
cross_entropy = tf.nn.sparse_softmax_cross_entropy_with_logits(logits=pred, labels=tf.argmax(y, 1))
# 计算在当前batch中所有样例的交叉熵平均值
cross_entropy_mean = tf.reduce_mean(cross_entropy)
# 计算L2正则化损失函数
regularizer = tf.contrib.layers.l2_regularizer(REGULARIZATION_RATE)
# 计算模型的正则化损失,一般只计算神经网络边上的权重的正则化损失,而不使用偏执项
# 总损失等于交叉熵和正则化的损失的和
loss = cross_entropy_mean + regularizer(weights1) + regularizer(weights2)
learning_rate = tf.train.exponential_decay(
LEARNING_RATE_BASE, # 基础的学习率
global_step, # 当前迭代的轮数
mnist.train.num_examples / BATCH_SIZE, # 过完所有的训练数据集所需要的迭代次数
LEARNING_RATE_DECAY)
optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss, global_step=global_step)
# 在训练神经网络模型时,每过一遍数据既需要通过反向传播来更新神经网络中的参数,又要更新每一个参数的滑动平均值
# 为了一次完成多个操作,可以使用tf.group()来完成
train_op = tf.group(optimizer, average_op)
# 检验使用滑动平均模型的神经网络前向传播是否正确,tf.argmax(pred1, 1)计算每一个样例的答案
correct_prediction = tf.equal(tf.argmax(pred1, 1), tf.argmax(y, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
# 初始会话并开始训练
with tf.Session() as sess:
tf.global_variables_initializer().run()
# 准备验证数据
validate_feed = {x:mnist.validation.images, y:mnist.validation.labels}
# 准备测试数据
test_feed = {x:mnist.test.images, y:mnist.test.labels}
for i in range(1, TRAINING_STEPS):
if i % 1000 == 0:
# 计算滑动平均模型在验证数据上的结果
# 当神经网络模型比较复杂或者验证数据集数据比较大的时候,太大的batch会导致时间过长甚至发生内存溢出的错误
validation_acc = sess.run(accuracy, feed_dict=validate_feed)
print('validation_acc:', validation_acc)
# 产生这一轮的batch数据,并进行训练
xs, ys = mnist.train.next_batch(BATCH_SIZE)
sess.run(train_op, feed_dict={x:xs, y:ys})
# 在训练结束之后,在测试数据上检测神经网络模型的最终正确率
test_acc = sess.run(accuracy, feed_dict=test_feed)
print('test_acc:', test_acc)
# 主程序入口
def main(argv=None):
# 声明处理MNIST数据集的类,这个类在初始化的时候会自动下载数据
mnist = input_data.read_data_sets('/path/to/MNIST_DATA/', one_hot=True)
train(mnist)
if __name__ == '__main__':
tf.app.run()
运行结果:
Extracting /path/to/MNIST_DATA/train-images-idx3-ubyte.gz
Extracting /path/to/MNIST_DATA/train-labels-idx1-ubyte.gz
Extracting /path/to/MNIST_DATA/t10k-images-idx3-ubyte.gz
Extracting /path/to/MNIST_DATA/t10k-labels-idx1-ubyte.gz
validation_acc: 0.9762
validation_acc: 0.9816
validation_acc: 0.9824
validation_acc: 0.9842
validation_acc: 0.9846
validation_acc: 0.9838
validation_acc: 0.9838
validation_acc: 0.9846
validation_acc: 0.9854
test_acc: 0.9839
使用验证数据集判断模型效果
- 参数的设置没有什么规律可循,配置神经网络的参数都是需要通过实验进行调整的;
- 一般来说,我们是通过在测试集上的效果来看最终的结果的,但是对于深度学习来说我们一般都会有大量的数据,而且测试集的数据非常宝贵,我们一般会将训练数据集分为训练集和测试集
- 除了使用验证数据集,我们还可以使用交叉验证来对模型进行评估
- 一般来说,模型在验证集上出现的结果和测试集上的结果大致一样,但是又不能一概而论,还要看验证集和测试集之间的数据分布情况
变量管理
从上面的代码中可以看到,定义inference函数的时候传入了很多的参数;然而当神经网络的结构更加复杂、参数更多的时候,就需要一个更好的方式来传递和管理神经网络中的参数了;tensorflow提供了通过变量名称来创建或者获取一个变量的机制。通过这个机制,在不同的函数中可以直接通过变量的名字来进行传递,就不需要将变量通过参数的形式到处传递
之前介绍了tf.Variable()函数来创建变量,除了这个函数,我们也可以用tf.get_variable()函数来创建或者获取变量;当tf.get_variable()用来创建变量的时候,这个函数的功能和tf.Variable基本上是等价的:
v = tf.get_variable('v', shape=[1], initializer=tf.constant_initializer(2.0))
tf.get_variable函数调用时需提供维度信息以及初始化方法
tensorflow中提供了七种不同的初始化方法:
tf.get_variable函数与tf.Variable函数最大的功能区别就是指定变量名称的参数,对于tf.Variable来说,变量名称是一个可选参数吗,但是对于tf.get_variable函数来说名称是一个必填的参数,tf.get_variable会根据这个名字去创建或者获取变量
- 如果创建过程中之前已经存在了这个名称的变量,那么get_variable创建变量就会报错
- 如果variable_scope中的参数reuse为True,那么如果变量名称不存在,那么get_variable就会报错
variable_scope创建一个上下文管理器,管理在这个里面所出现或待创建的一切变量
with tf.variable_scope('foo'):
v = tf.get_variable('v', shape=[1], initializer=tf.constant_initializer(1.0)) # 创建一个变量
# with tf.variable_scope('foo'):
# v = tf.get_variable('v', [1]) # 报错, 之前已经存在了一个变量名称为v,再次创建报错
with tf.variable_scope('foo', reuse=True):
v1 = tf.get_variable('v', [1])
print(v1==v)
with tf.variable_scope('bar', reuse=True):
v = tf.get_variable('v', [1]) # 报错,这个管理器里边没有这个变量
tf.variable_scope函数生成的上下文管理器也会创建一个tensorflow中的命名空间,在命名空间内创建的变量名称都会带上这个命名空间名作为前缀;所以tf.variable_scope函数除了可以控制tf.get_variable执行的功能,这个函数也提供了一个管理变量命名空间的方式,以下代码显示了如何通过tf.variabel_scope来管理变量的名称
import tensorflow as tf
v1 = tf.get_variable('v', [1])
print(v1.name)
with tf.variable_scope('foo'):
v2 = tf.get_variable('v', [1])
print(v2.name)
# 输出为foo/v:0 表示这是命名空间foo里边的变量
with tf.variable_scope('foo'):
with tf.variable_scope('bar'):
v3 = tf.get_variable('v', [1])
print(v3.name)
# foo/bar/v:0
with tf.variable_scope('', reuse=True):
v5 = tf.get_variable('foo/bar/v', [1])
# 可以直接通过命名空间名称的变量名来获得其他命名空间下的变量
tensorflow持久化
之前给出的样例就是样例代码在训练完后之后就直接退出了,并没有将训练得到的数据保存下来方便下次直接调用
持久化代码实现
tensorflow提供了一个非常简单的API来保存和还原一个神经网络模型,这个API就是tf.train.Saver类,看代码:
import tensorflow as tf
v1 = tf.Variable([1.0, 2.0])
v2 = tf.Variable(tf.constant([1.0, 3.], shape=[2]))
result = v1 + v2
# 声明tf.train.Saver类用于保存模型
saver = tf.train.Saver()
with tf.Session() as sess:
tf.global_variables_initializer().run()
saver.save(sess, '/path/to/model/model.ckpt')
以上代码实现了持久化一个简单的tensorflow模型的功能,在这段代码中saver.save函数将tensorflow模型保存在/path/to/model/model.ckpt文件中;tensorflow模型一般会存在后缀为.ckpt的文件中,虽然以上程序只指定了一个文件路径,但是在这个文件目录下会出现三个文件,这是因为tensorflow会将计算图的结构和图上的参数取值分开保存
import tensorflow as tf
v1 = tf.Variable([1.0, 2.0])
v2 = tf.Variable(tf.constant([1.0, 3.], shape=[2]))
result = v1 + v2
# 声明tf.train.Saver类用于保存模型
saver = tf.train.Saver()
with tf.Session() as sess:
# 加载已经保存的模型,并通过已经保存的模型中变量的值来计算加法
saver.restore(sess, '/path/to/model/model.ckpt')
print(sess.run(result))