Softmax回归(softmax regression)

http://wiki.jikexueyuan.com/project/tensorflow-zh/tutorials/mnist_beginners.html

我们用 MNIST数据集当例子。

  • 60000行的训练数据集(mnist.train)
  • 10000行的测试数据集(mnist.test)

Softmax回归(softmax regression)
Softmax回归(softmax regression)
Softmax回归(softmax regression)

Softmax模型可以用来给不同的对象分配概率。
即使在之后,我们训练更加精细的模型时,最后一步也需要用softmax来分配概率。

softmax回归(softmax regression)分两步
第一步
为了得到一张给定图片属于某个特定数字类的证据(evidence),我们对图片像素值进行加权求和。如果这个像素具有很强的证据说明这张图片不属于该类,那么相应的权值为负数,相反如果这个像素拥有有利的证据支持这张图片属于这个类,那么权值是正数
下面的图片显示了一个模型学习到的图片上每个像素对于特定数字类的权值。红色代表负数权值,蓝色代表正数权值。
Softmax回归(softmax regression)

我们也需要加入一个额外的偏置量(bias),因为输入往往会带有一些无关的干扰量。因此对于给定的输入图片 x 它代表的是数字 i 的证据可以表示为
Softmax回归(softmax regression)
其中,Wi代表权重,bi代表数字 i 类的偏置量,j 代表给定图片 x 的像素索引用于像素求和。然后用softmax函数可以把这些证据转换成概率 y
Softmax回归(softmax regression)
这里的softmax可以看成是一个激励(activation)函数或者链接(link)函数,把我们定义的线性函数的输出转换成我们想要的格式,也就是关于10个数字类的概率分布。

对于softmax回归模型可以用下面的图解释,对于输入的xs加权求和,再分别加上一个偏置量,最后再输入到softmax函数中:

Softmax回归(softmax regression)

如果把它写成一个等式,我们可以得到:
Softmax回归(softmax regression)

我们也可以用向量表示这个计算过程:用矩阵乘法和向量相加。这有助于提高计算效率。(也是一种更有效的思考方式)
Softmax回归(softmax regression)

更进一步,可以写成更加紧凑的方式:
Softmax回归(softmax regression)