一、深度学习背景与人工神经网络

- 一、基础知识
- 二、神经网络

一、基础知识

线性分类器：

工业界有很多算法完成分类的问题，比如线性分类器，输入一张32x32x3的矩阵，利用f(wx+b)得到属于不同类别的得分向量，

一、深度学习背景与人工神经网络

方便演示，x列向量只选了4个值，w为3x4的矩阵，偏置项是为了让分类线可以上下平移，更好的分类，我们希望正确类别的得分比较高。
一、深度学习背景与人工神经网络

两种理解方式：

1. 空间划分

可以把w看成三个行向量，因为每个行都控制着不同类别的得分，三行w分别对应不同的直线。当我们确定了w和b之后，会确定一条直线，相当于对平面进行了一个划分。

不同的w和b对应空间中不同的超平面，对平面做区域划分，在不同区域内，属于不同的类。
一、深度学习背景与人工神经网络

2. 模板匹配

将每一行w看成每个类别的模板，

一、深度学习背景与人工神经网络

对同一个输入x，用不同的模板去匹配它，看哪个模板的匹配度最高。

损失函数：

损失函数是衡量预测和真实值的差别的，随机初始化一组w之后，会根据最小化损失函数的方法来优化w，使得损失函数最小。

不同的损失函数，对应不同的评估手段，不同的手段都能体现模型的学习能力，比如hingeloss，或softmax。

Hinge 损失

正确的得分比错误的得分大于delta的时候，不做惩罚，如果两者的差小于delta，则利用两者的差+delta作为损失值。
交叉熵损失

为什么可以用交叉熵损失函数来衡量网络？

熵的本质是信息量的期望值， $H (p) = \sum p_{i} \times H (p_{i})$ ，现在有关于样本集的两个分布p和q，其中p为真实分布，q为预测分布，比如深度学习的手写体识别，预测得到的属于每类的概率为 $q (0) = 0.0, q (1) = 0.1, q (2) = 0.1, q (3) = 0.8, q (4) = 0, \dots$ ，q是真实的分布。最后肯定会选择概率最大的3作为输出，而真实分布为 $p (0) = 0, p (1) = 0, p (2) = 0, p (3) = 1, p (4) = 0...$ ，于是，我们想做的就是让p和q的分布尽可能一样。

KL散度：

D_{K L} = \sum p_{i} l o g \frac{p_{i}}{q_{i}}

交叉熵（CH）：

C H (p_{i}, q_{i}) = - \sum p_{i} l o g q_{i} = \sum p_{i} l o g p_{i} - \sum p_{i} l o g q_{i} - \sum p_{i} l o g p_{i}

∴ C H (p_{i}, q_{i}) = H (p_{i}) + \sum p_{i} l o g \frac{p_{i}}{q_{i}}

交叉熵=熵+KL散度

而 $H (p i)$ 是一个真实分布的期望，因此与训练无关，是一个常数项，所以将原本的最小化相对熵，转化为最小化交叉熵，

一般情况，我们希望将得分函数转化为分为某一类的概率，多分类情况下利用softmax来完成。

softmax：某个类别的得分的指数值，和所有得分的指数值的比值

为什么用指数，因为指数可以避免负值的出现。

S_{i} = \frac{e^{V_{i}}}{\sum_{j} e^{V_{j}}}

softmax可以将不同的得分函数转化为属于该类的概率值，转化之后，概率之和为1。

$e^{V_{i}}$ 表示某个类别的线性得分函数， $S_{i}$ 表示属于该类的概率输出，由于log变换不会影响函数的单调性，故对 $S_{i}$ 进行log变换，我们希望 $S_{i}$ 越大越好，即对应正确类别的相对概率越大越好，所以对 $S_{i}$ 前面加一个负号，来表示损失函数，这就称为交叉熵损失函数。