1.交叉熵

（1）用处：分类问题的损失函数

（2）取值：只可能为非负

（3）要理解交叉熵，就要一步步理解：信息量->信息熵->相对熵->交叉熵

信息量	概率的对数的负数		想一想：一个概率越小的时间发生了则信息量越大
信息熵	信息量的均值（用所有概率加起来为1的那一个集）		PS:没有加和，单个时的图像
相对熵	对数里的东西，变成原概率和预测概率的比值，并且括号外面没有负数		想一想：即预测越接近真实损失函数越小，就在这个标签的情况下。
交叉熵	将相对熵对数部分写开，前半部分和预测值没关系，后半部分即是交叉熵	PS:括号里的因为问题打不出来，但是是预测的。此外，对于二分类问题的交叉熵公式有一个很常见的形式望记忆：	想一想：即预测越接近真实损失函数越小，就在这个标签的情况下。