机器学习——交叉熵和softmax
1.交叉熵
(1)用处:分类问题的损失函数
(2)取值:只可能为非负
(3)要理解交叉熵,就要一步步理解:信息量->信息熵->相对熵->交叉熵
信息量 |
概率的对数的负数 | 想一想:一个概率越小的时间发生了则信息量越大 | ||
信息熵 | 信息量的均值(用所有概率加起来为1的那一个集) | PS:没有加和,单个时的图像 | ||
相对熵 | 对数里的东西,变成原概率和预测概率的比值,并且括号外面没有负数 | 想一想:即预测越接近真实损失函数越小,就在这个标签的情况下。 | ||
交叉熵 | 将相对熵对数部分写开,前半部分和预测值没关系,后半部分即是交叉熵 |
此外,对于二分类问题的交叉熵公式有一个很常见的形式望记忆: |
想一想:即预测越接近真实损失函数越小,就在这个标签的情况下。 |
经过上面的步骤,交叉熵的意义和算法应该就可以掌握了。
但有一个问题是,这个分类问题的概率是怎么来的呢?————softmax
2.softmax
作用:将向量的每一个分值映射到(0,1) PS:sigmoid函数和它有点像,也是将结果映射到(0,1)
公式:
用法:最常见的就是分类问题交叉熵时候计算的时候用。