监督学习常用损失函数

监督学习问题的定义

  • 训练样本:(xi,yi)(x_i,y_i)=(第i个样本点特征,第i个样本点标签)
  • 模型:f(.,θ):X>Yf(.,\theta):X->Y
    ff:预测值
    yy:实际值
  • 损失函数是模型的评估指标,损失函数越小,表明模型在该样本上的匹配程度越高。
  • 模型参数θ\theta通过优化损失函数求解。

分类问题的损失函数

1.指示函数(0-1损失)
公式
监督学习常用损失函数
优点:可以直观刻画分类错误率
缺陷:函数非凸、非光滑,难以优化

2.Hinge损失函数(0-1损失的代理损失函数)
公式
监督学习常用损失函数
优点:是0-1损失相对紧的凸上界
缺陷:函数在fy=1处不可导,只能用次梯度优化

3.Logistic损失函数(0-1损失的代理损失函数)
公式
监督学习常用损失函数
优点:是0-1损失相对紧的凸上界;函数处处光滑,可以用梯度下降优化
缺陷:函数对所有样本点都有惩罚,因此对异常值较为敏感

4.交叉熵损失函数(0-1损失的代理损失函数)
公式
监督学习常用损失函数
优点:是0-1损失相对紧的凸上界;函数处处光滑,可以用梯度下降优化
缺陷:

分类问题损失函数对比:
监督学习常用损失函数

回归问题的损失函数

1.平方损失函数(均值回归)
公式:
监督学习常用损失函数
优点:函数光滑,可以用梯度下降优化
缺陷:预测值f距离真实值y越远,惩罚力度越大,因此对异常值较为敏感

2.绝对损失函数(中值回归)
公式
监督学习常用损失函数
优点:对异常点鲁棒
缺陷:函数在f=y处不可导

3.Huber损失函数
公式
监督学习常用损失函数
优点:|f-y|距离小时为平方损失,|f-y|距离小时为线性损失
缺陷:函数处处可导,且对异常点鲁棒

回归问题损失函数对比:
监督学习常用损失函数

参考文献

百面机器学习——算法工程师带你去面试