大数据案例分析1.4(回归问题及其性能评价)
回归问题
回归: 回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计方法。
和分类问题不同,回归通常输出为一个实数数值。二分类的输出通常为若干指定的类别标签
回归性能度量方法:
-
平均绝对误差MAE
-
均方差MSE
-
logistic回归损失(二类)
简称Log loss或交叉熵损失,常用于哦名家逻辑回归LR和神经网络对于二分类问题:
1、假设某样本的真实标签为y(取值为0或1),概率估计为p=pr(y=1)
2、每个样本的log loss是对分类器给定真实标签的负log似然估计 -
Logistic回归损失(多类)
1、 对于多类问题,可将样本的真实标签编码成1-of-K(K为类别总数)的二元指示矩阵Y
2、假设模型对测试样本的概率估计结果为p,则在测试集(假设测试集样本总数为n)上的交叉熵损失如下:
yi,k表示第i个样本的第k个标签的真实值,注意由于表示为“1-of-K”模式,因此每个样本只有其中一个标签值为1,其余为0。pi,k表示模型对该样本的预测值