机器学习西瓜书之学习笔记(更新中)
评估方法
留出法 (hold-out)
-
分层采样 (stratified sampling)
-
取 2/3 ~ 4/5
交叉验证法 (cross validation)
-
k 折交叉验证 (k-fold cross validation) 划分k个子集,一般取 k = 10
留一法 (Leave-One-Out)
- k = m,缺陷:m个模型的计算开销难以忍受
自助法 (bootstrapping)
- 随机挑一个样本放入D’中,再放回D,重复m次,不被采集到数据的概率是36.8%
- 这样的测试结果称为外包估计 (out-of-bag estimate)
性能度量 Performance Measure
- 均方误差 (mean squared error)
更一般地,对于数据分布D和概率密度函数p(x),均方误差可描述为:
-
错误率 (error rate)
-
精度 (accuracy)
更一般地,对于数据分布D和概率密度函数p(x),错误率和精度可描述为
-
查准率 (precision)、查全率 (recall) 与 F1
真实情况 预测结果 正例 反例 正例 TP(真正例) FN(假反例) 反例 FP(假正例) TN(真反例)
查准率和查全率往往是一对矛盾的度量。一般来说,查准率高时,查全率往往偏低;查全率高时,查准率往往偏低。- P-R曲线:
-
平衡点 (Break-Even Point):查准率=查全率
-
F1度量:基于查准率和查全率的调和平均 (harmonic mean):
-
F1度量的一般形式:beta>0时度量了查全率对查准率的相对重要性
-
在n个二分类混淆矩阵(confusion matrix)上综合考查查全率和查准率:
-
在各混淆矩阵上计算P和R,再求平均值:
宏查准率 (macro-P):
宏查全率 (macro-R):
-