Coursera machine learning week 6(二)

一 误差分析

当应用机器学习时,建议的顺序是:

1.首先构建一个比较简单的模型或学习算法;

2.画出模型的学习曲线、诊断模型是否有高偏差(欠拟合)或者高方差(过拟合)问题,从而决定是否需要更多的数据或者更多的特征来解决;

3.误差分析,手动检查算法算错的那些样例,然后找出算法算错的样例术语那种类型。


二 偏斜类的误差度量指标

2.1 偏斜类(Skewed classes):是指假设一个样本中有两类,其中一类的数目比另一类的样本数目要多的多,这时我们用总体分类精度来评价该机器学习模型可能会出现较大的误差和问题,比如利用一个简单的模型(y=0)就可以获得很高的模型精度,但是这显然不适合实际样本的,所以就需要使用其他方法来对该模型进行评价,避免偏斜类的问题。所以就产生了准确率(Precision)和召回率(Recall)评价方法。

Coursera machine learning week 6(二)

准确率和召回率的计算公式:

Coursera machine learning week 6(二)

个人理解:准确率是把多少原本是0的误判为1; 召回率是把多少原本是1的误判为0了。

2.2 准确率和召回率的平衡问题

以逻辑斯蒂回归为例,准确率和召回率的关系如下图所示:

Coursera machine learning week 6(二)

1.通过准确率和召回率参数可以定量评价一个模型,但是有时需要根据实际情况选择是高准确率还是高召回率,对于逻辑斯蒂回归模型,可以通过修改阈值来实现。

2.利用precision和recall无法全面的对模型进行评价,F Score是将准确率和召回率合在一起的度量参数评价指标,可以基本权衡一个算法的有效性。 计算公式如下:

Coursera machine learning week 6(二)