Coursea-吴恩达-machine learning学习笔记(十一)【week 6之Machine Learning System Design】

建立机器学习系统举例(垃圾邮件分类):
从邮件的训练集中,为每个邮件建立一个向量,每个元素代表一个单词,一般从训练集中找到最常用的1000050000个单词组成向量,如果在邮件中找到该单词,向量对应位置用1表示,否则用0表示,构建完所有的向量,使用监督学习的逻辑回归模型训练。

常用的提高分类精度的方法:

  1. 收集大量的数据;
  2. 设计复杂的特征值(例如使用邮件名);
  3. 设计算法改变输入形式(例如识别邮件中的错误拼写)。

但很难说哪个方法一定有效。

构建机器学习系统的建议方法

  1. 从一个可以快速实现的简单算法开始,实现后在交叉验证集上测试;
  2. 画出学习曲线,看是高偏差还是高方差来决定是增加样本数还是增加特征值;
  3. 误差分析,手动检查被算法分错的交叉验证集中的样本,查看出现了哪些系统性错误。

误差分析可能无法帮你决定是否可以提高性能,唯一的方法是去试试,然后看是否有效果。

在交叉验证集上做误差分析,而不是测试集。

用一个具体数值来评价算法错误率很有必要,作为算法度量值。

偏斜类:正样本和负样本数量相差悬殊。
对于偏斜类,用分类精确度评价并不准确。

查准率/召回率
Coursea-吴恩达-machine learning学习笔记(十一)【week 6之Machine Learning System Design】
查准率:对于预测y=1的,有多大比例真的为1.

True PositivePredicted Positive
其中Predicted Positive=True Positive+False Positive

召回率:对于实际y=1的,有多大比例预测为1

True PositiveActual Positive
其中Actual Positive=True Positive+False Negative

一般,我们将实际发生次数较少的类定义为y=1

实际设计机器学习系统时,应平衡查准率和召回率:
以癌症预测为例:
逻辑回归模型:0hθ(x)1
如果hθ(x)0.5,则预测为1;
如果hθ(x)<0.5,则预测为0。
y=1时,预测有癌症。

若将阈值从0.5调高至0.7,在交叉验证集上测试,查准率提升,但召回率下降;
若将阈值从0.5调低至0.3,在交叉验证集上测试,召回率提升,但查准率下降。

如果hθ(x)threshold,则预测为1,设Precision(P)为查准率,Recall(R)为召回率,则:
F1 score2PRP+R该值越大越好。
完美的算法:P=1R=1F1 score=1

具备以下条件时,增加训练样本数有助于提高算法精度:

  1. 特征值x包含足够的信息来准确预测y
  2. 假设函数包含很多参数。