您的位置: 首页 > 文章 > 机器学习第六周总结知识点

机器学习第六周总结知识点

分类: 文章 • 2023-12-15 13:51:22

主要讲怎样改进机器学习的性能（从哪些方面入手）遇到哪种情况用何种方法比较有效，查准率（Precision）和查全率（概率统计大法）

让模型变得更好的方法

1. 获得更多的训练

2. 尝试减少特征的数量

3. 尝试获得更多的特征

4. 尝试增加多项式特征

5. 尝试减少归一化程度 λ

6. 尝试增加归一化程度λ

机器学习第六周总结知识点

机器学习第六周总结知识点

评估假设

机器学习第六周总结知识点

对于线性回归模型，我们利用测试集数据计算代价函数 J

对于逻辑回归模型，我们除了可以利用测试数据集来计算代价函数外：

机器学习第六周总结知识点

机器学习第六周总结知识点

机器学习第六周总结知识点

然后对结果求平均

过拟合是什么

机器学习第六周总结知识点

如何选择一个合适的模型

1. 使用训练集训练出 10 个模型

2. 用 10 个模型分别对交叉验证集计算得出交叉验证误差（代价函数的值）

3. 选取代价函数值最小的模型

4. 用步骤 3 中选出的模型对测试集计算得出推广误差（代价函数的值）

检验算法是否过拟合，我们将数据分成训练集和测试集，通常用 70%的数据作为训练集，用剩下 30%的数据作为测试集。很重要的一点是训练集和测试集均要含有各种类型的

数据，通常我们要对数据进行“洗牌”，然后再分成训练集和测试集。

机器学习第六周总结知识点

诊断高方差和高偏差

机器学习第六周总结知识点

机器学习第六周总结知识点

机器学习第六周总结知识点

如果训练集的代价函数和交叉验证集中代价函数差不多，是高偏差的情况（欠拟合）

如果训练集的代价函数较小而交叉验证集中的代价函数很大，是高方差的情况（过拟合）

训练集的代价函数一直在减小，交叉验证集的代价函数先变小后变大

我们要做的就是找出交叉验证集随着d的增大先变小后变大的那个点

归一化和选择一个合适的参数λ

机器学习第六周总结知识点

机器学习第六周总结知识点

我们选择一系列的想要测试的λ 值，通常是 0-10 之间的呈现 2 倍关系的值（如：

0,0.01,0.02,0.04,0.08,0.15,0.32,0.64,1.28,2.56,5.12,10共 12 个）。我们同样把数据分为训练

集、交叉验证集和测试集。

选择λ 的方法为：

1. 使用训练集训练出 12 个不同程度归一化的模型

2. 用 12 模型分别对交叉验证集计算的出交叉验证误差

3. 选择得出交叉验证误差最小的模型

4. 运用步骤 3 中选出模型对测试集计算得出推广误差，我们也可以同时将训练集和交叉验证集模型的代价函数误差与 λ 的值绘制在一张图表上机器学习第六周总结知识点

机器学习第六周总结知识点

当λ很小时，容易过拟合，当λ很大时，容易欠拟合（见以前学到的内容，因为两者是乘积的关系）然后再根据刚刚学到的内容，判断是方差还是偏差。

当λ 较小时，训练集误差较小（过拟合）而交叉验证集误差较大。随着λ 的增加，训练集误差不断增加（欠拟合），而交叉验证集误差则是先减小后增加

学习曲线

判断某一个学习算法是否处于偏差、方差问题。学习曲线是学习算法的一个很好的合理检验（sanity check）。学习曲线是将训练集误差和交叉验证集误差作为训练集实例数量（m）的函数绘制的图表。

机器学习第六周总结知识点

机器学习第六周总结知识点

机器学习第六周总结知识点

总结以上的各种情况

机器学习第六周总结知识点

神经网络和过拟合

机器学习第六周总结知识点

用小的神经网络容易造成欠拟合，但是容易计算；用一个复杂的有很多隐藏层的神经网络容易过拟合，计算的代价大。

第十一章

主要讲类偏斜的误差度量，查准率

构建一个学习算法的推荐方法为：

1. 从一个简单的能快速实现的算法开始，实现该算法并用交叉验证集数据测试这个算法

2绘制学习曲线，决定是增加更多数据，或者添加更多特征，还是其他选择

3. 进行误差分析：人工检查交叉验证集中我们算法中产生预测误差的实例，看看这些实例是否有某种系统化的趋势

类偏斜的误差度量

查准率（Precision）和查全率（Recall）我们将算法预测的结果分成四种情况：

1. 正确肯定（True Positive,TP）：预测为真，实际为真

2. 正确否定（True Negative,TN）：预测为假，实际为真

3. 错误肯定（FalsePositive,FP）：预测为真，实际为假

4. 错误否定（FalseNegative,FN）：预测为假，实际为假

查准率=TP/（TP+FP）例，在所有我们预测有恶性肿瘤的病人中，实际上有恶性肿瘤的病

人的百分比，越高越好。

查全率=TP/（TP+FN）例，在所有实际上有恶性肿瘤的病人中，成功预测有恶性肿瘤的

病人的百分比，越高越好。

机器学习第六周总结知识点

机器学习第六周总结知识点

机器学习第六周总结知识点

机器学习第六周总结知识点