【吴恩达】机器学习第11章学习收获

1.判断过拟合：

将数据集以7：3分为训练集和测试集，如果数据是有序的，最好随机选择以7：3的比例划分。

首先训练【吴恩达】机器学习第11章学习收获：通过训练集最小化得到（使用训练集）

然后计算误差：【吴恩达】机器学习第11章学习收获 (使用测试集）

如果【吴恩达】机器学习第11章学习收获很大，则说明存在过拟合。

2.模型选择（次数、特征数等）

将数据集分为训练集、交叉验证集、测试集。一般按照6：2：2的比例。

先用训练集得到【吴恩达】机器学习第11章学习收获 ,使用交叉验证集来选择模型：最小化J 得到然后计算，选取最小的对应的次数。最后用进行测试。

3.高偏差（Bias)和高方差：

【吴恩达】机器学习第11章学习收获

高偏差：【吴恩达】机器学习第11章学习收获很大，也很大，接近于.是一种欠拟合的情况，在正则化时，过大也会导致这个情况。

高方差：【吴恩达】机器学习第11章学习收获很小，很大，是一种过拟合问题，在正则化时，过小也会导致这个问题。

这里的d指的是多项式的最高次数，在本例中，【吴恩达】机器学习第11章学习收获最小的点对应的次数为最佳合适的多项式次数。

4.学习曲线

【吴恩达】机器学习第11章学习收获

在高偏差的情况下，随着训练集m的增大，J_train会趋于平稳。因此在这种情况下，增加再多的训练集也没有什么效果。

【吴恩达】机器学习第11章学习收获

对于高方差来说，一开始，训练集和交叉验证集的差距很大，但是随着数据集的增大，两个结果会越来越相近，因此对于高方差来说，增加训练集是有用的。

5.总结

对于大型神经网络出现的过拟合问题可以用正则化来解决，我们俩隐藏层的层数当作多项式次数来用J_cv进行评估和筛选。

1)高方差问题：更多的数据、更少的特征、提高【吴恩达】机器学习第11章学习收获来解决。

2）高偏差：更多的特征、更大的多项式次、降低【吴恩达】机器学习第11章学习收获来解决。