机器学习深入与强化--工作流程与模型优化

实际建模之前，需要做数据的处理，首先是数据清洗，2点，然后是数据采样，因为大部分模型对正负样本的比例都十分敏感。
之后非常重要的就是特征工程，它包括特征处理和特征选择两部分，首先是特征处理，针对不同类型的特征值进行处理。特征选择包括
过滤型、包裹型和内嵌型，过滤型考虑单个特征与y值之间的相关度，挑选最相关的特征留下来。包裹型是指逐步取特征的子集，在子集上跑算法，看效果是否比在特征全集上好，比如准确率，比如AUC，效果差不多甚至好的话，说明踢掉的特征
是无用的特征，直到满足预先设定的特征数量百分比，或者达到了AUC、准确率的标准，即可停止算法。嵌入型主要基于模型，基于L1正则化，具有截断的作用，当特征很多的时候，使用L1正则化拿到的结果中，对于没有作用的特征，它的权重会变为0。

交叉验证：k折交叉验证，数据分为k+1部分，前k折分别用于做模型选择，最后1折做验证集。前k折中，选择k-1折做训练集，选1折做交叉验证集（CV），经过一轮选择后，计算出相应的评价指标，比如准确率；之后再进行一轮，选1折做交叉验证集，剩下k折做测试集。
经过k轮之后，计算每个模型的平均评价指标，选出最好的模型。（交叉验证可以用于模型选择，但一般情况下多用于选择参数）

机器学习深入与强化--工作流程与模型优化

C:正则化的系数，C太小，弱化了正则化的效果，容易导致过拟合，C比较合适的话是一个比较圆滑的曲线，将正负样本分割的差不多，C如果太大，导致做梯度下降时，最小化的是正则化那部分参数，而不是前面标准的损失函数部分，模型准确度会降低。

机器学习深入与强化--工作流程与模型优化

模型状态：过拟合和欠拟合

机器学习深入与强化--工作流程与模型优化

评定模型状态：x-->不同量的训练样本 y-->准确度两条直线：训练集和验证集
欠拟合时，两个数据集的准确率都不高，到最后，两条曲线逐渐贴近
过拟合时，训练集准确度高，随着样本增多，训练集曲线会逐渐下降，因为数据越多越复杂，全部拟合越困难，但下降的幅度不会很大，但在验证集上，样本少的时候，比较随机，准确度不高，随着样本增多，拟合状态逐渐变好，但二者之间准确率永远存在差距。

机器学习深入与强化--工作流程与模型优化