机器学习深入与强化--工作流程与模型优化

机器学习深入与强化--工作流程与模型优化

实际建模之前,需要做数据的处理,首先是数据清洗,2点,然后是数据采样,因为大部分模型对正负样本的比例都十分敏感。
之后非常重要的就是特征工程,它包括特征处理和特征选择两部分,首先是特征处理,针对不同类型的特征值进行处理。特征选择包括
过滤型、包裹型和内嵌型,过滤型考虑单个特征与y值之间的相关度,挑选最相关的特征留下来。包裹型是指逐步取特征的子集,在子集上跑算法,看效果是否比在特征全集上好,比如准确率,比如AUC,效果差不多甚至好的话,说明踢掉的特征
是无用的特征,直到满足预先设定的特征数量百分比,或者达到了AUC、准确率的标准,即可停止算法。嵌入型主要基于模型,基于L1正则化,具有截断的作用,当特征很多的时候,使用L1正则化拿到的结果中,对于没有作用的特征,它的权重会变为0。

机器学习深入与强化--工作流程与模型优化

机器学习深入与强化--工作流程与模型优化

机器学习深入与强化--工作流程与模型优化

机器学习深入与强化--工作流程与模型优化

交叉验证:k折交叉验证,数据分为k+1部分,前k折分别用于做模型选择,最后1折做验证集。前k折中,选择k-1折做训练集,选1折做交叉验证集(CV),经过一轮选择后,计算出相应的评价指标,比如准确率;之后再进行一轮,选1折做交叉验证集,剩下k折做测试集。
经过k轮之后,计算每个模型的平均评价指标,选出最好的模型。(交叉验证可以用于模型选择,但一般情况下多用于选择参数)

机器学习深入与强化--工作流程与模型优化

C:正则化的系数,C太小,弱化了正则化的效果,容易导致过拟合,C比较合适的话是一个比较圆滑的曲线,将正负样本分割的差不多,C如果太大,导致做梯度下降时,最小化的是正则化那部分参数,而不是前面标准的损失函数部分,模型准确度会降低。

机器学习深入与强化--工作流程与模型优化

模型状态:过拟合和欠拟合

机器学习深入与强化--工作流程与模型优化

评定模型状态:x-->不同量的训练样本 y-->准确度  两条直线:训练集和验证集
              欠拟合时,两个数据集的准确率都不高,到最后,两条曲线逐渐贴近
              过拟合时,训练集准确度高,随着样本增多,训练集曲线会逐渐下降,因为数据越多越复杂,全部拟合越困难,但下降的幅度不会很大,但在验证集上,样本少的时候,比较随机,准确度不高,随着样本增多,拟合状态逐渐变好,但二者之间准确率永远存在差距。

机器学习深入与强化--工作流程与模型优化

机器学习深入与强化--工作流程与模型优化

机器学习深入与强化--工作流程与模型优化

机器学习深入与强化--工作流程与模型优化

机器学习深入与强化--工作流程与模型优化

机器学习深入与强化--工作流程与模型优化

机器学习深入与强化--工作流程与模型优化

全部的数据做训练,发现过拟合了,可以看到,图中某些区域只有一个红色的点,但为了迁就着一个点,开出了这么大一块红色区域。很容易受到干扰值干扰。
运用Bagging算法,使用五棵树分别做分类,最后投票决定。

机器学习深入与强化--工作流程与模型优化

机器学习深入与强化--工作流程与模型优化

符号变大了,就是要多给它一些权重,重视他

机器学习深入与强化--工作流程与模型优化

每次调整样本的权重,都得到了一个分类器,最后对这些分类器的结果进行叠加,如线性组合,得出最终的结果,这些分类器原本均为线性分类器,但组合之后就变成了非线性分类器了。

机器学习深入与强化--工作流程与模型优化



红:预测值
绿:差值
预测值叠加差值,不断根据差值进行调整,逼近真实值。

机器学习深入与强化--工作流程与模型优化

机器学习深入与强化--工作流程与模型优化