零基础入门数据挖掘-建模调参
- 调整数据类型,减少内存占用,提高训练效率
- 数据标签呈现长尾分布,使用线性回归,需要转化成正态分布
- 通过对便签进行 log(x + 1) 变换,使之接近正太分布
- 对比发现,log变换前后,预测值与实际值差异明显变小了(左图为log变换前,右图为log变换后)
- 五折交叉验证
- 升级版五折交叉验证(考虑时间顺序关系构造训练集和验证集)
- 学习率曲线和验证曲线
- 针对线性回归模型,使用嵌入式特征选择优化
- L1正则化,则为岭回归
- L2正则化,则为Lasso回归
- 线性回归、岭回归、Lasso回归对比
- 非线性模型(决策树、随机森林、梯度提升、多层感知机等),随机森林较优
- 模型调参
- 贪心调参(遍历所有优化条件)
- 网格调参
- 贝叶斯调参
- 总结