深度之眼比赛实战训练营第06次打卡
特征工程知识点的讲解以及特征工程对成绩的提高
任务简介:运用特征工程知识对成绩提高到top80%,描述一下pipline对特征组合的方便之处,还有哪些方法可以对成绩有所提高?
详细说明:由于特征工程对于后续成绩的提高有着奇特的效果,所以在两次课中会运用特征组合以及管道知识对数据进行处理和特征的组合,希望大家不要完全按照我的方法来进行特征组合,这个时候大家自己要尝试不同的组合,对特征的重要度也需要进行区分。
一、特征工程
数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
所谓特征工程,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。
- 数据预处理 ==> sklearn-Processing data
- 特征选择 ==> sklearn-Feature selection
- 降维 ==> sklearn-Dimensionality reduction
二、数据预处理
三、特征选择
四、降维
任务简介:运用特征工程知识对成绩提高到top80%,描述一下pipline对特征组合的方便之处,还有哪些方法可以对成绩有所提高?
通过sklearn里的自定义转换器,我们可以将对数据特征的提取和分析独立出来,然后通过sklearn中的Pipline再将各种不同的特征方法很方便的组合起来。可以分别在不同的特征方法中添加合适的特征变换,最终组合之后可以得到很好的效果。
对成绩的提高,我们可以改进对特征的变换;也可以选择更加合适的算法模型,也可以提高成绩。