数据清洗和转换
数据清洗和转换
实际生产环境中机器学习比较耗时的一部分
大部分的机器学习模型所处理的都是特征,特征通常是输入变量所对应的可用于模型的 数值表示
大部分情况下 ,收集得到的数据需要经过预处理后才能够为算法所使用,预处理的操作 主要包括以下几个部分:
- 数据过滤
- 处理数据缺失
- 处理可能的异常、错误或者异常值
- 合并多个数据源数据
- 数据汇总
对数据进行初步的预处理,需要将其转换为一种适合机器学习模型的表示形式, 对许多模型类型来说,这种表示就是包含数值数据的向量或者矩阵
-
将类别数据编码成为对应的数值表示(一般使用1-of-k方法)-dummy variable
-
从文本数据中提取有用的数据(一般使用词袋法或者TF-IDF)
-
处理图像或者音频数据(像素、声波、音频、振幅等<傅里叶变换>)
-
数值数据转换为类别数据以减少变量的值,比如年龄分段
-
对数值数据进行转换,比如对数转换
-
对特征进行归一化、标准化,以保证同一模型的不同输入变量的值域相同
-
对现有变量进行组合或转换以生成新特征,比如平均数 (做虚拟变量)不断尝试
类型特征转换之1-of-k(哑编码)
功能: 将非数值型的特征值(类别类型的)转换为数值型的数据
描述: 假设变量的取值有 k 个,如果对这些值用 1 到 k 编序,则可用维度为 k 的向量来表示一个变量的值。在这样的向量里,该取值所对应的序号所在的元素 为1,其他元素均为0.