机器学习世界的“特征”
特征——算法眼中的世界
——摘自“机器学习系统设计”一书
1. 特征的类型
特征有三种不同的类型:定量特征、有序特征和分类特征。还可以认为有第四种特征类型,即布尔类型。按信息量由高到低排序依次为:定量特征、有序特征、分类特征和布尔型特征。
2. 运算和统计
特征可以由其可行运算来定义,我们可以将特征的可行计算范围称为特征的统计。这些统计描述了数据的三个不同的方面——集中趋势、离差和形态
2.1 集中趋势
可以使用一下统计中的一个或多个:平均数(均值)、中位数、分位数和众数。众数是唯一可以用于所有数据类型的统计。分位数可以用于有序特征和定量特征。均值智能用于定量特征。
2.2 离差
离差最常见的计算方法是使用方差和标准差来统计,对于度量离差更为简单的统计是极差,即最大值和最小值之间的差。还可以使用第p百分位数来度量小于或高于特定值得实例比例。
2.3 形态
形态统计采用样本中心矩的进行计算。
偏度公式:
峰度公式:
3. 结构化特征
结构化特征可以创建于建模之前,或是作为模型的一部分。对于第一种情况,这一过程可以理解为是从一阶逻辑翻译为命题逻辑的过程。这种方法所存在的问题是,作为已有特征的组合,可能会导致潜在特征数量的激增。另一个重点是结构化特征之间可能存在特征覆盖的逻辑关系。机器学习的一个分支运用了这一方法,特别适用于自然语言处理,称之为归纳逻辑程序设计。
4. 特征变换
变换特征是为了使其变得对模型更为可用,变换可以是对特征所表示的信息进行增加、减少或改变。常见的特征变换是对特征类型的改变。其典型例子就是二值化。另一个例子是将有序特征变为分类特征。
4.1 离散化
有许多方法可以用于发现连续数据的合理分裂,其中包括有监督方法和无监督方法。
4.1.1 无监督离散化
不考虑类别信息(已知X的值而未知Y的值)。分箱(binning/split bin)方法如:等宽、等频、聚类。
(1)等宽/等距:将数值属性的值域[ , ]等分为K个区间,即 (Xmax - X min) / K。前提:数值大概服从均匀分布。
(2)等频/等深/分位数(equi-depth):和等宽类似,但它不是要求每个区间宽度一样,而是要求落在每个区间的对象数目相等。即共有M个点,每个区域含有M / K 个点。
分箱后再作数据平滑处理(smoothing)。
4.1.2 监督离散化
考虑类别信息(已知X 的值和Y 的值)。检验方法如:卡方检验(ChiMerge 慢、Chi-square、Chi2、CAIM、CACC、ameva),信息增益,基尼指数,最短描述长度原则(MDLP,基于熵),WoE等。
(1)最优准则:基于“树结构准则”查找最佳分组 (条件推理树Conditional Inference Trees, initially excludes missing values(NA) to compute the cutpoints, adding them back later in the process for thecalculation of the Information Value)。准则:
(a)熵;
(b)目标和分支节点使用Pearson卡方统计量的p值;
(2)单调事件率MonotonicEvent Rate:要求各组的单调事件率呈单调。
(3)约束最优ConstrainedOptimal Binning:基于预定义的约束创建分组。
4.1.3 人工定区间,按照需要而定。
4.2 归一化
求阈值和离散化都会去掉定量特征的尺度,我们可能期望对有序或分类特征增加度量的尺度。在无监督环境中,我们称之为“归一化”(normalization)。
常见的方法有:
(1)min-max标准化(Min-max normalization) (或线性函数归一化)
这种归一化方法比较适用在数值比较集中的情况。但是,如果max和min不稳定,很容易使得归一化结果不稳定,使得后续使用效果也不稳定,实际使用中可以用经验常量值来替代max和min。而且当有新数据加入时,可能导致max和min的变化,需要重新定义。
在不涉及距离度量、协方差计算、数据不符合正态分布的时候,可以使用这种方法或其他归一化方法。比如图像处理中,将RGB图像转换为灰度图像后将其值限定在[0 255]的范围。
(2)0-1标准化(0-1 normalization)(或z-score规范化)
在分类、聚类算法中,需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候,这种方法表现更好。
(3)非线性归一化
经常用在数据分化比较大的场景,有些数值很大,有些很小。通过一些数学函数,将原始值进行映射。该方法包括 log、指数,正切等。需要根据数据分布的情况,决定非线性函数的曲线,比如log(V, 2)还是log(V, 10)等。
4.3 特征校准(calibration)
对有序特征或分类特征增加尺度信息称为特征校准。这是一种有很多重要应用的有监督特征变换
5. 主成分分析
主成分分析(PCA)是可应用于特征的最为常见的降维形式