机器学习——特征工程之特征选择

一、过滤式选择

1、过滤式方法先对数据集进行特征选择,然后再训练学习器,特征选择过程与后续学习器无关

2、Relief是一种著名的过滤式特征选择方法,利用“相关统计量”来度量特征的重要性,该统计量是一个向量,其每个分量分别对应于一个初始特征,而特征子集的重要性则是由子集中每个特征对应的相关统计量分量之和来决定

3、相关统计量的属性j分量: 机器学习——特征工程之特征选择

    a) 猜中近邻:当前样本 机器学习——特征工程之特征选择 的同类样本中寻找到的最近邻样本 机器学习——特征工程之特征选择

    b) 猜错近邻:当前样本 机器学习——特征工程之特征选择 的异类样本中寻找到的最近邻样本 机器学习——特征工程之特征选择

    c) 上式表示当前样本与猜对近邻越近,与猜错近邻越远,属性j对应的统计分量就越大

4、Relif的多分类拓展变体Relief-F: 机器学习——特征工程之特征选择,其中 机器学习——特征工程之特征选择 为第l类样本在数据集D中所占的比例

5、特点

    a) 优点:算法的通用性强,算法复杂度低,适用于大规模数据集;可快速去除大量不相关的特征,适合作为特征的预筛选器

    b) 缺点:算法的评价标准独立与特定的学习算法,所选特征子集在分类准确率方面通常低于wrapper

二、包裹式选择

1、包裹式特征选择的目的是为给定的学习器选择最有利于其性能、“量身定做”的特征子集,故其评价标准为该学习期的性能

2、LVW(Las Vegas Wrapper)是一个典型的包裹式特征选择方法,它在拉斯维加斯方法框架下使用随机策略来进行子集搜索,并以最终分类器的误差为特征子集评价准则

机器学习——特征工程之特征选择

3、特点

    a) 优点:考虑了后续学习器的不同,所选特征子集在分类准确率通常比较高

    b) 缺点:计算开销较大,初试特征数很多、条件控制参数设置较大时,算法运行时间较长

三、嵌入式选择

1、嵌入式特征选择是将特征选择过程与学习器训练过程融为一体,两者在同一个优化过程中完成,即在学习器训练过程中自动地进行了特征选择

2、范数正则化是典型的嵌入式特征选择方法,能有效降低过拟合风险

3、最简单的线性回归模型的优化目标:机器学习——特征工程之特征选择

    a) 岭回归(ridge regression)引入L2范数:机器学习——特征工程之特征选择

    b) LASSO回归(Least Absolute Shrinkage and Selection Operator,最小绝对收缩选择算子):机器学习——特征工程之特征选择

    c) 当参数W过多,模型过于复杂时,学习器实际上只是保存了样本集的所有细节就如下图中曲折蜿蜒的曲线,其泛化能力较低实际较低。而优化目标中加入正则化,求解过程中不断缩小参数使其接近与0,实际就是减少模型的复杂度,平滑分类/回归超平面。

机器学习——特征工程之特征选择

4、L1范数和L2范数正则化都有助于降低过拟合风险,前者更容易获得稀疏(sparse)解

机器学习——特征工程之特征选择

    a) 原始优化目标函数为图中平方误差的等值线,加入正则化后最优解即该等值线与正则化项等值线交点

    b) 采用L1范数时,两者交点常出现在坐标轴上,故而更容易获得稀疏解