读书笔记《机器学习》:第十一章:特征选择与稀疏学习
11.1 子集搜索与评价
11.2 过滤式选择
11.3 包裹式选择
11.4 嵌入式选择与L1正则化
11.5 稀疏表示与字典学习
11.6 压缩感知
11.1 子集搜索与评价
特征选择(feature selection):从给定的特征集合中选择出相关特征子集的过程。是一个重要的数据预处理(data preprocessing)的过程。
相关特征(relevant feature)
无关特征(irrelevant feature)
冗余特征(redundant feature):可从其他特征推演出来,在大多时候不起作用,但有的场景可以降低学习难度。
为什么要进行特征选择?
两个原因:
1.维数过多造成维数灾难,选出重要特征,可以减轻维数灾难问题。(这一点和降维的动机是一样的)
2.只保留相关特征,去除不相关特征,可以降低学习任务的难度,减少噪音的干扰。
注意:特征选择必须确保不丢失重要特征,否则后序学习过程会因为数据缺失无法获得好的性能。
如何搜索?如何评价子集?
子集搜索:
基于贪心的策略,有前向搜索(forward search)、后向搜索(backward search)、双向搜索(bidirectional search).
子集评价:
子集评价这块需要好好琢磨一下
常见的特征选择方法大致分为三类:
过滤式(filter)
包裹式(wrapper)
嵌入式(embedded)
11.2 过滤式选择
过滤式选择:先直接对数据进行特征选择,再训练分类器。
优良中差,明码标价,设定阈值,择优录取!
常见的过滤式算法有以下几个:
- Relief算法:见我写的博客 特征选择之Relief算法
- 方差选择法
- 相关系数法
- 卡方检验
- 互信息法
11.3 包裹式选择
包裹式特征选择直接把最终将要使用的学习器的性能作为特征子集的评价标准。计算开销通常比过滤式大,但由于是直接给最终的学习器做优化,一般最终的性能优于过滤式。
LVW(Las Vegas Wrapper):一种典型的包裹式特征选择方法。在拉斯维加斯方法框架下进行子集搜索,使用交叉检验作为子集评价标准,连续T轮未更新,终止程序。
拉斯维加斯方法和蒙特卡罗方法是两种随机化方法。主要区别在于如果有时间限制,拉斯维加斯方法或者给出满足条件的解,或者不给出解。而蒙特卡罗方法一定会给出解,但未必满足要求。如果没有时间限制,均能给出满足条件的解。
11.4 嵌入式选择与L1正则化
嵌入式选择指的是将特征选择过程和学习器训练过程融为一体,二者在同一个优化过程中完成,即在学习器自动训练的过程中自动完成了特征选择。
L0范数用来度量向量中非0元素的个数。
这张图可以帮助我们很好的理解为什么L1正则化比L2正则化更容易得到稀疏解?
此图以简单的线性回归为例,假设只有两个特征。
Ridge Regression :岭回归
LASSO(Least Absolute Shrinkage and Selection Operator):最小绝对收缩选择因子
平方误差项等值线和范数等值线相交的地方就是最优解。显然L1正则化的相交点有更大概率落在坐标轴上,也就是稀疏解。
L1正则化的问题可以使用近端梯度下降(Proximal Gradient Descent, PGD)求解。