为什么要进行特征归一化/标准化?
- Make sure features are on a similar scale
- 数据归一化后,最优解的寻优过程明显会变得平缓,更容易正确的收敛到最优解。
什么时候需要feature scaling?
- 涉及或隐含距离计算的算法,比如K-means、KNN、PCA、SVM等,一般需要feature scaling,
- 损失函数中含有正则项时,一般需要feature scaling
- 梯度下降算法,需要feature scaling
什么时候不需要Feature Scaling?
- 与距离计算无关的概率模型,不需要feature scaling,比如Naive Bayes;
- 与距离计算无关的基于树的模型,不需要feature
scaling,比如决策树、随机森林等,树中节点的选择只关注当前特征在哪里切分对分类更好,即只在意特征内部的相对大小,而与特征间的相对大小无关。