categorical and ordinal feature
categorical and ordinal feature
比如泰坦尼克号的Pclass 代表乘客乘坐的是几等仓
1,2,3是有顺序的,代表越贵的仓
而且注意:1和2之间的差距,与 2和3之间的差距 并不相同
顺序有意义的 categorial feature就是 ordinal feature
--------------------------------------------------------------------------------------------------------------------
可以看到,没有进行one hot之前,线性模型表现不好,而tree model能很好的分类。
---------------------------------------------------------------------------------------------
pandas factorize 对categorical feature进行编码
排序前为S C Q
排序后为C Q S
-------------------------------------------------------------------------------------------
下面是完全计算出频率作为特征:
这种特征对 树模型和线性模型都有帮助,因为频率和target很可能相关
---------------------------------------------------------------------------------------------------------------------------------
pandas.get_dummies
sklearn.preprocessing.OneHotEncoder
one hot编码对线性模型有帮助
但是如果categorical feature有很多种取值,树模型由于特征太多将会很慢。而且此时必须使用sparse matrix
-----------------------------------------------------------------------------------------------------------------
特征组合:
特征组合可以提升线性模型的性能。不过注意,neural network本来就可以进行各种组合,所以不用再做。