四、数据预处理——处理连续型特征：二值化与分段

点击标题即可获取文章相关的源代码文件哟！

- sklearn.preprocessing.Binarizer
根据阈值将数据二值化（将特征值设置为0或1），用于处理连续型变量。大于阈值的值映射为1，而小于或等于阈值的值映射为0。默认阈值为0时，特征中所有的正值都映射到1。二值化是对文本计数数据的常见操作，分析人员可以决定仅考虑某种现象的存在与否。它还可以用作考虑布尔随机变量的估计器的预处理步骤（例如，使用贝叶斯设置中的伯努利分布建模）。
四、数据预处理——处理连续型特征：二值化与分段

preprocessing.KBinsDiscretizer
这是将连续型变量划分为分类变量的类，能够将连续型变量排序后按顺序分箱后编码。总共包含三个重要参数：

四、数据预处理——处理连续型特征：二值化与分段

四、数据预处理——处理连续型特征：二值化与分段

相关推荐