5-06特征变换
顾名思义就是根据选好的特征进行转换,使特征充分发挥他的特点
**下面介绍比较常用的特征变换的方法(对指化)**1、(数值太小)取指数—归一化,在机器学习中,有一个直接的函数叫softmax numpy.exp
2、取对数(数值太大)numpy.log
下面介绍另一种方法离散化
为什么离散化(第一数据有噪声,第二朴素贝叶斯只能用离散化数据,第三数据有明显拐角点,离散更有意义,见下图)
方法(前两种叫做分箱)
数据在分箱前,一定要进行排序,分好后找一个好的数来代替这个箱子里的内容,下面是等深分箱(个数),还有一种等宽分箱没画(根据数的大小)下面介绍另外一种方法归一化(标准化的一种)
狭义的标准化就是将数据缩放成均值为0,标准差为1(体现这个数据与其他数据的相对关系)
第一个1没有第二个1明显(相当于把你放在安静和吵闹的环境中两种差别)