离散型特征变量编码方式

在机器学习问题中,我们通过训练数据集学习得到的其实就是一组模型的参数,然后通过学习得到的参数确定模型的表示,最后用这个模型再去进行我们后续的预测分类等工作。在模型训练过程中,我们会对训练数据集进行抽象、抽取大量特征,这些特征中有离散型特征也有连续型特征,我们会对连续型特征进行离散化操作,然后再对离散的特征,进行one-hot编码或哑变量编码。这样的操作通常会使得我们模型具有较强的非线性能力。

1.什么是One_Hot?

one-hot编码是N位状态寄存器为N个状态进行编码的方式,这样的名词性解释过于的难以理解,我们只需要了解one-hot编码是将类别变量转换为机器学习算法中容易处理的一种形式!one-hot的基本思想:将离散型特征的每一种取值都看成一种状态,若你的这一特征中有N个不相同的取值,那么我们就可以将该特征抽象成N种不同的状态,one-hot编码保证了每一个取值只会使得一种状态处于“**态”,也就是说这N种状态中只有一个状态位值为1,其他状态位都是0。

1.1具体例子演示One_Hot

假设我们以学历为例,我们想要研究的类别为小学、中学、大学、硕士、博士五种类别,我们使用one-hot对其编码就会得到:
离散型特征变量编码方式

2.One_Hot处理离散特征

在使用one-hot编码中,我们可以将离散特征的取值扩展到欧式空间,在机器学习中,我们的研究范围就是在欧式空间中,首先这一步,保证了能够适用于机器学习中;而另外对于one-hot处理的离散的特征的某个取值也就对应了欧式空间的某个点!原因是,在统计机器学习算法中的回归,分类这些问题中,特征之间距离的计算或相似度计算非常重要,比如大家常用的k-means,而我们常用的这些计算都在欧式空间中进行相似度计算。换句话说,就是我上面说的研究范围在欧式空间,保证了one-hot编码的成立!

3.dummy encoding(哑编码)

哑变量编码直观的解释就是任意的将一个状态位去除。还是拿上面的例子来说,我们用4个状态位就足够反应上述5个类别的信息,也就是我们仅仅使用前四个状态位 [0,0,0,0] 就可以表达博士了。只是因为对于一个我们研究的样本,他已不是小学生、也不是中学生、也不是大学生、又不是研究生,那么我们就可以默认他是博士。所以,我们用哑变量编码可以将上述5类表示成:
  离散型特征变量编码方式

4.one-hot和哑编码的区别

通过上面的例子,我们可以看出它们的“思想路线”是相同的,只是哑变量编码觉得one-hot编码太罗嗦了(一些很明显的事实还说的这么清楚),所以它就很那么很明显的东西省去了。这种简化不能说到底好不好,这要看使用的场景。下面我们以一个例子来说明:

假设我们现在获得了一个模型![在这里插入图片描述](https://img-blog.****img.cn/20191110174010812.png LmpwZw#pic_center =230x30)
  这里自变量满足![在这里插入图片描述](https://img-blog.****img.cn/20191110174034450.png LmpwZw#pic_center =230x30)(因为特征是one-hot获得的,所有只有一个状态位为1,其他都为了0,所以它们加和总是等于1),故我们可以用![在这里插入图片描述](https://img-blog.****img.cn/20191110174303402.png LmpwZw#pic_center =230x30)表示第三个特征,将其带入模型中,得到:
  离散型特征变量编码方式
这时,我们发现
离散型特征变量编码方式
离散型特征变量编码方式
这两个参数是等价的!那么我们模型的稳定性就成了一个待解决的问题。这个问题这么解决呢?有三种方法:

(1)使用L2L_2正则化手段,将参数的选择上加一个限制,就是选择参数元素值小的那个作为最终参数,这样我们得到的参数就唯一了,模型也就稳定了。

(2)把偏置项β0\beta_0去掉,这时我们发现也可以解决同一个模型参数等价的问题。
离散型特征变量编码方式
因为有了bias项,所以和我们去掉bias项的模型是完全不同的模型,不存在参数等价的问题。

(3)再加上bias项的前提下,使用哑变量编码代替one-hot编码,这时去除了X3X_3,也就不存在之前一种特征可以用其他特征表示的问题了。

5.总结

我们使用one-hot编码时,通常我们的模型不加bias项 或者 加上bias项然后使用L2L_2正则化手段去约束参数;当我们使用哑变量编码时,通常我们的模型都会加bias项,因为不加bias项会导致固有属性的丢失