离散型特征变量编码方式

1.什么是One_Hot?

1.1具体例子演示One_Hot

2.One_Hot处理离散特征
3.dummy encoding（哑编码）
4.one-hot和哑编码的区别
5.总结

在机器学习问题中，我们通过训练数据集学习得到的其实就是一组模型的参数，然后通过学习得到的参数确定模型的表示，最后用这个模型再去进行我们后续的预测分类等工作。在模型训练过程中，我们会对训练数据集进行抽象、抽取大量特征，这些特征中有离散型特征也有连续型特征，我们会对连续型特征进行离散化操作，然后再对离散的特征，进行one-hot编码或哑变量编码。这样的操作通常会使得我们模型具有较强的非线性能力。

1.什么是One_Hot?

one-hot编码是N位状态寄存器为N个状态进行编码的方式，这样的名词性解释过于的难以理解，我们只需要了解one-hot编码是将类别变量转换为机器学习算法中容易处理的一种形式！one-hot的基本思想：将离散型特征的每一种取值都看成一种状态，若你的这一特征中有N个不相同的取值，那么我们就可以将该特征抽象成N种不同的状态，one-hot编码保证了每一个取值只会使得一种状态处于“**态”，也就是说这N种状态中只有一个状态位值为1，其他状态位都是0。

1.1具体例子演示One_Hot

假设我们以学历为例，我们想要研究的类别为小学、中学、大学、硕士、博士五种类别，我们使用one-hot对其编码就会得到：
离散型特征变量编码方式

2.One_Hot处理离散特征

在使用one-hot编码中，我们可以将离散特征的取值扩展到欧式空间，在机器学习中，我们的研究范围就是在欧式空间中，首先这一步，保证了能够适用于机器学习中；而另外对于one-hot处理的离散的特征的某个取值也就对应了欧式空间的某个点！原因是，在统计机器学习算法中的回归，分类这些问题中，特征之间距离的计算或相似度计算非常重要，比如大家常用的k-means，而我们常用的这些计算都在欧式空间中进行相似度计算。换句话说，就是我上面说的研究范围在欧式空间，保证了one-hot编码的成立！

3.dummy encoding（哑编码）

哑变量编码直观的解释就是任意的将一个状态位去除。还是拿上面的例子来说，我们用4个状态位就足够反应上述5个类别的信息，也就是我们仅仅使用前四个状态位 [0,0,0,0] 就可以表达博士了。只是因为对于一个我们研究的样本，他已不是小学生、也不是中学生、也不是大学生、又不是研究生，那么我们就可以默认他是博士。所以，我们用哑变量编码可以将上述5类表示成：
　　离散型特征变量编码方式

4.one-hot和哑编码的区别

通过上面的例子，我们可以看出它们的“思想路线”是相同的，只是哑变量编码觉得one-hot编码太罗嗦了（一些很明显的事实还说的这么清楚），所以它就很那么很明显的东西省去了。这种简化不能说到底好不好，这要看使用的场景。下面我们以一个例子来说明：

假设我们现在获得了一个模型![在这里插入图片描述](https://img-blog.****img.cn/20191110174010812.png LmpwZw#pic_center =230x30)
　　这里自变量满足![在这里插入图片描述](https://img-blog.****img.cn/20191110174034450.png LmpwZw#pic_center =230x30)（因为特征是one-hot获得的，所有只有一个状态位为1，其他都为了0，所以它们加和总是等于1），故我们可以用![在这里插入图片描述](https://img-blog.****img.cn/20191110174303402.png LmpwZw#pic_center =230x30)表示第三个特征，将其带入模型中，得到：
　　离散型特征变量编码方式
这时，我们发现

这两个参数是等价的！那么我们模型的稳定性就成了一个待解决的问题。这个问题这么解决呢？有三种方法：