NLP之文本表示——二值文本表示

文本原始结构为非结构化的字符串，大部分的模型和算法都不能处理非结构化的数据。因此，我们需要将非结构化的数据结构化。

方法：将文本映射到特定的特征空间上，将文本表示为能够刻画其信息的特征向量，使得我们可以利用各种算法模型来处理这些文本数据。

什么样的特征能刻画文本信息呢？

将特征选为文本中出现的词，通过定义词在文本中的重要度得到文本的向量表示。
在主流的文本表示方法中，大致可以将文本表示方法分为非神经网络方法和神经网络方法。

接下来介绍一种方法——二值文本表示

二值文本表示：即使用1和0来表示文本，1表示这个词出现在文本中，0表示这个词没有出现在这个文档中。假设一共有m篇文档，其中不重复的词共有n个，那么所有文档可以表示为m*n的一个矩阵。
NLP之文本表示——二值文本表示
这里n为维度大小，可以是文本中不重复词的个数，也可以是去除停用词后的总词数。
只要是在这个词的范围内的所有类型文档都可以表示为向量，这个方法可以表示为一篇文章，一次查询，一个句子等。
如：
文档一：汤姆追杰瑞
文档二：汤姆杰瑞
文档三：杰瑞汤姆
NLP之文本表示——二值文本表示
由此可以看出二值表示的缺点：
（1）无法表示词出现的频率；
（2）无法表示词与词之间的顺序关系；
（3）无法表示词序等。

NLP之文本表示——二值文本表示

相关推荐