NLP之文本表示——二值文本表示

文本原始结构为非结构化的字符串,大部分的模型和算法都不能处理非结构化的数据。因此,我们需要将非结构化的数据结构化。

方法:将文本映射到特定的特征空间上,将文本表示为能够刻画其信息的特征向量,使得我们可以利用各种算法模型来处理这些文本数据。

什么样的特征能刻画文本信息呢?

将特征选为文本中出现的词,通过定义词在文本中的重要度得到文本的向量表示。
在主流的文本表示方法中,大致可以将文本表示方法分为非神经网络方法和神经网络方法。

接下来介绍一种方法——二值文本表示

二值文本表示:即使用1和0来表示文本,1表示这个词出现在文本中,0表示这个词没有出现在这个文档中。假设一共有m篇文档,其中不重复的词共有n个,那么所有文档可以表示为m*n的一个矩阵。
NLP之文本表示——二值文本表示
这里n为维度大小,可以是文本中不重复词的个数,也可以是去除停用词后的总词数。
只要是在这个词的范围内的所有类型文档都可以表示为向量,这个方法可以表示为一篇文章,一次查询,一个句子等。
如:
文档一:汤姆追杰瑞
文档二:汤姆杰瑞
文档三:杰瑞汤姆
NLP之文本表示——二值文本表示
由此可以看出二值表示的缺点:
(1)无法表示词出现的频率;
(2)无法表示词与词之间的顺序关系;
(3)无法表示词序等。