如何使用PoS标签作为Naive Bayes分类器训练数据的特征?

问题描述:

我正在研究如何从文档中提取关键短语作为我的论文。如何使用PoS标签作为Naive Bayes分类器训练数据的特征?

在我的研究中,我使用朴素贝叶斯分类器机器学习来创建候选术语特征的训练模型。其中一个特性是PoS标签,我认为这个特性对于指定一个术语是否是keyphrase非常重要。

但是输入朴素贝叶斯(NB)分类器是数字和PoS标记是一个字符串。

所以我不知道将PoS标签特征表示为数字以便成为NB分类器的输入特征的方式。

请帮我给你的建议。

感谢和问候, HIEN苏

你可以把POS标记为一个字。然后,您可以使用POS单元,双字母键或三字母键作为功能。

例子:

他们/ PRP拒绝/ VBP到/ TO允许/ VB我们/ PRB来/ TO获得/ VB中/ DT拒绝/ NN许可证/ NN。

如果您将POS trigrams作为功能。您可以构建具有以下功能的矢量。

Feature   Value 
(PRP,VBP,TO)  1 
(VBP,TO,VB)  1 
(TO,VB,PRB)  1 

等等。

您还可以使用POS功能的tf-idf值。

+0

非常感谢。 – user1266236