如何使用PoS标签作为Naive Bayes分类器训练数据的特征?
问题描述:
我正在研究如何从文档中提取关键短语作为我的论文。如何使用PoS标签作为Naive Bayes分类器训练数据的特征?
在我的研究中,我使用朴素贝叶斯分类器机器学习来创建候选术语特征的训练模型。其中一个特性是PoS标签,我认为这个特性对于指定一个术语是否是keyphrase非常重要。
但是输入朴素贝叶斯(NB)分类器是数字和PoS标记是一个字符串。
所以我不知道将PoS标签特征表示为数字以便成为NB分类器的输入特征的方式。
请帮我给你的建议。
感谢和问候, HIEN苏
答
你可以把POS标记为一个字。然后,您可以使用POS单元,双字母键或三字母键作为功能。
例子:
他们/ PRP拒绝/ VBP到/ TO允许/ VB我们/ PRB来/ TO获得/ VB中/ DT拒绝/ NN许可证/ NN。
如果您将POS trigrams作为功能。您可以构建具有以下功能的矢量。
Feature Value
(PRP,VBP,TO) 1
(VBP,TO,VB) 1
(TO,VB,PRB) 1
等等。
您还可以使用POS功能的tf-idf值。
非常感谢。 – user1266236