Maxent模型POS标签表

问题描述：

我使用nltk.pos_tag对于使用maxent part of speech tagger部分词性标注。我需要一张所有可用标签的表格。Maxent模型POS标签表

我的最终目的是从文本中提取副词和形容词。

任何帮助表示赞赏。

感谢

答

pos_tag，根据其文档字符串，使用“NLTK的演讲恶搞的目前推荐的一部分”，所以这个建议的有效性可能会失效。为了获得可重复的结果，请使用明确的POS标记对象。

望着source code for pos_tag，我们可以看到，它调用

>>> nltk.data.load('taggers/maxent_treebank_pos_tagger/english.pickle')

从中我们可以得到POS标签列表与

>>> _.classifier().labels() 
['PRP$', 'VBG', 'VBD', '``', 'VBN', 'POS', "''", 'VBP', 'WDT', 'JJ', 'WP', 'VBZ', 
'DT', '#', 'RP', '$', 'NN', 'FW', ',', '.', 'TO', 'PRP', 'RB', '-LRB-', ':', 
'NNS', 'NNP', 'VB', 'WRB', 'CC', 'LS', 'PDT', 'RBS', 'RBR', 'CD', '-NONE-', 
'EX', 'IN', 'WP$', 'MD', 'NNPS', '-RRB-', 'JJS', 'JJR', 'SYM', 'UH']

（我必须承认，我发现了这一点，使用对象检查和反复试验）。

形容词和副词至少是类别JJ（adj）和RB（ad v），加上也许VBN（过去分词，例如， “累”）。

答

尝试：

import nltk 
nltk.help.upenn_tagset() 
# and 
nltk.help.brown_tagset()

Maxent模型POS标签表

相关推荐