中文词性标注学习笔记(三)---词性标注
词性标注
词性标注(part-of-speech tagging),又称为词类标注或者简称标注,是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或者其他词性的过程。
词性标注的原因
词性标注是很多NLP任务的预处理步骤,如句法分析,经过词性标注后的文本会带来很大的便利性,但也不是不可或缺的步骤。
标注方法
词性标注这里基本可以照搬分词的工作,在汉语中,大多数词语只有一个词性,或者出现频次最高的词性远远高于第二位的词性。据说单纯选取最高频词性,就能实现80%准确率的中文词性标注程序。
主要可以分为基于规则和基于统计的方法,下面列举几种统计方法:
(1)基于最大熵的词性标注
(2)基于统计最大概率输出词性
(3)基于HMM的词性标注
词性标注的应用
(1)句法分析预处理
(2)词汇获取预处理
(3)信息抽取预处理
汉语词性对照表
学习心得
中文词性标注的关键在于先学会分词,然后要去理解语句中词的词性,并且要熟记每种词性对应的代码,然后进行标注。
这是一个熟能生巧的过程!
相关学习链接
https://blog.****.net/sinat_33741547/article/details/78894163
https://www.biaodianfu.com/pos-tagging-set.html
http://ssvideo.superlib.com/cxvideo/play/page?sid=1586&vid=28440&d=77edee6d216507e5ece667cef95799ea&cid=236