Semi-supervised Bootstrapping approach for Named Entity Recognition论文笔记
Semi-supervised Bootstrapping approach for Named Entity Recognition 论文笔记
- 摘要
- 方法
- 结果
1.摘要
Thenmalar[101]等将半监督自举方法应用在NER中,该方法从使用少量训练数据来识别命名实体开始。使用识别的命名实体、单词和上下文特征来定义模式。每个命名实体类别的此模式用作种子模式,以标识测试集中的命名实体。他们的系统分别对英语和泰米尔语进行NER,两种语言的平均F1值为75%。
2.方法
2.1自举方法流程
Tagged document corpus:通过识别单词的特征来预处理带注释的训练集。
Seed Pattern Generation:利用单词的上下文来定义模式。识别与每类命名实体相关联的模式,并将其用作种子模式。
Matching:通过将单词的特征与模式进行匹配来处理测试数据。如果发生完全匹配,则标识命名实体类别。
scoring:对模式进行评分,以确定哪些模式可用于进一步迭代。
Masking:根据元组值得分,通过向右或向左移位每个模式的窗口来生成新模式
Genaration of new patterns:学习这些命名实体可能出现的新上下文来生成新模式。
2.2 评估
- IEER dataset 平均P:83%,F1:92%
- CoNLL 2003 (英语/7小类)平均80%,召回率为89%。
- FIRE(信息检索评估论坛)泰米尔语语料库(7小类)平均P79% ,F1值88%.
- 和基线系统比较
baseline approach [34]