Semi-supervised Bootstrapping approach for Named Entity Recognition论文笔记

Semi-supervised Bootstrapping approach for Named Entity Recognition 论文笔记

  • 摘要
  • 方法
  • 结果

1.摘要

Thenmalar[101]等将半监督自举方法应用在NER中,该方法从使用少量训练数据来识别命名实体开始。使用识别的命名实体、单词和上下文特征来定义模式。每个命名实体类别的此模式用作种子模式,以标识测试集中的命名实体。他们的系统分别对英语和泰米尔语进行NER,两种语言的平均F1值为75%。

2.方法

2.1自举方法流程

Semi-supervised Bootstrapping approach for Named Entity Recognition论文笔记
Tagged document corpus:通过识别单词的特征来预处理带注释的训练集。
Seed Pattern Generation:利用单词的上下文来定义模式。识别与每类命名实体相关联的模式,并将其用作种子模式。
Matching:通过将单词的特征与模式进行匹配来处理测试数据。如果发生完全匹配,则标识命名实体类别。
scoring:对模式进行评分,以确定哪些模式可用于进一步迭代。
Masking:根据元组值得分,通过向右或向左移位每个模式的窗口来生成新模式
Genaration of new patterns:学习这些命名实体可能出现的新上下文来生成新模式。

2.2 评估

  • IEER dataset 平均P:83%,F1:92%
    Semi-supervised Bootstrapping approach for Named Entity Recognition论文笔记
  • CoNLL 2003 (英语/7小类)平均80%,召回率为89%。

Semi-supervised Bootstrapping approach for Named Entity Recognition论文笔记

  • FIRE(信息检索评估论坛)泰米尔语语料库(7小类)平均P79% ,F1值88%.
    Semi-supervised Bootstrapping approach for Named Entity Recognition论文笔记
  • 和基线系统比较
    baseline approach [34]
    Semi-supervised Bootstrapping approach for Named Entity Recognition论文笔记