Semi-supervised Bootstrapping approach for Named Entity Recognition论文笔记

Semi-supervised Bootstrapping approach for Named Entity Recognition 论文笔记

摘要
方法
结果

1.摘要

Thenmalar[101]等将半监督自举方法应用在NER中，该方法从使用少量训练数据来识别命名实体开始。使用识别的命名实体、单词和上下文特征来定义模式。每个命名实体类别的此模式用作种子模式，以标识测试集中的命名实体。他们的系统分别对英语和泰米尔语进行NER，两种语言的平均F1值为75%。

2.方法

2.1自举方法流程

Semi-supervised Bootstrapping approach for Named Entity Recognition论文笔记
Tagged document corpus:通过识别单词的特征来预处理带注释的训练集。
Seed Pattern Generation:利用单词的上下文来定义模式。识别与每类命名实体相关联的模式，并将其用作种子模式。
Matching:通过将单词的特征与模式进行匹配来处理测试数据。如果发生完全匹配，则标识命名实体类别。
scoring:对模式进行评分，以确定哪些模式可用于进一步迭代。
Masking:根据元组值得分，通过向右或向左移位每个模式的窗口来生成新模式
Genaration of new patterns:学习这些命名实体可能出现的新上下文来生成新模式。

2.2 评估

IEER dataset 平均P：83%，F1：92%
CoNLL 2003 （英语/7小类）平均80%，召回率为89%。

Semi-supervised Bootstrapping approach for Named Entity Recognition论文笔记

FIRE(信息检索评估论坛)泰米尔语语料库（7小类）平均P79% ，F1值88%.
和基线系统比较
baseline approach [34]

Semi-supervised Bootstrapping approach for Named Entity Recognition论文笔记