论文阅读《Named Entity Recognition using an HMM-based Chunk Tagger》

Motivation：

命名实体识别（NER）是识别文本中基于特定意义的实体，例如人名、地名、机构名等。因为命名实体是信息抽取的关键步骤，而目前大多数的方法都是人为构造特征例如构造正则表达式。这种基于规则的NER方法只能用于某一种特定语言，其鲁棒性和迁移性较差。因此本文提出一种基于HMM的机器学习方法实现命名实体识别。

核心思想：

隐马尔可夫模型经常用于标注问题，这时状态对应着标记，标注问题是给定观测的序列预测其对应的标记序列。NER对应的数学公式表达为：

论文阅读《Named Entity Recognition using an HMM-based Chunk Tagger》 （1）

其中论文阅读《Named Entity Recognition using an HMM-based Chunk Tagger》，是标记序列，也就是我们最终想获得的输出；，是观测序列即输入。为了简化计算，假设每个标记之间是独立的，所以第二项可化为：

论文阅读《Named Entity Recognition using an HMM-based Chunk Tagger》 （2）

将（2）带入（1）得最终要最大化的目标表达式：

论文阅读《Named Entity Recognition using an HMM-based Chunk Tagger》 （3）

具体步骤:

1、训练：根据训练数据，使用back-off model训练一个HMM模型。输入：每个单词及其特征论文阅读《Named Entity Recognition using an HMM-based Chunk Tagger》，例如g1=<MonthDATE, july>。输出：边界标签，实体类别和单词特征，例如t1=<0, DATE, MonthDATE >。训练之后，得到隐马尔可夫模型