几种NER模型
1. BiLSTM-CRF
1.1 模型
对于一个中文句子,这个句子中的每个字符都有一个属于集合{O,B-PER,I-PER,B-LOC,I-LOC,B-ORG,I-ORG}的标记。
第一层,look-up layer,旨在将每个字符表示从一个one-hot向量转换为character embedding字符嵌入。在这段代码中,随机初始化嵌入矩阵,我知道它看起来太简单了。我们以后可以增加一些语言知识。例如,进行标记化tokenization 并使用pre-trained word-level embedding 字级嵌入,然后可以使用此标记的字嵌入初始化一个标记中的每个字符。此外,我们还可以通过结合低层特征来实现字符的嵌入(详见论文[2]第4.1节和论文[3]第3.3节)。
第二层,BiLSTM层,可以有效地利用过去和将来的输入信息,自动提取特征。
第三层,CRF层,在一个句子中为每个字符标记标签。如果我们使用Softmax层进行标记,我们可能会得到非随机标记序列,因为Softmax层独立地标记每个位置。我们知道“I-LOC”不能跟在“B-PER”后面,但Softmax不知道。与Softmax相比,CRF层可以利用句子级的标签信息,对两个不同标签的转换行为进行建模。
1.2 语料
将自己语料转换为以上格式,并生成一个词汇表文件。
2. BERT-BiLSTM-CRF
3. IDCNN/BiLSTM-CRF