论文阅读:Incorporating dictionaries into deep neural networks for the Chinese clinical NER

摘要

融合了字典到深度神经网络中,解决了一些稀有实体不能被识别的问题。

一、简介

对每个中文字符,基于字典和上下文设计了5种不同的Schemes来创建特征向量。
介绍了两种结构融合特征向量和字的Embedding向量

二、相关工作

现有工作可分为四类:(1)基于规则的。(2) 基于字典的。(3) 基于统计机器学习的。(4) 基于深度学习的

三、模型

  • Embedding层
  • Bi_LSTM层
  • CRF层

四、融合词典信息

N-Gram Feature

前后截取共8个截取段,每一个截取段用0/1标示是哪一类实体,故一个字有8*5=40的向量表示。
论文阅读:Incorporating dictionaries into deep neural networks for the Chinese clinical NER
论文阅读:Incorporating dictionaries into deep neural networks for the Chinese clinical NER

PIPE

先根据词典用BDMM切词,然后给每一个字一个标签,表示其属于哪一类实体。比如一共有5类实体,那么对每个字,都有一个0/1/2/3/4/5的特征。

PDET

在PIPE的基础上,考虑了字在实体中的位置。

五、融合结构

这里把提取后的特征进行embedding较好

  • 直接拼接
    论文阅读:Incorporating dictionaries into deep neural networks for the Chinese clinical NER
  • 独立加工
    论文阅读:Incorporating dictionaries into deep neural networks for the Chinese clinical NER

六、实验结果

论文阅读:Incorporating dictionaries into deep neural networks for the Chinese clinical NER
论文阅读:Incorporating dictionaries into deep neural networks for the Chinese clinical NER