Chinese NER Using Lattice LSTM 论文解读

Chinese NER Using Lattice LSTM 论文解读

2020.3.19日,本人觉得学习的一些东西后,写点东西可以帮助我进行记忆,同时也为了后续复习使 用,以后每周至少分享一篇论文。

背景

传统的lstm网络可以用来实现ner,论文同时指出基于字(charactor)好于基于词(word)的词向量。但是词向量可以充分考虑上下文之间的关系,也就是说字的lstm+crf模型有一个局限,即没有充分利用word和word的序列信息,如何充分利用这些信息,是这篇paper的核心

预备知识

1.lstm网络
Chinese NER Using Lattice LSTM 论文解读

数学表示:
Chinese NER Using Lattice LSTM 论文解读
参考:[lhttps://blog.csdn.net/m0epNwstYk4/article/details/79124800?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task]

rnn因为自身结构,当时间序列越来越长会出现梯度爆照和梯度消失问题。lstm提出了一个长期状态变量c去控制时间序列,通过c和控制c的开关去连接输入、输出和上一轮的输入,帮助解决梯度消失问题

模型

1.结构
Chinese NER Using Lattice LSTM 论文解读
2.数学表达
Chinese NER Using Lattice LSTM 论文解读
Chinese NER Using Lattice LSTM 论文解读
Chinese NER Using Lattice LSTM 论文解读
Chinese NER Using Lattice LSTM 论文解读
Chinese NER Using Lattice LSTM 论文解读Chinese NER Using Lattice LSTM 论文解读
整个实现相对传统的lstm,其实是多加了一种长期状态c,而这个c来自于当前字和在字典中开始字的信息,当然也和上一层的隐层有关系,然后就构造了一个类似之前c的一个新形式,这就是式13,没有输出门,因为这里不会影响到输出,只和输入有关。然后将新加的c想办法灌入到原始的c中,新加的c应该和原始的c形式类似,这就形成了式15,但是又少了遗忘门的信息,这是为什么呢?
3.实现
todo

4.疑问
公式15相对一般的cell计算方式少了遗忘门和c-1状态乘?也就是丢失了遗忘门对c的影响?
计算词汇信息时用到了主干 Cell State,因此计算当前字符的 Cell State 时通过门控单元来取舍词汇信息的过程,其实就是在对主干 Cell State 进行取舍,相当于隐含了一个遗忘门。

举例
Chinese NER Using Lattice LSTM 论文解读
回到例子就是在计算 桥时候 大桥、长江大桥的c已经运用过cell(大)和cell(长)的状态了,公式13 c的计算已经用过cb的遗忘门信息,再用冗余了。

总结

结合lstm,加入字典信息,让网络不但考虑字信息,还考虑词信息,在bert之前效果是杠杠的。