Chinese NER Using Lattice LSTM 论文解读
Chinese NER Using Lattice LSTM 论文解读
2020.3.19日,本人觉得学习的一些东西后,写点东西可以帮助我进行记忆,同时也为了后续复习使 用,以后每周至少分享一篇论文。
背景
传统的lstm网络可以用来实现ner,论文同时指出基于字(charactor)好于基于词(word)的词向量。但是词向量可以充分考虑上下文之间的关系,也就是说字的lstm+crf模型有一个局限,即没有充分利用word和word的序列信息,如何充分利用这些信息,是这篇paper的核心。
预备知识
1.lstm网络
数学表示:
参考:[lhttps://blog.****.net/m0epNwstYk4/article/details/79124800?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task]
rnn因为自身结构,当时间序列越来越长会出现梯度爆照和梯度消失问题。lstm提出了一个长期状态变量c去控制时间序列,通过c和控制c的开关去连接输入、输出和上一轮的输入,帮助解决梯度消失问题
模型
1.结构
2.数学表达
整个实现相对传统的lstm,其实是多加了一种长期状态c,而这个c来自于当前字和在字典中开始字的信息,当然也和上一层的隐层有关系,然后就构造了一个类似之前c的一个新形式,这就是式13,没有输出门,因为这里不会影响到输出,只和输入有关。然后将新加的c想办法灌入到原始的c中,新加的c应该和原始的c形式类似,这就形成了式15,但是又少了遗忘门的信息,这是为什么呢?
3.实现
todo
4.疑问
公式15相对一般的cell计算方式少了遗忘门和c-1状态乘?也就是丢失了遗忘门对c的影响?
计算词汇信息时用到了主干 Cell State,因此计算当前字符的 Cell State 时通过门控单元来取舍词汇信息的过程,其实就是在对主干 Cell State 进行取舍,相当于隐含了一个遗忘门。
举例
回到例子就是在计算 桥时候 大桥、长江大桥的c已经运用过cell(大)和cell(长)的状态了,公式13 c的计算已经用过cb的遗忘门信息,再用冗余了。
总结
结合lstm,加入字典信息,让网络不但考虑字信息,还考虑词信息,在bert之前效果是杠杠的。