NLP学习笔记(8)

这节课的内容看得太快而且有点难,所以这里只是做一下记录,并不详细,作为一个内容的索引,事后需要自己取搜论文了解细节

这是一个想改进tree LSTM的模型
NLP学习笔记(8)

有人用基于字符的模型,也有人用基于单词的模型,还有人用两者混合模型。基于字符的模型总的来说效果没有基于单词好而且比较慢。基于字符的模型有很多理论,很多方法。有基于字母三元组的模型,有基于字符的LSTM,也有对字符进行字节编码的模型等等。基于字符还是基于单词是一个非常复杂的问题,各有利弊,基于字符总的来说会让你的算法能够更全面地考虑NLP问题,但是总的来说会比较慢而且性能不好,但是基于单词就存在很多问题比如一些没有单词间隔的语言,或者没有单词这个概念的语言(中文),或是训练中没有见过的单词,或是人名等等(有一些基于单词的方法考虑用复制的方法来解决这些问题)。
NLP学习笔记(8)

NLP学习笔记(8)
NLP学习笔记(8)
NLP学习笔记(8)

最下面是一个对字符的LSTM,当你遇到词汇表里面没有的单词时就先用这个来生成这个单词的embedding,最上面也是对字符的LSTM,当你生成一个<unk>标记时,把隐状态送进这个LSTM来产生一个单词
NLP学习笔记(8)