NLP学习笔记（8）

这节课的内容看得太快而且有点难，所以这里只是做一下记录，并不详细，作为一个内容的索引，事后需要自己取搜论文了解细节

这是一个想改进tree LSTM的模型
NLP学习笔记（8）

有人用基于字符的模型，也有人用基于单词的模型，还有人用两者混合模型。基于字符的模型总的来说效果没有基于单词好而且比较慢。基于字符的模型有很多理论，很多方法。有基于字母三元组的模型，有基于字符的LSTM，也有对字符进行字节编码的模型等等。基于字符还是基于单词是一个非常复杂的问题，各有利弊，基于字符总的来说会让你的算法能够更全面地考虑NLP问题，但是总的来说会比较慢而且性能不好，但是基于单词就存在很多问题比如一些没有单词间隔的语言，或者没有单词这个概念的语言（中文），或是训练中没有见过的单词，或是人名等等（有一些基于单词的方法考虑用复制的方法来解决这些问题）。
NLP学习笔记（8）

NLP学习笔记（8）

最下面是一个对字符的LSTM，当你遇到词汇表里面没有的单词时就先用这个来生成这个单词的embedding，最上面也是对字符的LSTM，当你生成一个<unk>标记时，把隐状态送进这个LSTM来产生一个单词
NLP学习笔记（8）

相关推荐