NLP入门学习路线 word2vec 原理分析
NLP入门学习路线和word2vec
NLP和ML相关资料
ML
Awesome NLP
Word2vec blog
ML+Learning
图解word2vec
NLP
NLP主要研究方向
NLP流程
NLP学习
看了nlp的一般任务的流程,决定从embedding入手好好学习。
embedding
万物皆可embedding。已经忘记了是谁说的了,肯定有人说过。
为什么embedding,最终的目的是为了形成能够让计算机理解的形式。
那么one hot 也可以做到,为什么不用?
1.one hot确实是计算机可以理解的形式,但会引入维度灾难
2.one hot没法代表两个词之间的关系,比如like 和love应该是意思相近的词(中国人的视角),但是如果用one hot就没法度量了。
所以embedding的目的主要有以上两个。
word embedding
一下主要说明word2vec的原理,不涉及实现,主要在skipgram 以及负采样,且窗口大小均取为2。
word2vec
skipgram
用中心词去预测左边2【窗口大小】个词和右边两个词。
但是为了提高速度,参考上面最后一个链接,修改了一下模型,如下所示
输入数据就要重新构造,变化如下:
此时样本target都是1,模型肯定是学不出来东西的,所以需要负采样,即将非窗口内的word作为负样本统计出来
具体做法需要再深入研究。
里面涉及的参数
embedding_size 一般1e1-1e2量级
窗口大小 一般2-15
负样本数量 一般5足够
等