一种新的语言模型:a neural probabilistic language model

一种新的语言模型:a neural probabilistic language model

查阅资料的时候发现的一篇文章,链接总有404问题,在这存起来。
来源 dudong的个人博客
原文地址

做的方向是依存句法分析(dependency parsing)

捋捋最近读的论文:
首先是在读机器学习(具体点说,是深度学习)相关的论文,读到几篇关于神经概率语言模型(neural probabilistic language model)的文章;
语言模型与依存句法分析(dependency parsing)有很紧密的关系,希望可以把这两者结合起来!

下面是一个关于神经概率语言模型的reading list:
【1】[2003 JMLR]a neural probabilistic language model
这是神经概率语言模型的第一篇论文;

【2】[2005 AISTATS]hierarchical probabilistic neural network language model
在【1】的基础上将词汇分层得到的,优化了算法的时间复杂度;

【3】[2007 ICML]three new graphical models for statistical language modeling
作者是Geoffrey Hinton;就是他最早提出了深度学习,深度学习现在在机器学习领域特别火!从2006年开始,它标志着神经网络在机器学习界的复苏!本篇论文是作者将深度学习的部分思想应用在语言模型上的结果。

【4】[2009 NIPS]a scalable hierarchical distributed language model
作者仍是Geoffrey Hinton;在【3】的基础上将词汇分层得到,与【2】在【1】的基础上的改进工作很类似,不过【2】在【1】上的改进工作主要集中在使用了WordNet作为先验知识;而【4】在【3】上的改进工作是使用了自动的方法。

下面找出来其中最核心的一篇详细分析一下:【1】[2003 JMLR]a neural probabilistic language model

1.背景知识:
1.1 语言模型
语言模型就是根据一定的训练集按照某个算法训练出来的模型,这个模型可以(1)计算出来某个句子在该模型下出现的概率;(2)在前面若干个词给定的情况下判断下一个词出现的概率;
下边是一个例子:
P(“I love you”) = 0.003, 但是P(“I you love”)=0.00000003;说明即使在统计的意义下,符合语法规定的句子出现的概率要远远大于不符合语法规定的句子出现的概率;
P(“you” | “I love”) = 0.1,表示在前两个词是"I love"的前提下,下一个词是"you"的可能性是0.1
P(“reading” | “I love”) = 0.001,表示在前两个词是"I love"的前提下,下一个词是"reading"的可能性是0.001
这个概率表示语言模型体现了统计学的特征,而不单纯是语法学的特征!

1.2 N-gram语言模型
传统的语言模型是N-gram语言模型,即一个很重要的假设:
每一个词出现的概率仅与它前边的N个词有关。
用公示表示如下:
一种新的语言模型:a neural probabilistic language model

N-gram在实际中应用很广泛,但是它有很明显的缺点:

1)参数空间不光滑,经常需要一些平滑算法来弥补

2)对于词典中没出现的词没有办法处理

3.神经语言模型(neural language model)

一种新的语言模型:a neural probabilistic language model
一种新的语言模型:a neural probabilistic language model
一种新的语言模型:a neural probabilistic language model
一种新的语言模型:a neural probabilistic language model
一种新的语言模型:a neural probabilistic language model
(有些比较乱的复制不了请谅解)这里面的文章在谷歌里面都能搜索到可以免费下载。