1.句子的先验概率

nlp5-n-gram/语言模型(数据平滑方法

1.1 n-gram

这种情况下的语言模型称为 n 元文法(n-gram)模型
- 当 n=1 时，即出现在第 i 位上的基元 wi 独立于历史。一元文法也被写为 uni-gram 或 monogram；
- 当 n=2 时, 2-gram (bi-gram) 被称为1阶马尔可夫链；—效果比1好一点
- 当 n=3 时, 3-gram(tri-gram)被称为2阶马尔可夫链，
- 依次类推。
为了保证条件概率在 i=1 时有意义，同时为了保证句子内所有字符串的概率和为 1，即，可以在句子首尾两端增加两个标志: w1 w2 … wm 。不失一般性，对于n>2 的 n-gram，p(s) 可以分解为：
eg
拼音转文字
样本空间
- $1-N,2-N^2$
- 对汉语来说4-gram可能好一点
汉语分词问题
- 给定汉字串：他是研究生物的。
- 可能的汉字串：
  - 1. 他|是|研究生|物|的
  - 1. 他|是|研究|生物|的
- 2元文法：
  - p(Seg1) =p(他|)×p(是|他)×p(研究生|是)× p(物|研究生)×p(的|物)×p(的|)
  - p(Seg2) = p(他|)×p(是|他)×p(研究|是)× p(生物|研究)×p(的|生物)× p(的|)