自然语言处理——n元元组

假设：一个文档的分词 $w_1$ , $w_2$ , $w_3$ ,…, $w_n$ .

unigram（一元元组）：

句子中每个分词都是独立的.将每个分词的概率直接相乘即可.
$p\left( w \right) =p\left( w_1 \right) *p\left( w_2 \right) *p\left( w_3 \right) ...*p\left( w_n \right)$

$\ \ \ \ \ =\prod_{i=1}^n{p\left( w_i \right)}$

bigram（二元元组）：

基于 markov assumption ，考虑句子中前一个分词出现情况下的概率.
$p\left( w \right) =p\left( w_1 \right) *p\left( w_2|w_1 \right) *p\left( w_3|w_2 \right) ...*p\left( w_n|w_{n-1} \right)$

$\ \ \ \ \ =p\left( w_1 \right) *\prod_{i=2}^n{p\left( w_i|w_{i-1} \right)}$

trigram（三元元组）：

基于 markov assumption ，考虑句子中前两个分词出现情况下的概率.
$p\left( w \right) =p\left( w_1 \right) *p\left( w_2|w_1 \right) *p\left( w_3|w_2w_1 \right) ...*p\left( w_n|w_{n-1}w_{n-2} \right)$

$\ \ \ \ \ =p\left( w_1 \right) *p\left( w_2|w_1 \right) *\prod_{i=3}^n{p\left( w_i|w_{i-1}w_{i-2} \right)}$
自然语言处理——n元元组

自然语言处理——n元元组

相关推荐