贪心学院—自然语言处理—分词原理
前向最大匹配(forward-max matching)
根据自定义的max_length来对文本进行分词及判断。从前开始匹配。
后向最大匹配(backward-max matching)
从后开始匹配。
缺点:
未考虑语义信息
效率基于max_length
维特比算法(viterbi algorithm)
百度百科解释。考虑语义,将分词与求概率进行结合。
个人整理笔记,方便复习,若侵权,请联系。
附贪心学院课程链接: https://www.greedyai.com/courseinfor/105