《数学之美(第一版)》笔记 —— 第4章
分类:
文章
•
2024-07-21 23:13:40
第4章 谈谈中文分词
-
中文分词方法的演变:
-
查字典:遇到复合词就找最长的词匹配,遇到不认识的字串就分割成单字词。缺点:无法解决二义性问题(如,发展中国家,发展-中-国家,发展-中国-家)
-
统计语言模型

不需要穷举所有的分词方式,可以采用动态规划或者维特比算法来快速找到最佳分词。
-
关于分词的颗粒
- 颗粒度大,翻译效果最好。(例如“联想公司”,作为一个整体)
- 颗粒度小,网页搜索好。(例如“清华大学”和“清华”)