自然语言处理学习 nltk----分词

1. nltk.word_tokenize ( text ) : 直接的分词，比如：“ isn't ” 被分割为 " is " 和 “ n't ”

自然语言处理学习 nltk----分词

2. WordPunctTokenizer ( ) : 单词标点分割，比如：“ isn't ”被分割为" isn ", " ' " 和 " t "

注意WordPunctTokenizer ( )的用法。

自然语言处理学习 nltk----分词

3. TreebankWordTokenizer ( 宾夕法尼亚州立大学 Treebank 单词分割器）：比如：" isn't "被分割为" is " 和 " n't "

自然语言处理学习 nltk----分词

4. WhitespaceTokenizer() : 空格符号分割，就是split(' ')最简单的一个整体，没有被分割

自然语言处理学习 nltk----分词

5. PunktWordTokenizer() :

这个有问题，emmmm，还没解决，先留个坑吧

自然语言处理学习 nltk----分词