您的位置: 首页 > 文章 > 经典的文本数据预处理流程（转）

经典的文本数据预处理流程（转）

分类: 文章 • 2023-12-23 17:32:15

经典的文本数据预处理流程（转）

首先对文本进行分词，因为可以直接用NLTK的分词器，中文的可以用结巴分词
在英文中，往往还需要对单词进行词干提取和词形归一化。在词形归一的过程中如果结合POS Tag可以更好的进行词形归一。
去除停用词，得到最终的词列表

本文转自：https://blog.****.net/yc1203968305/article/details/79062182