sklearn.feature_extraction.text.TfidfVectorizer函数解析

1. TfidfVectorizer

这个函数的输入是分词后的列表,输出是tfidf的矩阵。

其实这个函数是以下CountVectorizer和TfidfTransformer的组合:

vectorizer = CountVectorizer(min_df=1e-5) # drop df < 1e-5,去低频词
X = vectorizer.fit_transform(corpus_set)
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(X)

 

2. TfidfVectorizer.build_tokenizer()

TfidfVectorizer中的这个函数可以返回token。

token和原始输入略有区别,如下图所示,token里没有了标点符号,以及一些单个的字。

sklearn.feature_extraction.text.TfidfVectorizer函数解析

这是 因为里边内置了一个参数:token_pattern,默认会只选择2个及以上的字母或者数字。

sklearn.feature_extraction.text.TfidfVectorizer函数解析