NLP_2 TF_IDF—评估文本重要性以用于提取文本的特征
提取关键词中使用的主要算法
- TF_IDF
字词的重要性随其在文本中出现的次数而正比增加,同时会随之其在语料库中出现的频率而成反比
计算公式为 t f i d f = t f ∗ i d f tfidf = tf* idf tfidf=tf∗idf
前者是词频后者是逆向文件频率。
t f = i / N tf = i/N tf=i/N
i d e f = l o g 2 ( n k ) idef=log_2(\frac{n}{k}) idef=log2(kn)
其中k可以加上1以避免分母为0。
实现也相对简单,所以这里直接开始修改原有代码并尝试一定的优化。
中文的提取关键词应该还有其他的操作,之后会具体介绍。
- 词性还原lemmatization与词干提取stemming
对于英文单词,需要去掉单词的词缀以提取主干部分,相对于词干提取,可能需要二次指代。比如说ate=>eat就是词性还原,而effective=>effect则是词干提取。
但是在中文中一般不使用这类方案。