机器学习---特征工程之{特征抽取}
import sklearn
sklearn特征提取API: sklearn.feature_extraction
1)字典特征抽取(对字典数据进行特征值化)
类:sklearn.feature_extraction.DictVectorizer
参数:列表或可迭代对象
原理:把字典中一些类别的数据,分别进行转换成特征(one-hot编码)
2)文本特征抽取(对文本数据进行特征值化)
类:sklearn.feature_extraction.text.CountVectorizer
接口与DictVectiorizer相同
原理:1.统计所有文章当中所有的词,重复的只看一次 词的列表
2.对每篇文章,再词的列表里面进行统计每个词出现的次数
3. 单个字母不统计
应用:文本分析,情感分析
使用:创建类对象,调用接口
对于中文的处理可以先进行分词(jieba);import jieba tt = jieba.cat('我是一只小小鸟') 返回词语生成器
将生成器转换为列表 tt= list(tt) 再用空格链接 ‘ ’.join(tt) ---->传入接口
-----------------------------------------
第二种方式的文本特征抽取 TF-IDF
类:sklearn.feature_extraction.text.TfidfVectoriaer
接口API同上