机器学习---特征工程之{特征抽取}

import sklearn

sklearn特征提取API:  sklearn.feature_extraction

1)字典特征抽取(对字典数据进行特征值化)

类:sklearn.feature_extraction.DictVectorizer

参数:列表或可迭代对象

原理:把字典中一些类别的数据,分别进行转换成特征(one-hot编码)

 

 

2)文本特征抽取(对文本数据进行特征值化)

类:sklearn.feature_extraction.text.CountVectorizer

接口与DictVectiorizer相同

原理:1.统计所有文章当中所有的词,重复的只看一次  词的列表

             2.对每篇文章,再词的列表里面进行统计每个词出现的次数

             3. 单个字母不统计

应用:文本分析,情感分析

使用:创建类对象,调用接口

对于中文的处理可以先进行分词(jieba);import jieba      tt =  jieba.cat('我是一只小小鸟')   返回词语生成器

将生成器转换为列表 tt= list(tt)    再用空格链接 ‘ ’.join(tt)   ---->传入接口

-----------------------------------------

第二种方式的文本特征抽取  TF-IDF 

类:sklearn.feature_extraction.text.TfidfVectoriaer

机器学习---特征工程之{特征抽取}

机器学习---特征工程之{特征抽取}

接口API同上