机器学习---特征工程之{特征抽取}

import sklearn

sklearn特征提取API: sklearn.feature_extraction

1)字典特征抽取(对字典数据进行特征值化)

类：sklearn.feature_extraction.DictVectorizer

参数：列表或可迭代对象

原理：把字典中一些类别的数据，分别进行转换成特征（one-hot编码）

2）文本特征抽取（对文本数据进行特征值化）

类：sklearn.feature_extraction.text.CountVectorizer

接口与DictVectiorizer相同

原理：1.统计所有文章当中所有的词，重复的只看一次词的列表

2.对每篇文章，再词的列表里面进行统计每个词出现的次数

3. 单个字母不统计

应用：文本分析，情感分析

使用：创建类对象，调用接口

对于中文的处理可以先进行分词（jieba）;import jieba tt = jieba.cat('我是一只小小鸟') 返回词语生成器

将生成器转换为列表 tt= list(tt) 再用空格链接 ‘ ’.join(tt) ---->传入接口

-----------------------------------------

第二种方式的文本特征抽取 TF-IDF

类：sklearn.feature_extraction.text.TfidfVectoriaer

机器学习---特征工程之{特征抽取}

接口API同上