机器学习(二)之python调用scikit learn
上一篇博客写了机器学习开发环境的部署,这次针对机器学习数据预处理进行记录,利用的是scikit-learn中自带的iris数据——鸢尾属植物数据(分类)。包括如何加载打印和赋值
首先介绍一下scikit-learn是什么:
-
scikit-learn 是基于 Python 语言的机器学习工具。
-
简单高效的数据挖掘和数据分析工具
-
可供大家在各种环境中重复使用
-
建立在 NumPy ,SciPy 和 matplotlib 上
其次iris是一类多重变量分析的数据集。
-
包含三类供150条记录,每条记录有四个属性。
-
分别是花萼长度,花萼宽度,花瓣长度,花瓣宽度。
-
通过这4个属性可以预测鸢尾花卉属于(Setosa,Versicolour,Virginica)三个种类中的哪一类。
接下来就是在jupyter中进行iris数据的预处理。
首先打开Anaconda,点击jupyter,new一个python3.
使用load_iris 方法加载iris数据集:
-
from sklearn import datasets
-
iris=datasets.load_iris()
print输出iris.data可以看到多个记录值,每个记录包含前面提到的四个属性。
iris中的一些方法
-
iris.data//花的四个属性
-
iris.feature_names//输出每列名称
-
iris.target//输出所属类别以数字0/1/2表示
-
iris.target_name//输出类别名称
-
type()确认数据类型
-
iris.data.shap//确认维度
执行如下
可以看到,iris.data和iris.target属性数据和结果数据均是numpy类型
赋值:
X=iris.data
Y=iris.data