python3机器学习经典算法与应用之读取数据和简单的数据探索

python机器学习算法应用

初见sklearn

sklearn中的datasets是sklearn封装好的一些数据集,可以用来练手。
其中iris是鸢尾花的数据集。sklearn封装的数据集是一种特殊的数据结构,可以粗略理解为字典。调用keys()方法可以查看数据集的键分别代表数据、数据的标签、标签名、数据集的文档说明、特征名、文件名。
python3机器学习经典算法与应用之读取数据和简单的数据探索
查看文档可以调用DESCR属性查看。通过下面的文档可以看出,鸢尾花数据集包括150组数据,4个特征值,每个特征值代表的含义,鸢尾花的三个类别。
python3机器学习经典算法与应用之读取数据和简单的数据探索
同理,查看数据集就可以调用data属性。
python3机器学习经典算法与应用之读取数据和简单的数据探索
通过使用shape属性查看array的维度和元素个数。feature_names表示特征的名字,target是每一组数据对应的标签值。
python3机器学习经典算法与应用之读取数据和简单的数据探索
python3机器学习经典算法与应用之读取数据和简单的数据探索
取出data中的前两列绘制成散点图。
python3机器学习经典算法与应用之读取数据和简单的数据探索
通过分类进行绘图,给不同类别的点绘制不同的颜色。在选取不同的类别的时候,要根据target的值进行判断类型,然后取这一行对应的两列,然后进行绘制。
python3机器学习经典算法与应用之读取数据和简单的数据探索
绘制的点可以知道不同的样式,关于样式可以查找官方文档。使用marker来指定散点的样式。
python3机器学习经典算法与应用之读取数据和简单的数据探索
也可以使用后两列进行绘制,发现后两列的分类效果更好。
python3机器学习经典算法与应用之读取数据和简单的数据探索