【Python数据挖掘课程】六.Numpy、Pandas和Matplotlib包基础知识

前面几篇文章采用的案例的方法进行介绍的,这篇文章主要介绍Python常用的扩展包,同时结合数据挖掘相关知识介绍该包具体的用法,主要介绍Numpy、Pandas和Matplotlib三个包。目录:
        一.Python常用扩展包
        二.Numpy科学计算包
        三.Pandas数据分析包
        四.Matplotlib绘图包

        前文推荐:
       【Python数据挖掘课程】一.安装Python及爬虫入门介绍
       【Python数据挖掘课程】二.Kmeans聚类数据分析及Anaconda介绍
       【Python数据挖掘课程】三.Kmeans聚类代码实现、作业及优化
       【Python数据挖掘课程】四.决策树DTC数据分析及鸢尾数据集分析
       【Python数据挖掘课程】五.线性回归知识及预测糖尿病实例

        绘图强推:http://python.jobbole.com/85106/

        希望这篇文章对你有所帮助,尤其是刚刚接触数据挖掘以及大数据的同学,这些基础知识真的非常重要。如果文章中存在不足或错误的地方,还请海涵~
        部分截图参考张良均的《Python数据分析与挖掘实战》,推荐大家购买阅读。



一. Python常用扩展包

        参考张良均的《Python数据分析与挖掘实战》,下图展示了常见的Python扩展包。

【Python数据挖掘课程】六.Numpy、Pandas和Matplotlib包基础知识

        常用的包主要包括:
        1.Numpy
        Python没有提供数组,列表(List)可以完成数组,但不是真正的数据,当数据量增大时,,它的速度很慢。所以Numpy扩展包提供了数组支持,同时很多高级扩展包依赖它。例如:Scipy、Matplotlib、Pandas。

        2.Scipy
        该包提供矩阵支持,以及矩阵相关的数值计算模块。如果说Numpy让Python有了Matlab的味道,那么Scipy就让Python真正地成为二半个Matlib。因为涉及到矩阵内容,而课程中主要使用数组,所以不再介绍。

        3.Pandas
        Pandas是面板数据(Panel Data)的简写。它是Python最强大的数据分析和探索工具,因金融数据分析工具而开发,支持类似SQL的数据增删改查,支持时间序列分析,灵活处理缺失数据,后面详细介绍。

        4.Scikit-Learn
        Scikit-Learn是一个基于python的用于数据挖掘和数据分析的简单且有效的工具,它的基本功能主要被分为六个部分:分类(Classification)、回归(Regression)、聚类(Clustering)、数据降维(Dimensionality Reduction)、模型选择(Model Selection)、数据预处理(Preprocessing),前面写的很多文章算法都是出自该扩展包。
        详见官网:http://scikit-learn.org/stable/

        5.Matplotlib
        该包主要用于绘图和绘表,强大的数据可视化工具,做图库,语法类似MATLAB。同时,Seaborn也是数据可视化的工具包。
        注意:这些包在Anaconda集成环境中已经存在,可以直接使用,最早我是通过Python2.7来编写代码的,安装过程通过pip install numpy,而且安装顺序非常讲究,容易出错,所以推荐大家使用该集成包。


二. Numpy科学计算包

        NumPy(Numeric Python)系统是Python的一种开源的数值计算扩展,一个用python实现的科学计算包。它提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处理,以及精密的运算库。专为进行严格的数字处理而产生。
        推荐学习:http://old.sebug.net/paper/books/scipydoc/numpy_intro.html
        下面通过这段代码详细讲解这个包在数据分析中的常见用法:

        1.一维数组处理

[python] view plain copy
  1. #导入包并重命名  
  2. import numpy as np  
  3.   
  4. #定义一维数组  
  5. a = np.array([201583])  
  6. print u'原始数据:', a  
  7.   
  8. #输出最大、最小值及形状  
  9. print u'最小值:', a.min()  
  10. print u'最大值:', a.max()  
  11. print u'形状', a.shape  
  12.   
  13. #数据切片  
  14. print u'切片操作:'  
  15. print a[:-2]  
  16. print a[-2:]  
  17. print a[:1]  
  18.   
  19. #排序  
  20. print type(a)  
  21. a.sort()  
  22. print u'排序后:', a  
        输出结果如下所示:
[html] view plain copy
  1. 原始数据: [2 0 1 5 8 3]  
  2. 最小值: 0  
  3. 最大值: 8  
  4. 形状 (6L,)  
  5. 切片操作:  
  6. [2 0 1 5]  
  7. [8 3]  
  8. [2]  
  9. <type 'numpy.ndarray'>  
  10. 排序后: [0 1 2 3 5 8]  
        核心代码:
        代码通过np.array定义了一个数组[2, 0, 1, 5, 8, 3],其中min计算最小值,max计算最大值,shape表示数组的形状,因为是一维数组,故6L(6个数字)。
        最重要的一个知识点是数组的切片操作,因为在数据分析过程中,通常会对数据集进行"80%-20%"或"70%-30%"的训练集和测试集划分,通常采用的方法就是切片。
        a[:-2]表示从头开始获取,"-2"表示后面两个值不取,结果:[2 0 1 5]
        a[-2:]表示后往前数两个数字,获取数字至结尾,即获取最后两个值[8 3]
        a[:1]表示从头开始获取,获取1个数字,即[2]

        2.二维数组处理
        注意的是定义二维数组括号不要弄错,正确的应该是:[[1,2,3],[4,5,6]]
        同时计算机的存储下标都是从0开始计算的。

【Python数据挖掘课程】六.Numpy、Pandas和Matplotlib包基础知识

        代码如下:
[python] view plain copy
  1. #定义二维数组  
  2. import numpy as np  
  3. c = np.array([[1234],[4567], [78910]])  
  4.   
  5. #获取值  
  6. print u'形状:', c.shape  
  7. print u'获取值:', c[1][0]  
  8. print u'获取某行:'  
  9. print c[1][:]  
  10. print u'获取某行并切片:'  
  11. print c[0][:-1]  
  12. print c[0][-1:]  
  13.   
  14. #获取具体某列值  
  15. print u'获取第3列:'  
  16. print c[:,np.newaxis, 2]  
  17.   
  18. #调用sin函数  
  19. print np.sin(np.pi/6)  
  20. print type(np.sin(0.5))  
  21.   
  22. #范围定义  
  23. print np.arange(0,4)  
  24. print type(np.arange(0,4))  

        代码输出结果如下所示:

[python] view plain copy
  1. 形状: (3L4L)  
  2. 获取值: 4  
  3. 获取某行:  
  4. [4 5 6 7]  
  5. 获取某行并切片:  
  6. [1 2 3]  
  7. [4]  
  8. 获取第3列:  
  9. [[3]  
  10.  [6]  
  11.  [9]]  
  12. 0.5  
  13. <type 'numpy.float64'>  
  14. [0 1 2 3]  
  15. <type 'numpy.ndarray'>  
        需要注意:
       (1)获取二维数组中的某行,如第2行数据[4,5,6,7],采用方法是:c[1][:];
       (2)获取二维数组中的某列,如第2列数据[[3] [6] [9]],c[:,np.newaxis, 2]。因为通常在数据可视化中采用获取某列数据作为x或y坐标,同时多维数据也可以采用PCA降低成两维数据,再进行显示。
        最后希望读者自己去阅读该段代码。



三. Pandas数据分析包

        Pandas是面板数据(Panel Data)的简写。它是Python最强大的数据分析和探索工具,因金融数据分析工具而开发,支持类似SQL的数据增删改查,支持时间序列分析,灵活处理缺失数据。
        注意:首先声明改包功能非常强大,我只是学习了它的非常小的一部分,后面随着学习深入会写更多它的用法,同时建议读者自行学习,不喜勿喷。

【Python数据挖掘课程】六.Numpy、Pandas和Matplotlib包基础知识

        约定俗成的导入惯例:
        from pandas import Series, DataFrame
        import pandas as pd

        1.常见用法:读写文件
        这里读文件最常用的是两种方法:

[python] view plain copy
  1. #写入excel文件:  
  2. df.to_excel('foo.xlsx', sheet_name='Sheet1')  
  3. #从excel文件中读取:  
  4. pd.read_excel('foo.xlsx''Sheet1', index_col=None, na_values=['NA'])  
  5. #写入csv文件:  
  6. df.to_csv('foo.csv')  
  7. #从csv文件中读取:  
  8. pd.read_csv('foo.csv')  
  9. #写入HDF5存储:  
  10. df.to_hdf('foo.h5','df')  
  11. #从HDF5存储中读取:  
  12. pd.read_hdf('foo.h5','df')  
        下面通过一个具体的案例来讲解该包,这里读取的数据是张良均的《Python数据分析与挖掘实战》的第六章的电力用户数据集,missing_data.xls文件。内容如下,共3列数据,分别是用户A、用户B、用户C,共21行,对应21天的用电量,其中包含缺失值。
[python] view plain copy
  1. 235.8333    324.0343    478.3231  
  2. 236.2708    325.6379    515.4564  
  3. 238.0521    328.0897    517.0909  
  4. 235.9063        514.89  
  5. 236.7604    268.8324      
  6.     404.048 486.0912  
  7. 237.4167    391.2652    516.233  
  8. 238.6563    380.8241      
  9. 237.6042    388.023 435.3508  
  10. 238.0313    206.4349    487.675  
  11. 235.0729          
  12. 235.5313    400.0787    660.2347  
  13.     411.2069    621.2346  
  14. 234.4688    395.2343    611.3408  
  15. 235.5   344.8221    643.0863  
  16. 235.6354    385.6432    642.3482  
  17. 234.5521    401.6234      
  18. 236 409.6489    602.9347  
  19. 235.2396    416.8795    589.3457  
  20. 235.4896        556.3452  
  21. 236.9688        538.347  

        部分Excel文件数据截图如下所示:

【Python数据挖掘课程】六.Numpy、Pandas和Matplotlib包基础知识


        具体代码如下所示:
[python] view plain copy
  1. #读取数据 header设置Excel无标题头  
  2. import pandas as pd  
  3. data = pd.read_excel("missing_data.xls", header=None)   
  4. print data  
  5.   
  6. #计算数据长度  
  7. print u'行数', len(data)  
  8.   
  9. #计算用户A\B\C用电总和  
  10. print data.sum()  
  11.   
  12. #计算用户A\B\C用点量算术平均数  
  13. mm = data.sum()  
  14. print mm  
  15.   
  16. #输出预览前5行数据  
  17. print u'预览前5行数据'  
  18. print data.head()  
  19.   
  20. #输出数据基本统计量  
  21. print u'输出数据基本统计量'  
  22. print data.describe()  

        输出结果如下所示:

[python] view plain copy
  1.            0         1         2  
  2. 0   235.8333  324.0343  478.3231  
  3. 1   236.2708  325.6379  515.4564  
  4. 2   238.0521  328.0897  517.0909  
  5. 3   235.9063       NaN  514.8900  
  6. 4   236.7604  268.8324       NaN  
  7. 5        NaN  404.0480  486.0912  
  8. 6   237.4167  391.2652  516.2330  
  9. 7   238.6563  380.8241       NaN  
  10. 8   237.6042  388.0230  435.3508  
  11. ...  
  12. 行数 21  
  13. 0    4488.9899  
  14. 1    6182.3265  
  15. 2    9416.3276  
  16. dtype: float64  
  17. 0    4488.9899  
  18. 1    6182.3265  
  19. 2    9416.3276  
  20. dtype: float64  
  21. 预览前5行数据  
  22.           0         1         2  
  23. 0  235.8333  324.0343  478.3231  
  24. 1  236.2708  325.6379  515.4564  
  25. 2  238.0521  328.0897  517.0909  
  26. 3  235.9063       NaN  514.8900  
  27. 4  236.7604  268.8324       NaN  
  28. 输出数据基本统计量  
  29.                 0           1           2  
  30. count   19.000000   17.000000   17.000000  
  31. mean   236.262626  363.666265  553.901624  
  32. std      1.225465   57.600529   67.707729  
  33. min    234.468800  206.434900  435.350800  
  34. 25%           NaN         NaN         NaN  
  35. 50%           NaN         NaN         NaN  
  36. 75%           NaN         NaN         NaN  
  37. max    238.656300  416.879500  660.234700  

        其中data.describe()输出数据的基本信息统计,其方法参考前面的图,包括count计数、std、max等函数。同时因为Excel表格中存在空值,故Python显示为NaN(Not a Number)表示空。

        2.Series
        Series是一维标记数组,可以存储任意数据类型,如整型、字符串、浮点型和Python对象等,轴标一般指索引。
        Series、Numpy中的一维array 、Python基本数据结构List区别:List中的元素可以是不同的数据类型,而Array和Series中则只允许存储相同的数据类型,这样可以更有效的使用内存,提高运算效率。

[python] view plain copy
  1. from pandas import Series, DataFrame  
  2.   
  3. #通过传递一个list对象来创建Series,默认创建整型索引;  
  4. a = Series([47, -53])  
  5. print u'创建Series:'  
  6. print a  
  7.   
  8. #创建一个带有索引来确定每一个数据点的Series ;  
  9. b = Series([47, -53], index=['d''b''a''c'])  
  10. print u'创建带有索引的Series:'  
  11. print b  
  12.   
  13. #如果你有一些数据在一个Python字典中,你可以通过传递字典来创建一个Series;  
  14. sdata = {'Ohio'35000'Texas'71000'Oregon'16000'Utah'5000}  
  15. c = Series(sdata)  
  16. print u'通过传递字典创建Series:'  
  17. print c  
  18. states = ['California''Ohio''Oregon''Texas']  
  19. d = Series(sdata, index=states)  
  20. print u'California没有字典为空:'  
  21. print d  
        输出如下所示:
[python] view plain copy
  1. 创建Series:  
  2. 0    4  
  3. 1    7  
  4. 2   -5  
  5. 3    3  
  6. dtype: int64  
  7. 创建带有索引的Series:  
  8. d    4  
  9. b    7  
  10. a   -5  
  11. c    3  
  12. dtype: int64  
  13. 通过传递字典创建Series:  
  14. Ohio      35000  
  15. Oregon    16000  
  16. Texas     71000  
  17. Utah       5000  
  18. dtype: int64  
  19. California没有字典为空:  
  20. California        NaN  
  21. Ohio          35000.0  
  22. Oregon        16000.0  
  23. Texas         71000.0  
  24. dtype: float64  
        Series的一个重要功能是在算术运算中它会自动对齐不同索引的数据。

        3.DataFrame      
        DataFrame是二维标记数据结构,列可以是不同的数据类型。它是最常用的pandas对象,像Series一样可以接收多种输入:lists、dicts、series和DataFrame等。初始化对象时,除了数据还可以传index和columns这两个参数。
        注意:
        (1) 在pandas中用函数 isnull 和 notnull 来检测数据丢失:pd.isnull(a)、pd.notnull(b)。
        Series也提供了这些函数的实例方法:a.isnull()。
        (2) Pandas提供了大量的方法能够轻松的对Series,DataFrame和Panel对象进行各种符合各种逻辑关系的合并操作。如:Concat、Merge (类似于SQL类型的合并)、Append (将一行连接到一个DataFrame上)。
        (3) DataFrame中常常会出现重复行,DataFrame的duplicated方法返回一个布尔型Series,表示各行是否是重复行;还有一个drop_duplicated方法,它返回一个移除了重复行的DataFrame。
        总之,Pandas是非常强大的一个数据分析包,很多功能都需要我自己去慢慢摸索。


四. Matplotlib画图包

        Matplotlib是一个Python的图形框架,类似于MATLAB和R语言。它是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地进行制图。而且也可以方便地将它作为绘图控件,嵌入GUI应用程序中。
        补充两张图,原自《Python数据分析与挖掘实战》,对大家绘图很有帮助。

【Python数据挖掘课程】六.Numpy、Pandas和Matplotlib包基础知识

       最常用的画图函数是plot,同时常用的设置样式方法见下图。


【Python数据挖掘课程】六.Numpy、Pandas和Matplotlib包基础知识

        这里主要使用前面第三部分Pandas读取的电力数据绘制图形,主要是柱状图和饼图。

        1.绘制柱状图

[python] view plain copy
  1. # -*- coding: utf-8 -*-  
  2. """ 
  3. Created on Mon Nov 14 04:06:01 2016 
  4.  
  5. @author: yxz15 
  6. """  
  7.   
  8. #导入数据集  
  9. import pandas as pd  
  10. data = pd.read_excel("missing_data.xls", header=None)   
  11. mm = data.sum()  
  12. print u'计算用电量总数:'  
  13. print mm  
  14.   
  15. #绘制图形  
  16. import numpy as np  
  17. import matplotlib.pyplot as plt  
  18. #中文字体显示  
  19. plt.rc('font', family='SimHei', size=13)  
  20. N = 3  
  21. #3个用户 0 1 2  
  22. ind = np.arange(N)  # the x locations for the groups   
  23. print ind  
  24. #设置宽度  
  25. width = 0.35          
  26. x = [u'用户A', u'用户B', u'用户C']  
  27. #绘图  
  28. plt.bar(ind, mm, width, color='r', label='sum num')  
  29. plt.xlabel(u"用户名")  
  30. plt.ylabel(u"总耗电量")  
  31. plt.title(u'电力窃漏电用户自动识别--总耗电量')  
  32. plt.legend()  
  33. #设置底部名称  
  34. plt.xticks(ind+width/2, x, rotation=40#旋转40度  
  35. plt.show()  
        输出如下所示:
【Python数据挖掘课程】六.Numpy、Pandas和Matplotlib包基础知识

        2.绘制饼图

[python] view plain copy
  1. import matplotlib.pyplot as plt  
  2.   
  3. fracs = [453025]             #每一块占得比例,总和为100  
  4. n = mm[0]+mm[1]+mm[2]  
  5. a = (mm[0]*1.0*100/n)  
  6. b = (mm[1]*1.0*100/n)  
  7. c = (mm[2]*1.0*100/n)  
  8. print a, b, c, n  
  9. fracs = [a, b, c]  
  10.   
  11. explode=(000.08)             #离开整体的距离,看效果  
  12. labels = 'A''B''C'           #对应每一块的标志  
  13.   
  14. plt.pie(fracs, explode=explode, labels=labels,  
  15.                 autopct='%1.1f%%', shadow=True, startangle=90, colors = ("g""r""y"))  
  16.                                  # startangle是开始的角度,默认为0,从这里开始按逆时针方向依次展开  
  17.   
  18. plt.title('Raining Hogs and Dogs')   #标题  
  19.   
  20. plt.show()  
        输出如下所示:

【Python数据挖掘课程】六.Numpy、Pandas和Matplotlib包基础知识
        3.柱状图及比例显示
[python] view plain copy
  1. import matplotlib.pyplot as plt  
  2. import numpy as np  
  3. plt.rc('font', family='SimHei', size=13)  
  4.   
  5. num = np.array([13325940392278651])  
  6. ratio = np.array([0.750.760.720.75])  
  7. men = num * ratio  
  8. women = num * (1-ratio)  
  9. x = [u'聊天',u'支付',u'团购\n优惠券',u'在线视频']  
  10.   
  11. width = 0.5  
  12. idx = np.arange(len(x))  
  13. plt.bar(idx, men, width, color='red', label=u'男性用户')  
  14. plt.bar(idx, women, width, bottom=men, color='yellow', label=u'女性用户')  
  15. plt.xlabel(u'应用类别')  
  16. plt.ylabel(u'男女分布')  
  17. plt.xticks(idx+width/2, x, rotation=40)  
  18. plt.legend()  
  19. plt.show()  
        输出如下所示(PS:该部分参考百度知道,网址忘记了,望提醒)。

【Python数据挖掘课程】六.Numpy、Pandas和Matplotlib包基础知识

        当然该包可以绘制更多的图形,希望读者自己去学习。比如线性回归:
【Python数据挖掘课程】六.Numpy、Pandas和Matplotlib包基础知识
【Python数据挖掘课程】六.Numpy、Pandas和Matplotlib包基础知识


        代码部分详解,引用前面自己写的第三篇文章:
        matplotlib.pyplot是用来画图的方法,matplotlib是可视化包。
        import matplotlib.pyplot as plt

        绘制散点图(scatter),横轴为x,获取的第1列数据;纵轴为y,获取的第2列数据;c=y_pred对聚类的预测结果画出散点图,marker='o'说明用点表示图形。
        plt.scatter(x, y, c=y_pred, marker='o') 

        表示图形的标题为Kmeans-heightweight Data。
        plt.title("Kmeans-Basketball Data")

        表示图形x轴的标题。
        plt.xlabel("assists_per_minute")

        表示图形y轴的标题。
        plt.ylabel("points_per_minute") 

        设置右上角图例。
        plt.legend(["Rank"]) 

        表示显示图形。
        plt.show()