Pandas介绍：数据处理工具。

Pandas
Pandas

为什么使用Pandas：

Numpy已经能够帮助我们处理数据，能够结合matplotlib解决部分数据展示等问题，那么pandas学习的目的在什么地方呢？

边界的数据处理能力
读取文件方便
封装了Matplotlib、Numpy的画图和计算

DataFrame类型：

numpy中创建股票涨跌幅数据形式：
Pandas

但是这样的数据形式很难看到存储的是什么样的数据，并且也很难获取相应的数据，不如需要获取某个指定股票的数据，就很难去获取！！

问题：如何让数据更有意义的显示。

Pandas

具体演示：

数据准备：

Pandas

将ndarray类型转换为DataFrame类型：

Pandas
Pandas

DataFrame既有行索引又有列索引的二维数组。

给股票涨跌幅数据增加行列索引，显示效果更佳：
增加行索引
构造行索引序列：
或是：
添加行索引：
增加列索引：
- 股票的日期是一个时间的序列，我们要实现从前往后的时间还要考虑每月的总天数等，不方便。使用pd.data_range()：用于生成一组连续的时间序列(暂时了解)
生成一个时间的序列，略过周末非交易日：
或是：
日期的形式也可以：
添加列索引：index代表行索引，columns代表列索引。

总结：

1、DataFrame结构

DataFrame对象既有行索引，又有列索引
- 行索引，表明不同行，横向索引，叫index
- 列索引，表明不同列，纵向索引，叫columns

DataFrame常用属性：

Pandas

shape形状属性：

Pandas

index取行索引列表属性：

Pandas

columns取列索引列表属性：

Pandas

values直接获取其中ndarray的值：

Pandas

T转置属性：

Pandas

DataFrame常用方法：

head(5)：显示前5行内容。

注意：如果不补充参数，默认是前5行，填入参数N则显示前N行。

tail(5)：显示后5行内容。

注意：如果不补充参数，默认是后5行，填入参数N则显示后N行。

DataFrame索引的设置：

修改行列索引值：

修改行索引：

Pandas
Pandas
Pandas

注意：不能单个设置，只能整体修改。

修改列索引：

Pandas
Pandas
Pandas

注意：不能单个设置，只能整体修改。

reset_index(drop=True/False)重设索引：

reset_index(drop=False)
- 设置新的下标索引
- drop：默认为False，不删除原来索引，如果为True，删除原来的索引值。
默认是drop=False。

注意：这个是不会修改原数据的。

Pandas

set_index()以某列值设置为新的索引。

set_index(keys,drop=True)
- keys：列索引名称或者列索引名称的列表
- drop：boolean，default True.当作新的索引，删除原来的索引

准备数据：

df = pd.DataFrame({“month”: [1, 4, 7, 10], “year”: [2012, 2014, 2013, 2014], “sale”: [55, 40, 84, 31]})
注意：以字典的形式创建了一个DataFrame类型。

将月份列值设置成新的索引：

Pandas

默认是drop=True：

将多个列的值设置成索引：

Pandas
Pandas
Pandas
Pandas

注：通过刚才的设置，这样DataFrame就变成了一个具有Multilndex的DataFrame

一个MultiIndex的DataFrame是可以用来存储三维数据的。

Multilndex：

df = pd.DataFrame({“month”: [1, 4, 7, 10], “year”: [2012, 2014, 2013, 2014], “sale”: [55, 40, 84, 31]})
多级或分层索引对象。
- index属性
  - names：levels的名称
  - levels：每个level的元组值