4.Pandas的使用2

数据格式的转换(使用dtype和astype)

查看数据

4.Pandas的使用2

利用格式转换查看异常数据

首先想将年代那一列转换成整数
4.Pandas的使用2
但是却出现了一些问题,接下来查看错误原因
4.Pandas的使用2
可以看到有一个数据无法转换成整数。
接下来查找这个异常的数据
4.Pandas的使用2
但是这样没有看出这个数据类型有什么问题,没关系我们可以查看你一下
4.Pandas的使用2
接下来修改值为整形2018
4.Pandas的使用2
再查看一下
4.Pandas的使用2
这回再次转换成功
4.Pandas的使用2

排序

例:按照投票人数进行排序

默认按照升序
4.Pandas的使用2
如果想降序
4.Pandas的使用2

多个值进行排序,例:先按照评分,再按照投票人数

4.Pandas的使用2

基本的统计分析

1.描述性统计

4.Pandas的使用2
通过描述性统计,观察上面的表格,可以发现异常值,然后我们对异常值进行查找
4.Pandas的使用2

对异常值进行删除
4.Pandas的使用2
删除成功
4.Pandas的使用2
注意:删除操作后,索引index也一起被删除,此时索引不再连续,如果想让他保持连续的话需要对index重新赋值
4.Pandas的使用2

2.最值

4.Pandas的使用2
4.Pandas的使用2

3.均值和中值

均值:
4.Pandas的使用2
中位数:
4.Pandas的使用2

4.方差和标准差

方差:
4.Pandas的使用2
标准差:
4.Pandas的使用2

5.求和

4.Pandas的使用2

6.相关系数,协方差

相关系数
4.Pandas的使用2
协方差
4.Pandas的使用2

7.计数

4.Pandas的使用2

统计唯一值个数,例:查看有多少产地

4.Pandas的使用2
4.Pandas的使用2
可以发现产地有一些重复的数据,比如说美国和USA,可以把数据进行处理,使用数据替换的方法
4.Pandas的使用2

4.Pandas的使用2
可以发现替换成功
4.Pandas的使用2
4.Pandas的使用2

计算每个年份出现电影的个数

4.Pandas的使用2
4.Pandas的使用2

数据透视

1.基础形式

4.Pandas的使用2

也已发现中间省略号的数据无法进行查看,解决方法如下:
4.Pandas的使用2

2.也可以使用多个索引。实际上,大多数的privot_table参数可以通过列表获取多个值

4.Pandas的使用2

3.也可以指定需要统计汇总的数据

4.Pandas的使用2

4.还可以指定函数,来统计不同的统计值

4.Pandas的使用2

4.Pandas的使用2

5.非数值(NaN)难以处理。如果想移除他们,可以使用“fill_value”将其设置为0。

4.Pandas的使用2

6.加入margins=True,可以在下方显示一些总和数据。

4.Pandas的使用2
4.Pandas的使用2

7.对不同值执行不同的函数:可以向aggfunc传递一个字典。不过这样做有一个副作用,那就是必须将标签做的更加简洁才行。

4.Pandas的使用2
透视表过滤
4.Pandas的使用2
可以看见table本身就是一个DataFrame,所以前面说的DataFrame能用的都可以用
4.Pandas的使用2
4.Pandas的使用2
4.Pandas的使用2
同样的,我们可以按照多个索引来进行汇总
4.Pandas的使用2