4.Pandas的使用2
数据格式的转换(使用dtype和astype)
查看数据
利用格式转换查看异常数据
首先想将年代那一列转换成整数
但是却出现了一些问题,接下来查看错误原因
可以看到有一个数据无法转换成整数。
接下来查找这个异常的数据
但是这样没有看出这个数据类型有什么问题,没关系我们可以查看你一下
接下来修改值为整形2018
再查看一下
这回再次转换成功
排序
例:按照投票人数进行排序
默认按照升序
如果想降序
多个值进行排序,例:先按照评分,再按照投票人数
基本的统计分析
1.描述性统计
通过描述性统计,观察上面的表格,可以发现异常值,然后我们对异常值进行查找
对异常值进行删除
删除成功
注意:删除操作后,索引index也一起被删除,此时索引不再连续,如果想让他保持连续的话需要对index重新赋值
2.最值
3.均值和中值
均值:
中位数:
4.方差和标准差
方差:
标准差:
5.求和
6.相关系数,协方差
相关系数
协方差
7.计数
统计唯一值个数,例:查看有多少产地
可以发现产地有一些重复的数据,比如说美国和USA,可以把数据进行处理,使用数据替换的方法
可以发现替换成功
计算每个年份出现电影的个数
数据透视
1.基础形式
也已发现中间省略号的数据无法进行查看,解决方法如下:
2.也可以使用多个索引。实际上,大多数的privot_table参数可以通过列表获取多个值
3.也可以指定需要统计汇总的数据
4.还可以指定函数,来统计不同的统计值
5.非数值(NaN)难以处理。如果想移除他们,可以使用“fill_value”将其设置为0。
6.加入margins=True,可以在下方显示一些总和数据。
7.对不同值执行不同的函数:可以向aggfunc传递一个字典。不过这样做有一个副作用,那就是必须将标签做的更加简洁才行。
透视表过滤
可以看见table本身就是一个DataFrame,所以前面说的DataFrame能用的都可以用
同样的,我们可以按照多个索引来进行汇总