pandas数据分析打卡学习之数据的清洗

导入了数据,并对数据做完初步分析之后,我们知道数据导入之后按照DataFrame这个数据结构进行存储。知道了DataFrame的一些基础操作之后,再来练习一下DataFrame一些更高级的选择操作。

清洗数据,也就是处理重复的或者空的数据,还要对字符型之类的数据进行转换。而处理数据当然要先选择待处理的数据。先来看一下DataFrame的选择机制。

dataframe类应该是对于[]进行了多次重载,如果[]内填的对象不同,程序也会智能的识别语义进行选择。具体选择方法有以下几种。

首先就是使用列名列表来进行选择。

pandas数据分析打卡学习之数据的清洗

还可以使用行号进行选择。只不过需要使用iloc函数。这个之前的练习中练习过,所以不必多说。

接下来来看最重要的选择方式,也就是条件选择。

df后面的中括号经过了重载,不仅可以接受列表做参数,还可以接受一个布尔Series作为参数。当接受Series作为参数时,当然就会选择Series中值为True的对象。

pandas数据分析打卡学习之数据的清洗

df['Age']这里就是对于DataFrame做了一个初步的筛选,然后,对于DataFrame里面的每个元素,使用isnull或者是大于小于之类的运算符就可以返回一个Series类型,传入df[]中即可实现筛选。

处理空数据还有两种系统内置的方法,即fillna和dropna。fillna为把空数据改为指定的数值,而dropna为暂时移除空数据(即返回没有空数据的df)。

pandas数据分析打卡学习之数据的清洗

 最后,使用drop_dumplicates()函数可以移除重复数据。

然后再来看数据的整理。就是几个重要的函数。

cut函数可以对数据进行分段

value_count函数可以数出每一种值的个数。

pandas数据分析打卡学习之数据的清洗

pandas数据分析打卡学习之数据的清洗