pandas数据分析打卡学习之数据的清洗

导入了数据，并对数据做完初步分析之后，我们知道数据导入之后按照DataFrame这个数据结构进行存储。知道了DataFrame的一些基础操作之后，再来练习一下DataFrame一些更高级的选择操作。

清洗数据，也就是处理重复的或者空的数据，还要对字符型之类的数据进行转换。而处理数据当然要先选择待处理的数据。先来看一下DataFrame的选择机制。

dataframe类应该是对于[]进行了多次重载，如果[]内填的对象不同，程序也会智能的识别语义进行选择。具体选择方法有以下几种。

首先就是使用列名列表来进行选择。

还可以使用行号进行选择。只不过需要使用iloc函数。这个之前的练习中练习过，所以不必多说。

接下来来看最重要的选择方式，也就是条件选择。

df后面的中括号经过了重载，不仅可以接受列表做参数，还可以接受一个布尔Series作为参数。当接受Series作为参数时，当然就会选择Series中值为True的对象。

pandas数据分析打卡学习之数据的清洗

df['Age']这里就是对于DataFrame做了一个初步的筛选，然后，对于DataFrame里面的每个元素，使用isnull或者是大于小于之类的运算符就可以返回一个Series类型，传入df[]中即可实现筛选。

处理空数据还有两种系统内置的方法，即fillna和dropna。fillna为把空数据改为指定的数值，而dropna为暂时移除空数据（即返回没有空数据的df）。

pandas数据分析打卡学习之数据的清洗

最后，使用drop_dumplicates()函数可以移除重复数据。

然后再来看数据的整理。就是几个重要的函数。

cut函数可以对数据进行分段

value_count函数可以数出每一种值的个数。

pandas数据分析打卡学习之数据的清洗