重复值和缺失值和空格值的处理
#重复值处理
from pandas import read_csv
ak=read_csv('D://Python projects//reference data//4.3//data.csv')
#找出重复的位置
al=ak.duplicated()
#根据某些列判断是否重复
ao=ak.duplicated('id')
ai=ak.duplicated(['id','key'])
#提取重复行
ak[ai]
ak[ak.duplicated(['id','key'])]
#默认根据所有列删除重复值
new_ak=ak.drop_duplicates()
#也可以根据某一列删除重复值
new_po=ak.drop_duplicates('key')
#缺失数据的处理
from pandas import read_csv
sf=read_csv('D://Python projects//reference data//4.4//data.csv')
#规定指定字符为nan值
sd=read_csv('D://Python projects//reference data//4.4//data2.csv',
na_values=['a','b','Apple'])
#找出空值的位置(返回布尔值)
isNA=sf.isnull()
#获取空值所在的行
sf[isNA.any(axis=1)]
#找出某列为NAN的行
sf[isNA[['key']].any(axis=1)]
sf[isNA[['key','value']].any(axis=1)]
#替换NA值为别的值
sf.fillna('未知')
#直接删除空值
ar=sf.dropna()
#空格值的处理
from pandas import read_csv
qf=read_csv('D://Python projects//reference data//4.5//data.csv')
#清除左边的空格
new_qf=qf['name'].str.lstrip()
#清除右边的空格
new_qd=qf['name'].str.rstrip()
#清除左右的空格
new_qw=qf['name'].str.strip()
#赋值回给原来的列
qf['name']=new_qw