python3数据分析第5天
1 pandas的索引对象不可改变
2 下面是index的属性和方法
3 reindex 将会根据新索引进行重排。
4 对于DataFrame,reindex可以修改索引,列,或两个都修改。如果仅仅传入一个序列,则会重新索引行
5
6 Series的索引
7 标签的切片运算与普通的Python切片不同,末端是包含的
8 DataFrame 的 列是columns 行是index
9 Series可以直接用标签索引
DataFrame 必须用 .ix 来使用索引
10 pandas的数据会自动对齐
11 fill_value 可以设定一个填充值
12 DataFrame 和 Series 可以运算, 如有不能匹配的值,就会生成缺失值
函数的应用和映射
1 numpy的ufuncs 元素级数组方法,也可以用于操作pandas对象
2 DataFrame 的apply方法可以实现,将函数应用到由各列或行所形成的一维数组上
3 许多常见的数组统计方法被实现成DATAFrame的方法(如sum mean),无需使用apply方法
4 元素级的Python函数也是可以使用的。 使用 applymap()
排序和排名
根据条件对数据集排序 ,是一种重要的内置运算
1 要对行或者列 索引 进行排序,可以使用sort_index 方法,返回一个已经排序的新对象
2 对于DataFrame,可以根据任意一个轴上的索引进行排序
3 默认 是对列,当使用 axis=1 时,则是对行
4 数据默认是按升序排序的,但是也可以降序排序 ascending=False
5 排序时,缺失值放在末尾
6 在dataframe上,对一个多个列中的值进行排序。用by
7 排名
带有重复值的轴索引
汇总和计算描述统计
相关系数与协方差
唯一值,值计数以及成员资格
处理缺失数据
1 NAN
2 None也别当做缺失值
滤除缺失数据
1 Series,dropna返回一个仅仅含非空数据和索引值的Series
2 dataframe的dropna丢弃任何含有NA的行