《利用Python进行数据分析》—第5章 pandas入门

Series

Series可以看成是一个定长的有序字典。
Series对象本身及其索引都有一个name属性。
《利用Python进行数据分析》—第5章 pandas入门
索引可以通过赋值的方式进行修改。
《利用Python进行数据分析》—第5章 pandas入门

DataFrame

DataFrame可以看成是由Series组成的字典(共用同一个索引)。
其实,DataFrame中的数据是以一个或多个二维块存放的(而不是列表、字典或别的一维数据结构)。
DataFrame也可以设置index和columns的name属性。
《利用Python进行数据分析》—第5章 pandas入门

重新索引

reindex方法可以对Series和DataFrame进行重排,传入一个新索引,若新索引在当前索引中找不到,就用NA(NaN)值填充,也可以设置fill_value参数用特定的值填充。
《利用Python进行数据分析》—第5章 pandas入门
传入columns关键字即可重新索引列。

索引、选取和过滤

《利用Python进行数据分析》—第5章 pandas入门
几个特殊用法:

  1. 通过布尔型数组选取行
    (我把它记忆为:选取满足某个列的特定条件的行。)
    《利用Python进行数据分析》—第5章 pandas入门
    《利用Python进行数据分析》—第5章 pandas入门

算术运算和数据对齐

相同索引会自动对齐并进行算术运算,找不到相同索引的显示NaN。
《利用Python进行数据分析》—第5章 pandas入门
《利用Python进行数据分析》—第5章 pandas入门

函数应用和映射

Numpy的元素级数组方法也可以用于操作pandas对象。
《利用Python进行数据分析》—第5章 pandas入门
apply的用法:
《利用Python进行数据分析》—第5章 pandas入门
除了标量值外,传给apply的函数还可以返回由多个值组成的Series。
《利用Python进行数据分析》—第5章 pandas入门apply的应用很多,在以后的实践中要多尝试用apply来解决问题。

Serie有一个应用于元素级函数的map方法。
《利用Python进行数据分析》—第5章 pandas入门

排序和排名

《利用Python进行数据分析》—第5章 pandas入门

唯一值、值计数以及成员资格

  1. 唯一值:unique的用法
    《利用Python进行数据分析》—第5章 pandas入门
  2. 值计数:value_counts的用法
    计算一个Series中各值出现的频率。可用于任何数组和序列。
    《利用Python进行数据分析》—第5章 pandas入门
  3. isin:用于判断Series各值是否包含在传入的值序列中。
    《利用Python进行数据分析》—第5章 pandas入门

处理缺失数据

  • pandas中的缺失值用NaN(not a number)表示
  • python内置的None值也被当做NA处理
    《利用Python进行数据分析》—第5章 pandas入门
    过滤缺失数据
    《利用Python进行数据分析》—第5章 pandas入门
    填充缺失数据
    《利用Python进行数据分析》—第5章 pandas入门
    《利用Python进行数据分析》—第5章 pandas入门