《利用Python进行数据分析》学习笔记 第12章 pandas高级应用

《利用python进行数据分析》

第12章 pandas高级应用

12.1 分类数据

  • 背景和目的

在数据仓库中,最好的方法是使用所谓的包含不同值的维表(Dimension Table),将主要的参数存储为引用维表整数键:

《利用Python进行数据分析》学习笔记 第12章 pandas高级应用

可以使用take方法存储原始的字符串Series:

《利用Python进行数据分析》学习笔记 第12章 pandas高级应用

  • 用分类进行计算

Seed ( )方法改变随机数生成器的种子,可以在调用其他随机模块函数之前调用此函数。

  • 用分类提高性能

若数据的实际分类集超出了数据中的值,可以使用set_categories方法改变:

《利用Python进行数据分析》学习笔记 第12章 pandas高级应用

pandas的Series的分类方法: 

《利用Python进行数据分析》学习笔记 第12章 pandas高级应用

12.2 Groupby高级应用

  • 分组转换和“解封”GroupBy

使用TimeGrouper的限制是时间必须是Series或DataFrame的索引。

12.3 链式编程技术

DataFrame.assign方法是一个df[k] = v形式的函数式的列分配方法。它不是就地修改对象,而是返回新的修改过的DataFrame。

  • 管道方法

需要使用自己的函数或第三方库的函数时要用到管道方法,当使用接收、返回series或DataFrame对象的函数式,需要调用pipe将其重写,f(df)和df.pipe(f)是等价的,但是pipe使得链式声明更容易。

《利用Python进行数据分析》学习笔记 第12章 pandas高级应用

《利用Python进行数据分析》学习笔记 第12章 pandas高级应用