《利用Python进行数据分析》学习笔记第12章 pandas高级应用

《利用python进行数据分析》

第12章 pandas高级应用

12.1 分类数据

在数据仓库中，最好的方法是使用所谓的包含不同值的维表（Dimension Table），将主要的参数存储为引用维表整数键：

可以使用take方法存储原始的字符串Series：

《利用Python进行数据分析》学习笔记第12章 pandas高级应用

Seed ( )方法改变随机数生成器的种子，可以在调用其他随机模块函数之前调用此函数。

若数据的实际分类集超出了数据中的值，可以使用set_categories方法改变：

《利用Python进行数据分析》学习笔记第12章 pandas高级应用

pandas的Series的分类方法：

《利用Python进行数据分析》学习笔记第12章 pandas高级应用

12.2 Groupby高级应用

使用TimeGrouper的限制是时间必须是Series或DataFrame的索引。

12.3 链式编程技术

DataFrame.assign方法是一个df[k] = v形式的函数式的列分配方法。它不是就地修改对象，而是返回新的修改过的DataFrame。

需要使用自己的函数或第三方库的函数时要用到管道方法，当使用接收、返回series或DataFrame对象的函数式，需要调用pipe将其重写，f(df)和df.pipe(f)是等价的，但是pipe使得链式声明更容易。

《利用Python进行数据分析》学习笔记第12章 pandas高级应用

《利用Python进行数据分析》学习笔记 第12章 pandas高级应用