《利用Python进行数据分析》学习笔记 第12章 pandas高级应用
《利用python进行数据分析》
第12章 pandas高级应用
12.1 分类数据
- 背景和目的
在数据仓库中,最好的方法是使用所谓的包含不同值的维表(Dimension Table),将主要的参数存储为引用维表整数键:
可以使用take方法存储原始的字符串Series:
- 用分类进行计算
Seed ( )方法改变随机数生成器的种子,可以在调用其他随机模块函数之前调用此函数。
- 用分类提高性能
若数据的实际分类集超出了数据中的值,可以使用set_categories方法改变:
pandas的Series的分类方法:
12.2 Groupby高级应用
- 分组转换和“解封”GroupBy
使用TimeGrouper的限制是时间必须是Series或DataFrame的索引。
12.3 链式编程技术
DataFrame.assign方法是一个df[k] = v形式的函数式的列分配方法。它不是就地修改对象,而是返回新的修改过的DataFrame。
- 管道方法
需要使用自己的函数或第三方库的函数时要用到管道方法,当使用接收、返回series或DataFrame对象的函数式,需要调用pipe将其重写,f(df)和df.pipe(f)是等价的,但是pipe使得链式声明更容易。