Pandas分组

读取数据集

一、SAC过程

内涵
SAC指的是分组操作中的split-apply-combine过程
其中split指基于某一些规则，将数据拆成若干组，apply是指对每一组独立地使用函数，combine指将每一组的结果组合成某一类数据结构
apply过程
在该过程中，我们实际往往会遇到四类问题：
整合（Aggregation）——即分组计算统计量（如求均值、求每组元素个数）
变换（Transformation）——即分组对每个单元的数据进行操作（如元素标准化）
过滤（Filtration）——即按照某些规则筛选出一些组（如选出组内某一指标小于50的组）
综合问题——即前面提及的三种问题的混合

二、groupby函数

分组函数的基本内容：
（a）根据某一列分组

经过groupby后会生成一个groupby对象，该对象本身不会返回任何东西，只有当相应的方法被调用才会起作用
例如取出某一个组：

（b）根据某几列分组
Pandas--分组
（c）组容量与组数

（d）组的遍历

（e）level参数（用于多级索引）和axis参数

2. groupby对象的特点
（a）查看所有可调用的方法

（b）分组对象的head和first

（c）分组依据

（d）groupby的[ ]操作
可以用[ ]选出groupby对象的某个或者某几个列，上面的均分比较可以如下简洁地写出：
Pandas--分组
用列表可选出多个属性列：

（e）连续型变量分组
例如利用cut函数对数学成绩分组：

三、聚合、过滤和变换

聚合（Aggregation）
（a）常用聚合函数
所谓聚合就是把一堆数，变成一个标量，因此mean/sum/size/count/std/var/sem/describe/first/last/nth/min/max都是聚合函数
为了熟悉操作，不妨验证标准误sem函数

标准误＝标准差/sqrt(N)

（b）同时使用多个聚合函数
Pandas--分组

（c）使用自定义函数

（d）利用NamedAgg函数进行多个聚合

（e）带参数的聚合函数

2. 过滤（Filteration）
filter函数是用来筛选某些组的（务必记住结果是组的全体），因此传入的值应当是布尔标量

3. 变换（Transformation）
（a）传入对象
transform函数中传入的对象是组内的列，并且返回值需要与列长完全一致
Pandas--分组
（b）利用变换方法进行组内标准化

（c）利用变换方法进行组内缺失值的均值填充

四、apply函数

apply函数的灵活性
可能在所有的分组函数中，apply是应用最为广泛的，这得益于它的灵活性：
对于传入值而言，从下面的打印内容可以看到是以分组的表传入apply中：

apply函数的灵活性很大程度来源于其返回值的多样性：
用apply同时统计多个指标
此处可以借助OrderedDict工具进行快捷的统计：

Pandas--分组

Pandas分组

一、SAC过程

二、groupby函数

三、聚合、过滤和变换

四、apply函数

相关推荐