python数据清洗之学习总结(五、数据清洗之数据统计)

1.数据分组运算

  1. 使用groupby方法进行分组计算,得到分组对象GroupBy
  2. 语法为df.groupby(by=)
  3. 分组对象GroupBy可以运用描述性统计方法, 如count、mean 、 median、 max和min等
    python数据清洗之学习总结(五、数据清洗之数据统计)

2. 聚合函数使用

  1. 对分组对象使用agg聚合函数
  2. Groupby.agg(func)
  3. 针对不同的变量使用不同的统计方法
    python数据清洗之学习总结(五、数据清洗之数据统计)
    python数据清洗之学习总结(五、数据清洗之数据统计)

3. 分组对象与apply函数

  1. 函数apply即可用于分组对象,也可以作用于dataframe数据
  2. Groupby.apply(func)
  3. 需要注意axis=0和axis=1的区别
    python数据清洗之学习总结(五、数据清洗之数据统计)
    python数据清洗之学习总结(五、数据清洗之数据统计)

4. 透视图与交叉表

透视图

pivot_table( data, index, columns,values, aggfunc, fill_value, margins, margins_name=)
index,columns 行分组键,列分组键
value 分组的字段,只能为数量型变量
aggfunc 后接聚合函数
margins 是否需要总计
margins_name 总结名称 默认为 all
python数据清洗之学习总结(五、数据清洗之数据统计)

交叉表用于计算分组频率

pd.crosstab(index,columns,normalize)
Index: 行索引
Columns: 列索引
Normalize: 数据对数据进行标准化,index表示行,column表示列
python数据清洗之学习总结(五、数据清洗之数据统计)