数据分析笔记--pandas分组和聚合后的多表连接

import pandas as pd

import numpy as np

显示原始的DataFrame对象和分组聚合之后的DataFrame对象


数据分析笔记--pandas分组和聚合后的多表连接

1.修改聚合运算后的DataFrame对象的列名(因为列名和原始的数据列名重合了)

add_prefix():给列名添加前缀

数据分析笔记--pandas分组和聚合后的多表连接

2.将聚合运算后生成的DataFrame对象,合并到原来的DataFrame对象里(merge)

可以通过merge()将两张表进行连接

主键:数据表里唯一且非空的字段

外键:数据表用来和另一张数据表进行连接的字段

left_on:使用左边数据表的“外键”

right_on:使用右边数据表的“外键”

left_index:使用左边数据表的行索引

right_index:使用右边数据表的行索引

数据分析笔记--pandas分组和聚合后的多表连接


3.将聚合运算后生成的DataFrame对象,合并到原来的DataFrame对象里(transform)

先生成聚合后的DataFrame对象,并给列索引添加前缀

数据分析笔记--pandas分组和聚合后的多表连接

将聚合后的数据和原始数据进行连接

数据分析笔记--pandas分组和聚合后的多表连接

如果不想改变原来的初始数据,可以新建一个空白的DataFrame对象,然后添加原始数据和聚合后的数据

df_obj_new = pd.DataFrame()

df_obj_new[df_obj.columns] = df_obj

df_obj_new[df_obj_sum2.columns] = df_obj_sum2

也能得到同样的结果