pandas的拼接操作

1.使用pd.concat()级联

①简单级联:df1和df2的行列相同

pd.concat((df1,df2),axis=0) 默认是垂直级联；如果axis=1的话就是水平级联
pandas的拼接操作

ignore_index=False 默认不改变原来的索引，True的话就会删除原索引，由递增的0，1，2，3代替。
keys=[‘df1’,‘df2’] 使用多层索引：
pandas的拼接操作

②不匹配级联

不匹配指的是级联的维度的索引不一致。例如纵向级联时列索引不一致，横向级联时行索引不一致
pandas的拼接操作

1)外连接，没有的补NaN（默认）
2)内连接，只连接匹配的项
3)连接指定轴join_axes
pandas的拼接操作

③使用append()函数添加

由于在后面级联的使用非常普遍，因此有一个函数append专门用于在后面添加。默认垂直添加

2.使用pd.merge()合并

merge与concat的区别在于，merge需要依据某一共同的行或列来进行合并(要求合并的两个DataFrame 必须有一行或者一列有相同的值)
使用pd.merge()合并时，会自动根据两者相同column名称的那一列，作为key来进行合并。
注意每一列元素的顺序不要求一致
pandas的拼接操作

1）一对一合并
2）多对一合并
3）多对多合并

4）key的规范化

使用on=显式指定哪一列为key,当有多个key相同时使用 pd.merge(df1,df2,on=‘name’)
使用left_on和right_on指定左右两边的列作为key，当左右两边的key都不相等时使用 pd.merge(df1,df2,left_on=‘name’,right_on=‘姓名’)
当左边的列和右边的index相同的时候,使用right_index=True pd.merge(df1,df2,left_on=‘age’,right_index=True)

5)内合并与外合并
-内合并：只保留两者都有的key（默认）how=‘inner’
-外合并：how=‘outer’，没有的值补NaN

左合并、右合并：how=‘left’，how=‘right’（外合并与mysql中的表格的连接方式一样，以一个表为标准，没有的补NaN）

6）列冲突的解决
当列冲突时，即有多个列名称相同时，需要使用on=来指定哪一个列作为key，配合suffixes指定冲突列名
可以使用suffixes=自己指定后缀
例如：
pandas的拼接操作

pandas的拼接操作

pandas的拼接操作

1.使用pd.concat()级联

①简单级联:df1和df2的行列相同

②不匹配级联

③使用append()函数添加

2.使用pd.merge()合并

相关推荐