如何在pandas中输出groupby输出?
问题描述:
我有一个数据帧有4列(A,B,C,D)。 D有一些NaN条目。我想用具有相同A,B,C值的D的平均值填充NaN值。例如,如果A,B,C,D的值分别为x,y,z和Nan,那么我希望将NaN值替换为D的平均值,其中A ,B,C分别是x,y,z。如何在pandas中输出groupby输出?
答
我想你需要:
df.D = df.groupby(['A','B','C'])['D'].apply(lambda x: x.fillna(x.mean()))
样品:
df = pd.DataFrame({'A':[1,1,1,3],
'B':[1,1,1,3],
'C':[1,1,1,3],
'D':[1,np.nan,3,5]})
print (df)
A B C D
0 1 1 1 1.0
1 1 1 1 NaN
2 1 1 1 3.0
3 3 3 3 5.0
df.D = df.groupby(['A','B','C'])['D'].apply(lambda x: x.fillna(x.mean()))
print (df)
A B C D
0 1 1 1 1.0
1 1 1 1 2.0
2 1 1 1 3.0
3 3 3 3 5.0
答
链接复制这个问题作进一步的信息: Pandas Dataframe: Replacing NaN with row average
做在提到的另一个建议方式链接在转置上使用简单的填充物: df.T.fillna(df.mean(axis=1)).T
答
df['D'].fillna(df.groupby(['A','B','C'])['D'].transform('mean'))
将快于apply
In [2400]: df
Out[2400]:
A B C D
0 1 1 1 1.0
1 1 1 1 NaN
2 1 1 1 3.0
3 3 3 3 5.0
In [2401]: df['D'].fillna(df.groupby(['A','B','C'])['D'].transform('mean'))
Out[2401]:
0 1.0
1 2.0
2 3.0
3 5.0
Name: D, dtype: float64
In [2402]: df['D'] = df['D'].fillna(df.groupby(['A','B','C'])['D'].transform('mean'))
In [2403]: df
Out[2403]:
A B C D
0 1 1 1 1.0
1 1 1 1 2.0
2 1 1 1 3.0
3 3 3 3 5.0
详细
In [2396]: df.shape
Out[2396]: (10000, 4)
In [2398]: %timeit df['D'].fillna(df.groupby(['A','B','C'])['D'].transform('mean'))
100 loops, best of 3: 3.44 ms per loop
In [2397]: %timeit df.groupby(['A','B','C'])['D'].apply(lambda x: x.fillna(x.mean()))
100 loops, best of 3: 5.34 ms per loop
如果我或另一种答案是有帮助的,不要忘了[接受](HTTP://meta.stackexchange .com/a/5235/295067) - 点击答案旁边的复选标记('✓'),将其从灰色变为填充。谢谢。 – jezrael