利用Python进行数据分析(3):第4章,Pandas入门
琐碎的用法、技巧,快速浏览过一遍。
创建df,columns = list('abcde'),可以少打很多个'引号和,逗号
list('abcdef')
series.value_counts()
for idx, val in series.items(): # zip... 这是一个
pass
广播 Broadcast
narray
dataframe,竖着减,指定轴
否则,默认会横着减。
apply:好像是向量级的操作
df.apply(function, axis=0) # 默认按列,可选axis=1
dataframe的applymap,series的map:元素级的操作
df['xx'].apply(lambda x: '%.2f' % x) # 对df的某一列进行格式化
汇总和计算描述
df.sum(axis=1, skipna=False) # 横着求和,遇到nan,求和结果是nan
df.idxmax() # 类似于 argmax
series.value_counts()
pd.value_counts(obj.values, sort=False) # 按频率降序,计数
关于NAN
from numpy import nan as NA # 通常这样引入np.nan
isnull
notnull
dropna
np.isnan 好像不能判断df中的nan -_-!
df丢弃全是nan的行,df.dropna(how='all', axis=0)
fillna
层次化索引
(多重index,好像暂未用到)