利用Python进行数据分析(3):第4章,Pandas入门

琐碎的用法、技巧,快速浏览过一遍。


创建df,columns = list('abcde'),可以少打很多个'引号和,逗号

list('abcdef')


series.value_counts()

for idx, val in series.items()利用Python进行数据分析(3):第4章,Pandas入门:  # zip... 这是一个

    pass


广播 Broadcast

narray

利用Python进行数据分析(3):第4章,Pandas入门

dataframe,竖着减,指定轴

利用Python进行数据分析(3):第4章,Pandas入门

否则,默认会横着减。


apply:好像是向量级操作

df.apply(function, axis=0)  # 默认按列,可选axis=1

利用Python进行数据分析(3):第4章,Pandas入门

dataframe的applymap,series的map:元素级的操作

利用Python进行数据分析(3):第4章,Pandas入门

df['xx'].apply(lambda x: '%.2f' % x) # 对df的某一列进行格式化

汇总和计算描述

利用Python进行数据分析(3):第4章,Pandas入门

df.sum(axis=1, skipna=False) # 横着求和,遇到nan,求和结果是nan

df.idxmax() # 类似于 argmax


series.value_counts()

pd.value_counts(obj.values, sort=False) # 按频率降序,计数

利用Python进行数据分析(3):第4章,Pandas入门

利用Python进行数据分析(3):第4章,Pandas入门

关于NAN

from numpy import nan as NA # 通常这样引入np.nan

isnull

notnull

dropna

np.isnan 好像不能判断df中的nan -_-!

df丢弃全是nan,df.dropna(how='all', axis=0)

fillna


利用Python进行数据分析(3):第4章,Pandas入门

利用Python进行数据分析(3):第4章,Pandas入门


层次化索引

(多重index,好像暂未用到)