第1章 Pandas基础

一、基础知识

1、读取:df = pd.read_csv('data/table.csv')

2、写入:df.to_csv('data/new_table.csv')【可用于结果输出】

第1章 Pandas基础

二、基本数据结构

series && dataframe

第1章 Pandas基础

series的属性:

.values;

.name

.index

.dtype

series方法:

mean();

第1章 Pandas基础

第1章 Pandas基础

dataframe属性:

.index

.columns.

.values

.shape【返回几行几列】

dataframe方法:

mean();std();sum();....

第1章 Pandas基础

第1章 Pandas基础

第1章 Pandas基础

第1章 Pandas基础

第1章 Pandas基础

第1章 Pandas基础

三、常用基本函数

1. head和tail

2. unique和nunique

第1章 Pandas基础

3. count和value_counts

第1章 Pandas基础

4. describe和info

第1章 Pandas基础

第1章 Pandas基础

第1章 Pandas基础

第1章 Pandas基础

5. idxmax和nlargest

第1章 Pandas基础

6. clip和replace

第1章 Pandas基础

第1章 Pandas基础

第1章 Pandas基础

第1章 Pandas基础

第1章 Pandas基础

第1章 Pandas基础

四、作业

1. 问题

【问题一】 Series和DataFrame有哪些常见属性和方法?

属性:Size shape dtypes index columns

方法:Head tail rename(更改行中的数据) replace unique_values sort_values describe max\min\sum\mean

【问题二】 value_counts会统计缺失值吗?

不能

第1章 Pandas基础

【问题三】 与idxmax和nlargest功能相反的是哪两组函数?

idmax(返回最大值)——idxmin(返回最小值)

nlargest(返回前几个大的元素值)——nsmallest(返回前几个小的元素值)

【问题四】 在常用函数一节中,由于一些函数的功能比较简单,因此没有列入,现在将它们列在下面,请分别说明它们的用途并尝试使用。

sum:

  • df.sum():计算和,axis=0 按列计算,axis=1 按行计算,默认axis=0。

mean

  • df.mean():计算平均值,axis=0 按列计算,axis=1 按行计算,默认axis=0。

median

  • df.median():计算中位数,axis=0 按列计算,axis=1 按行计算,默认axis=0。

mad

  • df.mad():根据平均值计算平均绝对偏差,axis=0 按列计算,axis=1 按行计算,默认axis=0。

min

  • df.min():计算最小值,axis=0 按列计算,axis=1 按行计算,默认axis=0。

max

  • df.max():计算最大值,axis=0 按列计算,axis=1 按行计算,默认axis=0。

abs

  • df.abs():计算绝对值,axis=0 按列计算,axis=1 按行计算,默认axis=0。

std

  • df.std():计算标准差,axis=0 按列计算,axis=1 按行计算,默认axis=0。

var

  • df.var():计算方差,axis=0 按列计算,axis=1 按行计算,默认axis=0。

quantile

     quantile(q=0.75),→ quantile统计分位数,参数q确定位置

cummax:依次给出前1、2.。。n个数的最大值

cumsum

  • df.cumsum():计算累计求和,axis=0 按列计算,axis=1 按行计算,默认axis=0。

cumprod:依次给出前1、2.。。n个数的积

第1章 Pandas基础

第1章 Pandas基础

第1章 Pandas基础

第1章 Pandas基础

第1章 Pandas基础

【问题五】 df.mean(axis=1)是什么意思?它与df.mean()的结果一样吗?第一问提到的函数也有axis参数吗?怎么使用?

axis=0 按列计算,axis=1 按行计算,默认axis=0。

 

2. 练习

【练习一】 现有一份关于美剧《权力的游戏》剧本的数据集,请解决以下问题:

(a)在所有的数据中,一共出现了多少人物?

第1章 Pandas基础

(b)以单元格计数(即简单把一个单元格视作一句),谁说了最多的话?

(c)以单词计数,谁说了最多的单词?

【练习二】现有一份关于科比的投篮数据集,请解决如下问题:

(a)哪种action_type和combined_shot_type的组合是最多的?

(b)在所有被记录的game_id中,遭遇到最多的opponent是一个支?