基于Python的数据分析与数据挖掘教程之四: 数据简单处理
Pandas数据的简单计算是通过对表中数据各字段进行加、减、乘、除的四则运算,得出新的结果,以便对数据有更好的分析与决策。
这是本文要分析的表数据。是学生表。
学号 |
班级 |
姓名 |
性别 |
政治 |
数据库 技术 |
高数 |
C语言 程序设计 |
网页 设计 |
数据分析 与挖掘 |
182024241 |
1820242 |
成晨 |
男 |
86 |
75 |
78 |
60 |
62 |
45 |
182024244 |
1820242 |
周玲 |
女 |
76 |
80 |
91 |
44 |
87 |
72 |
182024251 |
1820242 |
张伟波 |
男 |
95 |
92 |
81 |
60 |
66 |
61 |
182024249 |
1820242 |
朱吉 |
男 |
75 |
89 |
50 |
71 |
73 |
71 |
182024219 |
1820242 |
邱玲 |
女 |
63 |
84 |
88 |
46 |
67 |
61 |
182024201 |
1820242 |
陈培 |
男 |
71 |
86 |
50 |
71 |
82 |
69 |
182024347 |
1820243 |
李洁华 |
女 |
76 |
85 |
61 |
78 |
85 |
65 |
182024307 |
1820243 |
陈珍 |
男 |
|
90 |
79 |
69 |
66 |
60 |
182024326 |
1820243 |
余龙 |
男 |
56 |
84 |
67 |
|
71 |
60 |
182024320 |
1820243 |
李佳 |
女 |
72 |
84 |
67 |
77 |
83 |
64 |
182024342 |
1820243 |
李小龙 |
男 |
80 |
56 |
90 |
60 |
87 |
61 |
182024310 |
1820243 |
郭芙 |
女 |
89 |
88 |
67 |
79 |
76 |
68 |
182024435 |
1820244 |
姜涛 |
男 |
83 |
|
71 |
76 |
92 |
61 |
182024432 |
1820244 |
赵龙宇 |
男 |
90 |
81 |
74 |
71 |
93 |
63 |
182024446 |
1820244 |
周洁 |
女 |
82 |
77 |
80 |
80 |
84 |
78 |
182024421 |
1820244 |
王建祥 |
男 |
66 |
91 |
72 |
75 |
94 |
69 |
182024433 |
1820244 |
李强 |
男 |
75 |
93 |
76 |
70 |
77 |
70 |
182024428 |
1820244 |
林宇通 |
男 |
63 |
85 |
96 |
77 |
66 |
72 |
182024402 |
1820244 |
周慧 |
女 |
82 |
82 |
74 |
75 |
65 |
86 |
182024422 |
1820244 |
郭晓亮 |
男 |
86 |
65 |
60 |
83 |
80 |
53 |
182024342 |
1820243 |
李小龙 |
男 |
80 |
56 |
90 |
60 |
87 |
61 |
182024307 |
1820243 |
陈珍 |
男 |
|
90 |
79 |
69 |
66 |
60 |
数据的处理过程:
1、导入数据,查看数据量(有几行几列):结果为22行10列。
2、查看是否有重复有记录,有则删除:表名.duplicated(),查看是否有重复记录
(1):结果显示有两条记录重复输入了。
(2)、有重复,则删除重复记录,并查看记录:原有22条记录,删除重复记录后有20条记录。
3、查看记录中数据是否存在空值,如果存在,用0填入:isnull(),判断是否为空值。
(1)、判断哪些字段存在空值
(2)、在空值数据中以0填充,并查看。
4、去除数据中的空格,并把数据转为float型数据
(1)、去除数据中的空格。
(2)、因去除空格后,数据变为字符型,所以要把数据变为float型。
5、计算每个同学的总分,并显示前5条记录
6、统计量 describle:对数据做一些基本描述,默认为计算计算数据的基本统计量。
7、频数与频率
(1)、频数
计算学生表中男、女同学的人数。
(2)、频率
计算男、女所占比率
8、在student2中增加一列:平均分,并由总分算出平均分,并显示前5条记录。
9、对成绩进行分类:平均分大于等于80分的为“优秀”,在[70,80)之间为“良好”,70分以下为“一般”
10、求某一学科的平均值