大数据平台架构实验六---Spark计算模型

【实验目的】

掌握大数据处理与分析的基本思路与流程。

掌握常用的数据载入、数据预处理方法。

掌握基本的数据分析方法。

【实验要求】

保存程序，并自行存档；

最终的程序都必须经过测试，验证是正确的；

认真记录实验过程及结果，回答实验报告中的问题。

【实施环境】（使用的材料、设备、软件） Linux操作系统环境，python程序设计语言，Jupyter Notebook编程环境。

【实验内容】
某班进行期末语文、数学、英语考试，得到了每位同学的考试成绩，现需要进行成绩的统计（具体数据如图1所示，其中第一列为语文，第二列为数学，第三列为英语）。请使用Spark计算模型，采用python或scala编程语言，完成下列任务计算。

1.打开jupyter notebook
大数据平台架构实验六---Spark计算模型
2.启动hadoop

3.桌面新建experiment06文本

jupyter中新建python3程序，重命名为experiment06

备注：如果之前运行过sparkContext，需要先停止

4.1 计算数据集中样本数（行数）
注意这里应先导入findspark，初始化后再导入pyspark
大数据平台架构实验六---Spark计算模型

4.2 统计并输出单科满分者

4.3 统计并输出单科0分者

4.4 统计并输出单科最高分者

4.5 统计并输出单科的总分

4.6 统计并输出每人的总分

4.7 统计并输出总分最高分者

4.8 统计并输出总分最低分者
大数据平台架构实验六---Spark计算模型
4.9 统计并输出每科平均分

4.10 统计并输出总分的前三名

5.关闭hadoop

大数据平台架构实验六---Spark计算模型

相关推荐