大数据平台架构实验六---Spark计算模型

【实验目的】

  1. 掌握大数据处理与分析的基本思路与流程。
  2. 掌握常用的数据载入、数据预处理方法。
  3. 掌握基本的数据分析方法。

【实验要求】

  1. 保存程序,并自行存档;
  2. 最终的程序都必须经过测试,验证是正确的;
  3. 认真记录实验过程及结果,回答实验报告中的问题。

【实施环境】(使用的材料、设备、软件) Linux操作系统环境,python程序设计语言,Jupyter Notebook编程环境。

【实验内容】
某班进行期末语文、数学、英语考试,得到了每位同学的考试成绩,现需要进行成绩的统计(具体数据如图1所示,其中第一列为语文,第二列为数学,第三列为英语)。请使用Spark计算模型,采用python或scala编程语言,完成下列任务计算。

大数据平台架构实验六---Spark计算模型

1.打开jupyter notebook
大数据平台架构实验六---Spark计算模型
2.启动hadoop
大数据平台架构实验六---Spark计算模型
3.桌面新建experiment06文本
大数据平台架构实验六---Spark计算模型
jupyter中新建python3程序,重命名为experiment06
大数据平台架构实验六---Spark计算模型
备注:如果之前运行过sparkContext,需要先停止
大数据平台架构实验六---Spark计算模型
4.1 计算数据集中样本数(行数)
注意这里应先导入findspark,初始化后再导入pyspark
大数据平台架构实验六---Spark计算模型
大数据平台架构实验六---Spark计算模型
4.2 统计并输出单科满分者
大数据平台架构实验六---Spark计算模型
4.3 统计并输出单科0分者
大数据平台架构实验六---Spark计算模型
4.4 统计并输出单科最高分者
大数据平台架构实验六---Spark计算模型
4.5 统计并输出单科的总分
大数据平台架构实验六---Spark计算模型
4.6 统计并输出每人的总分
大数据平台架构实验六---Spark计算模型
4.7 统计并输出总分最高分者
大数据平台架构实验六---Spark计算模型
4.8 统计并输出总分最低分者
大数据平台架构实验六---Spark计算模型
4.9 统计并输出每科平均分
大数据平台架构实验六---Spark计算模型
4.10 统计并输出总分的前三名
大数据平台架构实验六---Spark计算模型
5.关闭hadoop
大数据平台架构实验六---Spark计算模型