大数据技术与应用实验七报告 Spark安装配置

大数据技术与应用实验七报告 Spark安装配置
1、官网下载安装Scala：scala-2.12.8.tgz
https://www.scala-lang.org/download/
官网下载安装Spark：spark-2.4.2-bin-hadoop2.7.tgz
https://www.scala-lang.org/download/

2、传输
File→Connect SFTP→→Session
put F:\Scala\scala-2.12.8.tgz
大数据技术与应用实验七报告 Spark安装配置
put F:\Spark\spark-2.4.3-bin-hadoop2.7.tgz

3、解压安装：
（1）tar -zxvf scala-2.12.8.tgz -C /home/sun
大数据技术与应用实验七报告 Spark安装配置
tar -zxvf \spark-2.4.3-bin-hadoop2.7.tgz -C /home/sun

（2）环境变量配置：
在root用户下执行：
命令：vi etc/profile
添加scala的安装路径信息
export SCALA_HOME=/home/sun/scala-2.12.8
export PATH= $PATH:$ SCALA_HOME/bin

添加spark的安装路径信息
export SPARK_HOME=/home/sun/spark-2.4.3
export PATH= $PATH:$ SPARK_HOME/bin

使配置文件生效：：source /etc/profile
测试：启动scala命令测试

4、重命名
（1）把scala-2.12.8 重命名为 scala
运行命令：mv scala-2.12.8 scala

（2）把 spark-2.4.3-bin-hadoop2.7 重命名为 spark
运行命令：mv spark-2.4.3-bin-hadoop2.7 spark

5、测试scala是否安装成功
命令：scala -version
大数据技术与应用实验七报告 Spark安装配置
6、启动
(1)启动scala

(2)启动spark
①首先要启动hadoop 环境
start-all.sh

②启动spark环境
进入到SPARK_HOME/sbin下运行start-all.sh
/home/sun/spark/sbin/start-all.sh
mv scala-2.12.8 scala

[注] 如果使用start-all.sh时候会重复启动hadoop配置，需要./在当前工作目录下执行命令
jps 观察进程多出 worker 和 mater 两个进程。
查看spark的web控制页面：http://bigdata128:8080/
显示spark的端口是7070

③启动Spark Shell
此模式用于interactive programming，先进入bin文件夹后运行：spark-shell
SecureCRT 下 spark-shell 下scala> 命令行无法删除，解决办法：
https://blog.****.net/nicolewjt/article/details/87368749

④退出Spark Shell
scala> :quit

7、使用Spark Shell编写代码
读取本地文件
大数据技术与应用实验七报告 Spark安装配置
显示第一行内容

读取HDFS文件

对上述hdfs根目录下f1.txt文件进行词频统计

查看结果

大数据技术与应用 实验七报告 Spark安装配置

相关推荐

大数据技术与应用实验七报告 Spark安装配置