大数据技术与应用 实验七报告 Spark安装配置
大数据技术与应用 实验七报告 Spark安装配置
1、官网下载安装Scala:scala-2.12.8.tgz
https://www.scala-lang.org/download/
官网下载安装Spark:spark-2.4.2-bin-hadoop2.7.tgz
https://www.scala-lang.org/download/
2、传输
File→Connect SFTP→→Session
put F:\Scala\scala-2.12.8.tgz
put F:\Spark\spark-2.4.3-bin-hadoop2.7.tgz
3、解压安装:
(1)tar -zxvf scala-2.12.8.tgz -C /home/sun
tar -zxvf \spark-2.4.3-bin-hadoop2.7.tgz -C /home/sun(2)环境变量配置:
在root用户下执行:
命令:vi etc/profile
添加scala的安装路径信息
export SCALA_HOME=/home/sun/scala-2.12.8
export PATH=SCALA_HOME/bin
添加spark的安装路径信息
export SPARK_HOME=/home/sun/spark-2.4.3
export PATH=SPARK_HOME/bin
使配置文件生效::source /etc/profile
测试:启动scala命令测试
4、重命名
(1)把scala-2.12.8 重命名为 scala
运行命令:mv scala-2.12.8 scala
(2)把 spark-2.4.3-bin-hadoop2.7 重命名为 spark
运行命令:mv spark-2.4.3-bin-hadoop2.7 spark
5、测试scala是否安装成功
命令:scala -version
6、启动
(1)启动scala
(2)启动spark
①首先要启动hadoop 环境
start-all.sh
②启动spark环境
进入到SPARK_HOME/sbin下运行start-all.sh
/home/sun/spark/sbin/start-all.sh
mv scala-2.12.8 scala
[注] 如果使用start-all.sh时候会重复启动hadoop配置,需要./在当前工作目录下执行命令
jps 观察进程 多出 worker 和 mater 两个进程。
查看spark的web控制页面:http://bigdata128:8080/
显示spark的端口是7070
③启动Spark Shell
此模式用于interactive programming,先进入bin文件夹后运行:spark-shell
SecureCRT 下 spark-shell 下scala> 命令行无法删除,解决办法:
https://blog.****.net/nicolewjt/article/details/87368749
④退出Spark Shell
scala> :quit
7、使用Spark Shell编写代码
读取本地文件
显示第一行内容
读取HDFS文件
对上述hdfs根目录下f1.txt文件进行词频统计
查看结果