阿里云上安装Spark2.4.5+Scala2.11.8
系统环境
Ubuntu16.0
安装版本
Spark2.4.5
Scala2.11.8
Scala安装
- 下载
wget https://downloads.lightbend.com/scala/2.11.8/scala-2.11.8.tgz
- 解压
tar -zxvf scala-2.11.8.tgz
mv scala-2.11.8 scala
- 配置环境变量
export SCALA_HOME=/home/hadoop/scala
export PATH=$SCALA_HOME/bin
- 查看安装结果
scala -version
Spark安装
-
下载
wget https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgz
-
解压
tar -zxvf spark-2.4.5-bin-hadoop2.7.tgz
mv spark-2.4.5-bin-hadoop2.7 spark
-
配置环境变量
export SPARK_HOME=/home/hadoop/spark
export PATH=$SPARK_HOME/bin
-
修改spark内置文件
spark-env.shcp spark-env.sh.template spark-env.sh
相关变量配置按照实际编写export SCALA_HOME=/home/hadoop/Scala export HADOOP_HOME=/home/hadoop/hadoop export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop export SPARK_HOME=/home/hadoop/spark export SPARK_MASTER_IP=master export SPARK_EXECUTOR_MEMORY=1G export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
–
slaves文件cp slaves.template slaves
因为就一台主机,所以也用不着添加
等到后续建立集群可以添加其他节点 -
打开spark shell
$SPARK_HOME/bin/spark-shell
简单使用
对文件计数val textFile = sc.textFile("README.md")
这里的README.md是hadoop上的文件textFile.count()
结果输出文件长度