Spark开发-spark环境搭建

环境准备
master 192.168.18.140
slave1 192.168.18.141
slave2 192.168.18.142
slave3 192.168.18.143
hadoop 2.6
spark 1.6
scala 2.11
java 1.7

hadoop的安装我就在这里不介绍了,直接介绍spark的安装。
1、先安装Scala,这个和Java的安装类似,需要配置好profile文件

2、解压spark安装包,这里我们直接进入spark的conf目录里面,将spark-env.sh.template文件复制一份到spark-env.sh中, 使用命令是cp spark-env.sh.template spark-env.sh.修改spark-env.sh文件
添加如下内容
export JAVA_HOME=/opt/jdk1.7.0_79
export SCALA_HOME=/opt/scala-2.11.4
export SPARK_MASTER_IP=192.168.18.140
export HADOOP_CONF_DIR=/opt/hadoop-2.6.5/etc/hadoop
export SPARK_WORKER_MEMORY=4g
export SPARK_EXECUTOR_MEMORY=1g
export SPARK_DRIVER_MEMORY=4G
export SPARK_WORKER_CORES=8

3、在conf目录下面将spark-defaults.conf.template文件复制一份到spark-defaults.conf。修改spark-defaults.conf中的内容,添加
spark.eventLog.enabled true
spark.eventLog.dir hdfs://192.168.18.140:9000/historySpark
spark.yarn.historyServer.address 192.168.18.140:18080
spark.history.fs.logDirectory hdfs://192.168.18.140:9000/historySpark
spark.executor.extraJavaOptions -XX:+PrintGCDetails -Dkey=value -Dnumbers=”one two three”

4、创建spark运行日志的路径 historySpark
hadoop fs -mkdir /historySpark

5、修改slaves文件添加work节点
slave1
slave2
slave3

6、通过scp命令将spark的包拷贝到work节点上面

7、启动Hadoop 这里就不介绍了

8、启动spark,进入spark的sbin目录,用./start-all.sh命令启动spark服务,在通过./start-history-server.sh启动spark的查看历史日志的服务
启动以后我们可以通过浏览器来查看spark的ui
http://192.168.18.140:8080/
http://192.168.18.140:18080/
Spark开发-spark环境搭建
Spark开发-spark环境搭建

9、测试spark集群
进入bin目录运行下面这个命令,计算圆周率的
[[email protected] bin]# ./spark-submit –class org.apache.spark.examples.SparkPi –master spark://192.168.18.140:7077 ../lib/spark-examples-1.6.3-hadoop2.6.0.jar 100

运行以后我们可以通过8080的端口查看到运行的application
Spark开发-spark环境搭建
我们也可以从运行的日志中看到计算出来的Pi
Spark开发-spark环境搭建

以上说明spark已经安装成功了