大数据之Spark集群安装配置
集群环境及工具
1、Virtual Box
2、CentOS 6.5
3、JDK 1.7
4、SecureCRT
5、WinSCP
6、Spark1.5
注:前提是以上安装三台虚拟机,实现CentOS6.5集群搭建、Hadoop集群搭建、Hive搭建、ZooKeeper集群搭建、kafka集群搭建
为什么要Hadoop集群搭建,因为使用hdfs、hive作为spark计算的数据源
安装Spark
1、使用WinSCP上传到CentOS的/usr/local目录下
2、Spark包进行解压缩 :
进入目录 cd /usr/local
解压缩tar zxvf spark-1.5.1-bin-hadoop2.4.tgz
配置Spark环境变量
1、执行:vi ~/.bashrc
2、配置环境变量如下
#environment variables
export JAVA_HOME=/usr/java/latest
export HADOOP_HOME=/usr/local/hadoop
export HIVE_HOME=/usr/local/hive
export ZOOKEEPER_HOME=/usr/local/zk
export SCALA_HOME=/usr/local/scala
export SPARK_HOME=/usr/local/spark-1.5.1-bin-hadoop2.4
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HIVE_HOME/bin:$ZOOKEEPER_HOME/bin:$SCALA_HOME/bin:$SPARK_HOME/bin
export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
3、环境变量生效执行:source ~/.bashrc
配置spark-env.sh文件
1、进入conf目录 cd /usr/local/spark-1.5.1-bin-hadoop2.4/conf
2、重命名 mv spark-env.sh.template spark-env.sh
3、进入 vi spark-env.sh 中配置如下内容:
export JAVA_HOME=/usr/java/latest
export SCALA_HOME=/usr/local/scala
export SPARK_MASTER_IP=192.168.1.107
export SPARK_WORKER_MEMORY=1g
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
配置slaves文件
1、进入conf目录 cd /usr/local/spark-1.5.1-bin-hadoop2.4/conf
2、重命名 mv slaves.template slaves
3、进入 vi slaves 中配置如下内容:
spark2
spark3
注:表示另外两台集群的工作服务器主机名
安装spark集群
1、拷贝spark-1.5.1-bin-hadoop2.4文件到另外两台工作服务上
执行:
scp -r spark-1.5.1-bin-hadoop2.4 [email protected]:/usr/local/
scp -r spark-1.5.1-bin-hadoop2.4 [email protected]:/usr/local/
2、配置Spark环境变量
与上述的配置步骤与内容是一样的。
启动spark集群
1、进入sbin目录 cd /usr/local/spark-1.5.1-bin-hadoop2.4/sbin/
2、启动spark集群 ./start-all.sh
3、检查集群是否启动成功
访问jsp和8080端口 出现如下界面:
表示Spark集群启动成功
使用spark-shell查看是否正常
1、进入bin目录 cd /usr/local/spark-1.5.1-bin-hadoop2.4/bin/
2、执行 ./spark-shell
出现如下图界面:
3、编写scala 程序检验是否正常执行
注:查看hadoop、spark进程是否在运行,执行 jps 命令查看
不定期会具体写对每个性能优化技术点的文章。请关注头条号 “软件开发漫谈”
https://www.toutiao.com/c/user/4273605754/#mid=4487942026