hadoop集群,spark集群搭建

大数据环境搭建

目录

1. 环境准备. 2

1.1  准备目录(以下涉及的安装路径按照此路径) 2

1.2  准备资源. 2

2. 安装hadoop集群.. 3

2.1  修改机器名称(三台. 3

2.2  修改/etc/hosts文件三台. 4

2.3  三台机器实现免密登录.. 5

2.3.1 三台机器均执行以下操作,生成公私.. 5

2.3.2 本机与另外两台机器共享公私钥(需要输入登录密码. 6

2.3.3 验证免密登录.. 7

2.4  安装hadoop集群三台. 7

2.4.1 新建几个目录.. 7

2.4.2 修改hadoop配置文件.. 8

2.5  启动hadoop 13

2.5.1 在nadeNode执行初始化.. 13

2.5.2 在namenode执行启动命令.. 15

2.6  测试.. 16

3. 安装scala(三台机器操作一致) 17

3.1  配置环境变量.. 17

3.2  验证scala 18

4. spark安装配置(三台均要). 18

4.1  环境变量配置.. 18

4.2  配置conf目录下的文件.. 19

4.2.1 新建spark-env.sh文件.. 19

4.2.2 新建salves文件.. 20

4.3  启动和测试spark集群.. 20

4.3.1 启动spark 20

4.3.2 测试.. 21

4.3.3 运行spark提供的计算圆周率.. 21

 

 

 

 

1.环境准备

    1. 准备目录(以下涉及的安装路径按照此路径)

/ u01/micsdev/software        软件源文件

命令如下:

mkdir /u01/micsdev

mkdir /u01/micsdev/software

 

    1. 准备资源

(注:

1.准备三台物理机,一主二从,主机IP为10.33.21.120,命名Master;一从IP为10.32.18.11,命名Slaver1;另一从IP为10.32.151.2,命名Slaver2;

2.jdk1.8已经安装,路径为:/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.161-2.b14.el7.x86_64/jre

3.资源下载环境:http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.8.0/hadoop-2.8.0.tar.gz

https://www.scala-lang.org/download/

http://spark.apache.org/downloads.html

 

通过ftp上传需要的软件文件到/u01/micsdev/software目录

并通过tar -xvf  xxx.tar.gz进行解压

hadoop集群,spark集群搭建

 

2.安装hadoop集群

2.1修改机器名称(三台)

hadoop集群,spark集群搭建

hadoop集群,spark集群搭建

hadoop集群,spark集群搭建

2.2修改/etc/hosts文件(三台机器都要)

     vi /etc/hosts (增加红框中内容)

hadoop集群,spark集群搭建

配置为测试三台机器能否ping得通

hadoop集群,spark集群搭建

2.3 三台机器实现免密登录

2.3.1三台机器均执行以下操作,生成公私钥

hadoop集群,spark集群搭建

2.3.2本机与另外两台机器共享公私钥(需要输入登录密码)

hadoop集群,spark集群搭建hadoop集群,spark集群搭建hadoop集群,spark集群搭建

2.3.3 验证免密登录

hadoop集群,spark集群搭建

2.4安装hadoop集群(三台机器操作一致,三台机器操作都如下)

2.4.1新建几个目录

mkdir  /root/hadoop

mkdir  /root/hadoop/tmp

mkdir  /root/hadoop/var

mkdir  /root/hadoop/dfs

mkdir  /root/hadoop/dfs/name

mkdir  /root/hadoop/dfs/data

hadoop集群,spark集群搭建

2.4.2修改hadoop配置文件

切换到/u01/micsdev/software/hadoop-2.8.0/etc/Hadoop 目录下,修改以下文件

hadoop集群,spark集群搭建

不存在的文件直接从template中复制改名,如下

hadoop集群,spark集群搭建

2.4.2.1mapred-env.sh修改java_home指向安装路径

hadoop集群,spark集群搭建

2.4.2.2 hadoop-env.sh修改java_home为具体安装路径,并加hadoop_prefix指向其安装路径

hadoop集群,spark集群搭建hadoop集群,spark集群搭建

2.4.2.3 core-site.xml增加以下配置(Master为主机机器名)

hadoop集群,spark集群搭建

2.4.2.4 yarn-site.xml增加以下配置

hadoop集群,spark集群搭建

2.4.2.5 hdfs-site.xml增加以下配置,表示备份为2

hadoop集群,spark集群搭建

2.4.2.6 mapred-site.xml增加以下配置,默认yarn为资源管理器

hadoop集群,spark集群搭建

2.4.2.7 slaves 中放入二从机器名

hadoop集群,spark集群搭建

2.5 启动hadoop

2.5.1在nameNode执行初始化

因为Master是namenode,Slaver1和Slaver2都是datanode,所以只需要对Master进行初始化操作,也就是对hdfs进行格式化。

进入到Master这台机器的/u01/micsdev/software/hadoop-2.8.0/bin目录,也就是执行命令cd  /u01/micsdev/software/hadoop-2.8.0/bin

初始化命令:./hadoop namenode –format (每次重启需要执行一次)

hadoop集群,spark集群搭建

hadoop集群,spark集群搭建

 

格式化成功后,可以在看到在/root/hadoop/dfs/name/目录多了一个current目录,而且该目录内有一系列文件

hadoop集群,spark集群搭建

2.5.2在namenode上执行启动命令

进入到Master这台机器的/u01/micsdev/software/hadoop-2.8.0/sbin目录,也就是执行命令cd  /u01/micsdev/software/hadoop-2.8.0/sbin

1.启动命令:

./start-all.sh

hadoop集群,spark集群搭建

  1. 单独启动

hadoop集群,spark集群搭建

2.6 测试

http://10.33.21.120:50070(Master机ip)

hadoop集群,spark集群搭建

http://10.33.21.120:8088

hadoop集群,spark集群搭建

3.安装scala   (三台机器操作一致)  

3.1配置环境变量

vi   /etc/profile

path加入最小红框中内容

hadoop集群,spark集群搭建

3.2 验证scala(有显示版本号则成功)

hadoop集群,spark集群搭建

4.Spark安装配置(三台机器的操作一致)

4.1 环境变量配置

vi   /etc/profile

增加红框中内容

hadoop集群,spark集群搭建

4.2 配置conf目录下的文件

进入到/u01/micsdev/software/spark-2.4.3-bin-hadoop2.7/conf目录下,执行命令

cd /u01/micsdev/software/spark-2.4.3-bin-hadoop2.7/conf

4.2.1 新建spark-env.sh文件

cp    spark-env.sh.template   spark-env.sh

vi spark-env.sh

加入以下内容

hadoop集群,spark集群搭建

4.2.2 新建slaves文件

cp    slaves.template   slaves

vi slaves

加入红框中内容

hadoop集群,spark集群搭建

4.3启动和测试Spark集群

4.3.1启动spark

 因为spark是依赖于hadoop提供的分布式文件系统的,所以在启动spark之前,先确保hadoop在正常运行。

在hadoop正常运行的情况下,在Master(也就是hadoop的namenode,spark的marster节点)上执行命令:

 

   cd   /u01/micsdev/software/spark-2.4.3-bin-hadoop2.7/sbin

 

    执行启动脚本:

 

  ./start-all.sh

hadoop集群,spark集群搭建

4.3.2测试

输入http://10.33.21.120:8888/(以下表示集群启动成功)

hadoop集群,spark集群搭建

4.3.3  运行Spark提供的计算圆周率的示例程序

第一步,进入到Spark的根目录cd  /u01/micsdev/software/spark-2.4.3-bin-hadoop2.7

第二步,调用Spark自带的计算圆周率的Demo,执行下面的命令:

./bin/spark-submit  --class  org.apache.spark.examples.SparkPi  --master local   examples/jars/spark-examples_2.11-2.4.3.jar

hadoop集群,spark集群搭建hadoop集群,spark集群搭建