大数据环境搭建

1. 环境准备. 2

1.1 准备目录(以下涉及的安装路径按照此路径) 2

1.2 准备资源. 2

2. 安装hadoop集群.. 3

2.1 修改机器名称（三台）. 3

2.2 修改/etc/hosts文件（三台）. 4

2.3 三台机器实现免密登录.. 5

2.3.1 三台机器均执行以下操作，生成公私钥.. 5

2.3.2 本机与另外两台机器共享公私钥（需要输入登录密码）. 6

2.3.3 验证免密登录.. 7

2.4 安装hadoop集群（三台均要）. 7

2.4.1 新建几个目录.. 7

2.4.2 修改hadoop配置文件.. 8

2.5 启动hadoop 13

2.5.1 在nadeNode执行初始化.. 13

2.5.2 在namenode上执行启动命令.. 15

2.6 测试.. 16

3. 安装scala(三台机器操作一致) 17

3.1 配置环境变量.. 17

3.2 验证scala 18

4. spark安装配置（三台均要）. 18

4.1 环境变量配置.. 18

4.2 配置conf目录下的文件.. 19

4.2.1 新建spark-env.sh文件.. 19

4.2.2 新建salves文件.. 20

4.3 启动和测试spark集群.. 20

4.3.1 启动spark 20

4.3.2 测试.. 21

4.3.3 运行spark提供的计算圆周率.. 21

1.环境准备

1. 准备目录(以下涉及的安装路径按照此路径)

/ u01/micsdev/software 软件源文件

命令如下：

mkdir /u01/micsdev

mkdir /u01/micsdev/software

1. 准备资源

（注：

1.准备三台物理机，一主二从，主机IP为10.33.21.120,命名Master;一从IP为10.32.18.11，命名Slaver1;另一从IP为10.32.151.2，命名Slaver2;

2.jdk1.8已经安装，路径为：/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.161-2.b14.el7.x86_64/jre

3.资源下载环境：http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.8.0/hadoop-2.8.0.tar.gz

https://www.scala-lang.org/download/

http://spark.apache.org/downloads.html）

通过ftp上传需要的软件文件到/u01/micsdev/software目录

并通过tar -xvf xxx.tar.gz进行解压

hadoop集群，spark集群搭建

2.安装hadoop集群

2.1修改机器名称（三台）

hadoop集群，spark集群搭建

2.2修改/etc/hosts文件(三台机器都要)

vi /etc/hosts （增加红框中内容）

hadoop集群，spark集群搭建

配置为测试三台机器能否ping得通

hadoop集群，spark集群搭建

2.3 三台机器实现免密登录

2.3.1三台机器均执行以下操作，生成公私钥

hadoop集群，spark集群搭建

2.3.2本机与另外两台机器共享公私钥（需要输入登录密码）

hadoop集群，spark集群搭建

2.3.3 验证免密登录

hadoop集群，spark集群搭建

2.4安装hadoop集群（三台机器操作一致，三台机器操作都如下）

2.4.1新建几个目录

mkdir /root/hadoop

mkdir /root/hadoop/tmp

mkdir /root/hadoop/var

mkdir /root/hadoop/dfs

mkdir /root/hadoop/dfs/name

mkdir /root/hadoop/dfs/data

hadoop集群，spark集群搭建

2.4.2修改hadoop配置文件

切换到/u01/micsdev/software/hadoop-2.8.0/etc/Hadoop 目录下，修改以下文件

hadoop集群，spark集群搭建

不存在的文件直接从template中复制改名，如下

hadoop集群，spark集群搭建

2.4.2.1mapred-env.sh修改java_home指向安装路径

hadoop集群，spark集群搭建

2.4.2.2 hadoop-env.sh修改java_home为具体安装路径，并加hadoop_prefix指向其安装路径

hadoop集群，spark集群搭建

2.4.2.3 core-site.xml增加以下配置（Master为主机机器名）

hadoop集群，spark集群搭建

2.4.2.4 yarn-site.xml增加以下配置

hadoop集群，spark集群搭建

2.4.2.5 hdfs-site.xml增加以下配置，表示备份为2

hadoop集群，spark集群搭建

2.4.2.6 mapred-site.xml增加以下配置，默认yarn为资源管理器

hadoop集群，spark集群搭建

2.4.2.7 slaves 中放入二从机器名

hadoop集群，spark集群搭建

2.5 启动hadoop

2.5.1在nameNode执行初始化

因为Master是namenode，Slaver1和Slaver2都是datanode，所以只需要对Master进行初始化操作，也就是对hdfs进行格式化。

进入到Master这台机器的/u01/micsdev/software/hadoop-2.8.0/bin目录，也就是执行命令：cd /u01/micsdev/software/hadoop-2.8.0/bin

初始化命令：./hadoop namenode –format (每次重启需要执行一次)

hadoop集群，spark集群搭建

格式化成功后，可以在看到在/root/hadoop/dfs/name/目录多了一个current目录，而且该目录内有一系列文件

hadoop集群，spark集群搭建

2.5.2在namenode上执行启动命令

进入到Master这台机器的/u01/micsdev/software/hadoop-2.8.0/sbin目录，也就是执行命令：cd /u01/micsdev/software/hadoop-2.8.0/sbin

1.启动命令：

./start-all.sh

hadoop集群，spark集群搭建

单独启动

hadoop集群，spark集群搭建

2.6 测试

http://10.33.21.120:50070(Master机ip)

hadoop集群，spark集群搭建

http://10.33.21.120:8088

hadoop集群，spark集群搭建

3.安装scala （三台机器操作一致）

3.1配置环境变量

vi /etc/profile

path加入最小红框中内容

hadoop集群，spark集群搭建

3.2 验证scala(有显示版本号则成功)

hadoop集群，spark集群搭建

4.Spark安装配置（三台机器的操作一致）

4.1 环境变量配置

vi /etc/profile

增加红框中内容

hadoop集群，spark集群搭建

4.2 配置conf目录下的文件

进入到/u01/micsdev/software/spark-2.4.3-bin-hadoop2.7/conf目录下，执行命令

cd /u01/micsdev/software/spark-2.4.3-bin-hadoop2.7/conf

4.2.1 新建spark-env.sh文件

cp spark-env.sh.template spark-env.sh

vi spark-env.sh

加入以下内容

hadoop集群，spark集群搭建

4.2.2 新建slaves文件

cp slaves.template slaves

vi slaves

加入红框中内容

hadoop集群，spark集群搭建

4.3启动和测试Spark集群

4.3.1启动spark

因为spark是依赖于hadoop提供的分布式文件系统的，所以在启动spark之前，先确保hadoop在正常运行。

在hadoop正常运行的情况下，在Master（也就是hadoop的namenode，spark的marster节点）上执行命令：

cd /u01/micsdev/software/spark-2.4.3-bin-hadoop2.7/sbin

执行启动脚本：

./start-all.sh

hadoop集群，spark集群搭建

4.3.2测试

输入http://10.33.21.120:8888/（以下表示集群启动成功）

hadoop集群，spark集群搭建

4.3.3 运行Spark提供的计算圆周率的示例程序

第一步，进入到Spark的根目录：cd /u01/micsdev/software/spark-2.4.3-bin-hadoop2.7

第二步，调用Spark自带的计算圆周率的Demo，执行下面的命令：

./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local examples/jars/spark-examples_2.11-2.4.3.jar

hadoop集群，spark集群搭建

hadoop集群，spark集群搭建

1.环境准备

2.安装hadoop集群

2.1修改机器名称（三台）

2.3 三台机器实现免密登录

2.3.1三台机器均执行以下操作，生成公私钥

2.3.2本机与另外两台机器共享公私钥（需要输入登录密码）

2.3.3 验证免密登录

2.4安装hadoop集群（三台机器操作一致，三台机器操作都如下）

2.4.1新建几个目录

2.4.2修改hadoop配置文件

2.5 启动hadoop

2.5.1在nameNode执行初始化

2.5.2在namenode上执行启动命令

2.6 测试

3.安装scala （三台机器操作一致）

3.1配置环境变量

3.2 验证scala(有显示版本号则成功)

4.Spark安装配置（三台机器的操作一致）

4.1 环境变量配置

4.2 配置conf目录下的文件

4.2.1 新建spark-env.sh文件

4.2.2 新建slaves文件

4.3启动和测试Spark集群

4.3.1启动spark

4.3.2测试

4.3.3 运行Spark提供的计算圆周率的示例程序

相关推荐