hadoop集群,spark集群搭建
大数据环境搭建
目录
2.3.2 本机与另外两台机器共享公私钥(需要输入登录密码). 6
2.5 启动hadoop 13
2.6 测试.. 16
3.1 配置环境变量.. 17
3.2 验证scala 18
4.1 环境变量配置.. 18
4.3.2 测试.. 21
1.环境准备
/ u01/micsdev/software 软件源文件
命令如下:
mkdir /u01/micsdev
mkdir /u01/micsdev/software
(注:
1.准备三台物理机,一主二从,主机IP为10.33.21.120,命名Master;一从IP为10.32.18.11,命名Slaver1;另一从IP为10.32.151.2,命名Slaver2;
2.jdk1.8已经安装,路径为:/usr/lib/jvm/java-1.8.0-openjdk-1.8.0.161-2.b14.el7.x86_64/jre
3.资源下载环境:http://www.apache.org/dyn/closer.cgi/hadoop/common/hadoop-2.8.0/hadoop-2.8.0.tar.gz
https://www.scala-lang.org/download/
http://spark.apache.org/downloads.html)
通过ftp上传需要的软件文件到/u01/micsdev/software目录
并通过tar -xvf xxx.tar.gz进行解压
2.安装hadoop集群
2.1修改机器名称(三台)
2.2修改/etc/hosts文件(三台机器都要)
vi /etc/hosts (增加红框中内容)
配置为测试三台机器能否ping得通
2.3 三台机器实现免密登录
2.3.1三台机器均执行以下操作,生成公私钥
2.3.2本机与另外两台机器共享公私钥(需要输入登录密码)
2.3.3 验证免密登录
2.4安装hadoop集群(三台机器操作一致,三台机器操作都如下)
2.4.1新建几个目录
mkdir /root/hadoop
mkdir /root/hadoop/tmp
mkdir /root/hadoop/var
mkdir /root/hadoop/dfs
mkdir /root/hadoop/dfs/name
mkdir /root/hadoop/dfs/data
2.4.2修改hadoop配置文件
切换到/u01/micsdev/software/hadoop-2.8.0/etc/Hadoop 目录下,修改以下文件
不存在的文件直接从template中复制改名,如下
2.4.2.1mapred-env.sh修改java_home指向安装路径
2.4.2.2 hadoop-env.sh修改java_home为具体安装路径,并加hadoop_prefix指向其安装路径
2.4.2.3 core-site.xml增加以下配置(Master为主机机器名)
2.4.2.4 yarn-site.xml增加以下配置
2.4.2.5 hdfs-site.xml增加以下配置,表示备份为2
2.4.2.6 mapred-site.xml增加以下配置,默认yarn为资源管理器
2.4.2.7 slaves 中放入二从机器名
2.5 启动hadoop
2.5.1在nameNode执行初始化
因为Master是namenode,Slaver1和Slaver2都是datanode,所以只需要对Master进行初始化操作,也就是对hdfs进行格式化。
进入到Master这台机器的/u01/micsdev/software/hadoop-2.8.0/bin目录,也就是执行命令:cd /u01/micsdev/software/hadoop-2.8.0/bin
初始化命令:./hadoop namenode –format (每次重启需要执行一次)
格式化成功后,可以在看到在/root/hadoop/dfs/name/目录多了一个current目录,而且该目录内有一系列文件
2.5.2在namenode上执行启动命令
进入到Master这台机器的/u01/micsdev/software/hadoop-2.8.0/sbin目录,也就是执行命令:cd /u01/micsdev/software/hadoop-2.8.0/sbin
1.启动命令:
./start-all.sh
- 单独启动
2.6 测试
http://10.33.21.120:50070(Master机ip)
3.安装scala (三台机器操作一致)
3.1配置环境变量
vi /etc/profile
path加入最小红框中内容
3.2 验证scala(有显示版本号则成功)
4.Spark安装配置(三台机器的操作一致)
4.1 环境变量配置
vi /etc/profile
增加红框中内容
4.2 配置conf目录下的文件
进入到/u01/micsdev/software/spark-2.4.3-bin-hadoop2.7/conf目录下,执行命令
cd /u01/micsdev/software/spark-2.4.3-bin-hadoop2.7/conf
4.2.1 新建spark-env.sh文件
cp spark-env.sh.template spark-env.sh
vi spark-env.sh
加入以下内容
4.2.2 新建slaves文件
cp slaves.template slaves
vi slaves
加入红框中内容
4.3启动和测试Spark集群
4.3.1启动spark
因为spark是依赖于hadoop提供的分布式文件系统的,所以在启动spark之前,先确保hadoop在正常运行。
在hadoop正常运行的情况下,在Master(也就是hadoop的namenode,spark的marster节点)上执行命令:
cd /u01/micsdev/software/spark-2.4.3-bin-hadoop2.7/sbin
执行启动脚本:
./start-all.sh
4.3.2测试
输入http://10.33.21.120:8888/(以下表示集群启动成功)
4.3.3 运行Spark提供的计算圆周率的示例程序
第一步,进入到Spark的根目录:cd /u01/micsdev/software/spark-2.4.3-bin-hadoop2.7
第二步,调用Spark自带的计算圆周率的Demo,执行下面的命令:
./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local examples/jars/spark-examples_2.11-2.4.3.jar