Spark学习之（一） HDFS 集群环境搭建

HDFS 集群环境搭建

2017年11月4日,星期六

23:21

背景：项目中使用spark进行数据分析，数据保存在HDFS中，因此搭建了HDFS和Spark环境，现在记录环境搭建过程。

环境：公司环境中是使用的真实的机器，我在家里面也搭建了一套相似的环境，不过这套环境是用VMWare虚拟机（VMware-workstation-full-12.5.7.20721）搭建的。

HDFS集群信息

系统	Host Name	IP
ubuntu-16.04	master.hadoop	192.168.187.129
ubuntu-16.04	slave1.hadoop	192.168.187.130
ubuntu-16.04	slave2.hadoop	192.168.187.131
ubuntu-16.04	slave3.hadoop	192.168.187.132

jdk-8u144-linux-x64

hadoop-2.7.4

安装步骤

一下载VMWare和Ubuntu镜像并且安装

参考如下链接下载

https://my.vmware.com/cn/web/vmware/downloads https://www.ubuntu.com/download

安装成功后能进入到Ubuntu系统，如下

Spark学习之（一） HDFS 集群环境搭建

二安装JDK

Oracle官网上下载JDK(jdk-8u144-linux-x64.tar.gz)
解压缩到目录：/usr/java/jdk1.8.0_144
配置环境变量

添加如下环境变量到 /etc/profile文件

export JAVA_HOME=/usr/java/jdk1.8.0_144

export JRE_HOME=/usr/java/jdk1.8.0_144/jre

export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JRE_HOME/lib

export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bi
使环境变量生效

source /etc/profile
验证安装成功

三修改机器名称以及域名解析文件

修改文件 /etc/hostname

分别修改4个node的机器名称为master.hadoop slave1.hadoop slave2.hadoop slave3.hadoop
修改域名解析hosts文件

分别添加如下配置到4个node
测试配置是否生效

确保任何一台机器都可以ping通其他机器

四创建hadoop用户

分别在四个node上创建Hadoop用户

-m自动生成Hadoop目录

Spark学习之（一） HDFS 集群环境搭建

五配置无密码登录

启动一个Hadoop集群，需要在master Node执行启动命令，master Node需要无密码登录到salve Node并且启动各个slave Node，这个无密码是通过SSH（Secure Shell）实现的。

无密码登录原理：

Master（NameNode | JobTracker）作为客户端，要实现无密码公钥认证，连接到服务器Salve（DataNode | Tasktracker）上时，需要在Master上生成一个**对，包括一个公钥和一个私钥，而后将公钥复制到所有的Slave上。当Master通过SSH连接Salve时，Salve就会生成一个随机数并用Master的公钥对随机数进行加密，并发送给Master。Master收到加密数之后再用私钥解密，并将解密数回传给Slave，Slave确认解密数无误之后就允许Master进行连接了。这就是一个公钥认证过程，其间不需要用户手工输入密码。

如果Ubuntu上没有安装SSH，需要安装
配置master.hadoop无密码登录到其他所有slave节点

使用hadoop用户执行如下命令会在默认/home/hadoop/.ssh文件夹下生成秘钥对。

ssh-****** –t rsa –P ''

之后执行如下命令使rsa添加到授权key文件里面，用于授权登录

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

授权文件需要是600权限

chmod 600 authorized_key

在然后修改/etc/ssh/sshd_config文件确保如下配置正确
在其他几个slave节点分别执行步骤1 2，然后将master.hadoop的公钥copy到所有的slave节点。其实就是讲id_rsa.pub文件的中内容追加到到slavenode上该文件里面
测试无密码登录设置成功

六安装Hadoop

先在master.hadoop上执行安装操作，之后再在slave机器上安装

下载Hadoop安装包 hadoop-2.7.4.tar.gz 并且解压到/usr文件夹下面

tar -zxvf hadoop-2.7.4.tar.gz

重命名为hadoop ， chown hadoop 文件夹给Hadoop用户

chown –R hadoop:hadoop hadoop
添加环境变量到/etc/profile

# set hadoop env

export HADOOP_HOME=/usr/hadoop

export PATH=$PATH:$HADOOP_HOME/bin

export PATH=$PATH:$HADOOP_HOME/sbin

执行source /etc/profile 使配置生效
配置hadoop配置文件

hadoop-env.sh 添加Java环境变量





core-site.xml

修改Hadoop核心配置文件core-site.xml，这里配置的是HDFS master（即namenode）的地址和端口号。

<configuration>

    <property>

        <name>hadoop.tmp.dir</name>

        <value>/usr/hadoop/tmp</value>

        （需要先在 /usr/hadoop 目录下建立 tmp 文件夹）

        <description>A base for other temporary directories.</description>

    </property>



    <property>

        <name>fs.default.name</name>

        <value>hdfs://master.hadoop:9000</value>

    </property>

</configuration>

如没有配置hadoop.tmp.dir参数，此时系统默认的临时目录为：/tmp/hadoop-hadoop。而这个目录在每次重启后都会被删掉，必须重新执行format才行，否则会出错。