Hadoop集群搭建(以hadoop2.6.4为例)

1.配置服务器

1个主节点:master(192.168.15.128),2个(从)子节点,slaver1(192.168.15.129),slaver2(192.168.15.130)

初始ifcfg-eth0文件内容大致为:

Hadoop集群搭建(以hadoop2.6.4为例)

修改静态IP后大致为:

Hadoop集群搭建(以hadoop2.6.4为例)

重启网络:service  network  restart

 

通过桌面版的linux进行操作

Hadoop集群搭建(以hadoop2.6.4为例)

通过edit找到virtual network editor,找到我们选择的v8 NAT,在下边如果有DHCP打钩则取消,在NAT Settings可以查看网关。接着去右上方的一个电脑标志右键配置网络信息,相当于通过另外一种途径配置IPADDR、GATEWAY等信息。

Hadoop集群搭建(以hadoop2.6.4为例)

Hadoop集群搭建(以hadoop2.6.4为例)

配置主节点名(192.168.15.128)

vi /etc/sysconfig/network

添加内容:

NETWORKING=yes

HOSTNAME=master

简要说明:

配置两台子节点名(192.168.15.129)和(192.168.15.130)

vi /etc/sysconfig/network

添加内容:

NETWORKING=yes

HOSTNAME=slaver1

 

vi /etc/sysconfig/network

添加内容:

NETWORKING=yes

HOSTNAME=slaver2

 

配置hosts

打开主节点的hosts文件,要将文件的前两行注释掉 (注释当前主机的信息)并在文件中添加所有hadoop集群的主机信息。

vi /etc/hosts

192.168.15.128   master

192.168.15.129   slaver1

192.168.15.130   slaver2

保存之后,将主节点的hosts分别拷贝到其他两个子节点

scp /etc/hosts [email protected]:/etc/

scp /etc/hosts [email protected]:/etc/

(下边的生效命令不需要执行也可以,但名字显示不出来,最好重启或者使用命令)

然后分别执行(重启服务器也可以不执行下面的语句): /bin/hostname hostname

例如:master上执行 /bin/hostname master,使之生效。

 

2. 配置ssh无密码访问

生成公钥**对

在每个节点上分别执行:

ssh-****** -t rsa

一直按回车直到生成结束

执行结束之后每个节点上的/root/.ssh/目录下生成了两个文件 id_rsa 和 id_rsa.pub

其中前者为私钥,后者为公钥

在主节点上执行(在.ssh目录里):

cp id_rsa.pub authorized_keys

将子节点的公钥拷贝到主节点并添加进authorized_keys

将两个子节点的公钥拷贝到主节点上,分别在两个子节点上执行:

scp  ~/.ssh/ id_rsa.pub [email protected]:/~/.ssh/id_rsa_slaver1.pub

(~进入到root目录,/~/.ssh可能报错找不到目录,可以写成/root/.ssh)

Scp  ~/.ssh/ id_rsa.pub [email protected]:/~/.ssh/id_rsa_slaver2.pub

然后在主节点上,将拷贝过来的两个公钥合并到authorized_keys文件中去

主节点上执行:

cat id_rsa_slaver1.pub>> authorized_keys

cat id_rsa_slaver2.pub>> authorized_keys

最后测试是否配置成功

在master上分别执行

ssh slaver1

ssh slaver2

能正确跳转到两台子节点的操作界面即可,

输入exit退出

这里的配置方式可以有多种操作步骤,最终目的是每个节点上的/root/.ssh/authorized_keys文件中都包含所有的节点生成的公钥内容。

将主节点的authorized_keys文件分别替换子节点的authorized_keys文件

同样在每个子节点通过相同的方式登录主节点和其他子节点也能无密码正常登录就表示配置成功。

主节点上用scp命令将authorized_keys文件拷贝到子节点的相应位置

scp authorized_keys [email protected]:/root/.ssh/

scp authorized_keys [email protected]:/root/.ssh/

 

3. 安装jdk

卸载jdk

查看系统已经装的jdk:

rpm -qa|grep jdk

卸载jdk:

rpm -e:卸载rpm包

Nodeps:强制卸载

rpm -e  --nodeps java-1.6.0-openjdk-javadoc-1.6.0.0-1.66.1.13.0.el6.x86_64

安装JDK(三台机器都要安装)

安装在同一位置/opt/java/jdk1.7.0_72

下载JDK

解压JDK : tar -zxvf /opt/java/jdk-7u72-linux-x64.gz

配置环境变量, 编辑profile文件:

vi /etc/profile

在profile文件末尾添加以下代码:

export JAVA_HOME=/opt/java/jdk1.7.0_72

export JRE_HOME=$JAVA_HOME/jre

export PATH=$JAVA_HOME/bin:$PATH

export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib

保存后,使刚才编辑的文件生效:

source /etc/profile

测试是否安装成功:java –version

4.安装hadoop

在master主机上安装hadoop

安装位置自定,例如安装在/usr目录下面

下载hadoop包,放在/usr目录下,解压hadoop

tar -zxvf /opt/hadoop/hadoop-2.6.4.tar.gz

在usr下面生成hadoop-2.6.4目录

配置环境变量:

vi /etc/profile

在末尾添加:

export HADOOP_HOME=/usr/ hadoop-2.6.4

export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

保存后使新编辑的profile生效:

source /etc/profile

 

5.配置hadoop

配置hadoop配置文件

需要配置的文件的位置为/hadoop-2.6.4/etc/hadoop,需要修改的有以下几个

hadoop-env.sh

yarn-env.sh

core-site.xml

hdfs-site.xml

mapred-site.xml

yarn-site.xml

slaves

其中

hadoop-env.sh和yarn-env.sh里面都要添加jdk的环境变量:

hadoop-env.sh中

# The java implementation to use.

export JAVA_HOME=/opt/java/jdk1.7.0_72

(红色为新添加的内容,其他的代码是文件中原有的)

# The jsvc implementation to use. Jsvc is required to run secure datanodes

# that bind to privileged ports to provide authentication of data transfer

# protocol.  Jsvc is not required if SASL is configured for authentication of

# data transfer protocol using non-privileged ports.

#export JSVC_HOME=${JSVC_HOME}

yarn-env.sh中

# User for YARN daemons

export HADOOP_YARN_USER=${HADOOP_YARN_USER:-yarn}

# resolve links - $0 may be a softlink

export YARN_CONF_DIR="${YARN_CONF_DIR:-$HADOOP_YARN_HOME/conf}"

# some Java parameters

export JAVA_HOME=/opt/java/jdk1.7.0_72

(红色为新添加的内容,也可以将注释解开,其他的代码是文件中原有的)

core-site.xml中

<configuration>

        <property>

                <name>fs.defaultFS</name>

                <value>hdfs://master:9000</value>

        </property>

        <property>

                <name>io.file.buffer.size</name>

                <value>131072</value>

        </property>

        <property>

                <name>hadoop.tmp.dir</name>

                <value>file:/usr/temp</value>

        </property>

        <property>

                <name>hadoop.proxyuser.root.hosts</name>

                <value>*</value>

        </property>

        <property>

                <name>hadoop.proxyuser.root.groups</name>

                <value>*</value>

        </property>

</configuration>

hdfs-site.xml中

<configuration>

        <property>

                <name>dfs.namenode.secondary.http-address</name>

                <value>master:9001</value>

        </property>

        <property>

                <name>dfs.namenode.name.dir</name>

                <value>file:/usr/dfs/name</value>

        </property>

        <property>

                <name>dfs.datanode.data.dir</name>

                <value>file:/usr/dfs/data</value>

        </property>

        <property>

                <name>dfs.replication</name>

                <value>2</value>

        </property>

访问namenode的hdfs使用50070端口,访问datanode的webhdfs使用50075端口。访问文件、文件夹信息使用namenode的IP和50070端口,访问文件内容或者进行打开、上传、修改、下载等操作使用datanode的IP和50075端口。要想不区分端口,直接使用namenode的IP和端口进行所有的webhdfs操作,就需要在所有的datanode上都设置hefs-site.xml中的dfs.webhdfs.enabled为true。

 

        <property>

                <name>dfs.webhdfs.enabled</name>

                <value>true</value>

        </property>

dfs.permissions = true

如果是 true,则打开前文所述的权限系统。如果是 false,权限检查 就是关闭的,但是其他的行为没有改变。这个配置参数的改变并不改变文件或目录的模式、所有者和组等信息。

 

        <property>

                <name>dfs.permissions</name>

                <value>false</value>

        </property>

dfs.web.ugi = webuser,webgroup

Web服务器使用的用户名。如果将这个参数设置为超级用户的名称,则所有Web客户就可以看到所有的信息。如果将这个参数设置为一个不使用的用户,则Web客户就只能访问到“other”权限可访问的资源了。额外的组可以加在后面,形成一个用逗号分隔的列表。

dfs.permissions.supergroup = supergroup

超级用户的组名。

 

        <property>

                <name>dfs.web.ugi</name>

                <value> supergroup</value>

        </property>

</configuration>

mapred-site.xml中

(如果没有可以复制mapred-site.xml.template命名mapred-site.xml)

<configuration>

        <property>

                <name>mapreduce.framework.name</name>

                <value>yarn</value>

        </property>

Hadoop集群搭建(以hadoop2.6.4为例)

<property>

                <name>mapreduce.jobhistory.address</name>

                <value>master:10020</value>

        </property>

        <property>

                <name>mapreduce.jobhistory.webapp.address</name>

                <value>master:19888</value>

        </property>

</configuration>

yarn-site.xml中

<configuration>

        <property>

                <name>yarn.nodemanager.aux-services</name>

                <value>mapreduce_shuffle</value>

        </property>

        <property>

                <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

                <value>org.apache.hadoop.mapred.ShuffleHandler</value>

        </property>

        <property>

                <name>yarn.resourcemanager.address</name>

                <value>master:8032</value>

        </property>

        <property>

                <name>yarn.resourcemanager.scheduler.address</name>

                <value>master:8030</value>

        </property>

        <property>

                <name>yarn.resourcemanager.resource-tracker.address</name>

                <value>master:8031</value>

        </property>

        <property>

                <name>yarn.resourcemanager.admin.address</name>

                <value>master:8033</value>

        </property>

        <property>

                <name>yarn.resourcemanager.webapp.address</name>

                <value>master:8088</value>

        </property>

</configuration>

slaves中(最好把原有的localhost删除)

master

slaver1

slaver2

拷贝hadoop安装文件到子节点

主节点上执行:

scp -r /usr/hadoop-2.6.4 [email protected]:/usr

scp -r /usr/hadoop-2.6.4 [email protected]:/usr

拷贝profile到子节点

主节点上执行:

scp /etc/profile [email protected]:/etc/

scp /etc/profile [email protected]:/etc/

在两个子节点上分别使新的profile生效:

source /etc/profile

格式化主节点的namenode

主节点上进入hadoop目录

然后执行:

./bin/hadoop namenode –format

新版本用下面的语句不用hadoop命令了

./bin/hdfs namenode –format

提示:successfully formatted表示格式化成功

启动hadoop

主节点上在hadoop目录下执行:

./sbin/start-all.sh

主节点上jps进程有:

NameNode

SecondaryNameNode

ResourceManager

每个子节点上的jps进程有:

DataNode

NodeManager

如果这样表示hadoop集群配置成功