Hadoop集群搭建(以hadoop2.6.4为例)
1.配置服务器
1个主节点:master(192.168.15.128),2个(从)子节点,slaver1(192.168.15.129),slaver2(192.168.15.130)
初始ifcfg-eth0文件内容大致为:
修改静态IP后大致为:
重启网络:service network restart
通过桌面版的linux进行操作
通过edit找到virtual network editor,找到我们选择的v8 NAT,在下边如果有DHCP打钩则取消,在NAT Settings可以查看网关。接着去右上方的一个电脑标志右键配置网络信息,相当于通过另外一种途径配置IPADDR、GATEWAY等信息。
配置主节点名(192.168.15.128)
vi /etc/sysconfig/network
添加内容:
NETWORKING=yes
HOSTNAME=master
简要说明:
配置两台子节点名(192.168.15.129)和(192.168.15.130)
vi /etc/sysconfig/network
添加内容:
NETWORKING=yes
HOSTNAME=slaver1
vi /etc/sysconfig/network
添加内容:
NETWORKING=yes
HOSTNAME=slaver2
配置hosts
打开主节点的hosts文件,要将文件的前两行注释掉 (注释当前主机的信息)并在文件中添加所有hadoop集群的主机信息。
vi /etc/hosts
192.168.15.128 master
192.168.15.129 slaver1
192.168.15.130 slaver2
保存之后,将主节点的hosts分别拷贝到其他两个子节点
scp /etc/hosts [email protected]:/etc/
scp /etc/hosts [email protected]:/etc/
(下边的生效命令不需要执行也可以,但名字显示不出来,最好重启或者使用命令)
然后分别执行(重启服务器也可以不执行下面的语句): /bin/hostname hostname
例如:master上执行 /bin/hostname master,使之生效。
2. 配置ssh无密码访问
生成公钥**对
在每个节点上分别执行:
ssh-****** -t rsa
一直按回车直到生成结束
执行结束之后每个节点上的/root/.ssh/目录下生成了两个文件 id_rsa 和 id_rsa.pub
其中前者为私钥,后者为公钥
在主节点上执行(在.ssh目录里):
cp id_rsa.pub authorized_keys
将子节点的公钥拷贝到主节点并添加进authorized_keys
将两个子节点的公钥拷贝到主节点上,分别在两个子节点上执行:
scp ~/.ssh/ id_rsa.pub [email protected]:/~/.ssh/id_rsa_slaver1.pub
(~进入到root目录,/~/.ssh可能报错找不到目录,可以写成/root/.ssh)
Scp ~/.ssh/ id_rsa.pub [email protected]:/~/.ssh/id_rsa_slaver2.pub
然后在主节点上,将拷贝过来的两个公钥合并到authorized_keys文件中去
主节点上执行:
cat id_rsa_slaver1.pub>> authorized_keys
cat id_rsa_slaver2.pub>> authorized_keys
最后测试是否配置成功
在master上分别执行
ssh slaver1
ssh slaver2
能正确跳转到两台子节点的操作界面即可,
输入exit退出
这里的配置方式可以有多种操作步骤,最终目的是每个节点上的/root/.ssh/authorized_keys文件中都包含所有的节点生成的公钥内容。
将主节点的authorized_keys文件分别替换子节点的authorized_keys文件
同样在每个子节点通过相同的方式登录主节点和其他子节点也能无密码正常登录就表示配置成功。
主节点上用scp命令将authorized_keys文件拷贝到子节点的相应位置
scp authorized_keys [email protected]:/root/.ssh/
scp authorized_keys [email protected]:/root/.ssh/
3. 安装jdk
卸载jdk
查看系统已经装的jdk:
rpm -qa|grep jdk
卸载jdk:
rpm -e:卸载rpm包
Nodeps:强制卸载
rpm -e --nodeps java-1.6.0-openjdk-javadoc-1.6.0.0-1.66.1.13.0.el6.x86_64
安装JDK(三台机器都要安装)
安装在同一位置/opt/java/jdk1.7.0_72
下载JDK
解压JDK : tar -zxvf /opt/java/jdk-7u72-linux-x64.gz
配置环境变量, 编辑profile文件:
vi /etc/profile
在profile文件末尾添加以下代码:
export JAVA_HOME=/opt/java/jdk1.7.0_72
export JRE_HOME=$JAVA_HOME/jre
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib
保存后,使刚才编辑的文件生效:
source /etc/profile
测试是否安装成功:java –version
4.安装hadoop
在master主机上安装hadoop
安装位置自定,例如安装在/usr目录下面
下载hadoop包,放在/usr目录下,解压hadoop
tar -zxvf /opt/hadoop/hadoop-2.6.4.tar.gz
在usr下面生成hadoop-2.6.4目录
配置环境变量:
vi /etc/profile
在末尾添加:
export HADOOP_HOME=/usr/ hadoop-2.6.4
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
保存后使新编辑的profile生效:
source /etc/profile
5.配置hadoop
配置hadoop配置文件
需要配置的文件的位置为/hadoop-2.6.4/etc/hadoop,需要修改的有以下几个
hadoop-env.sh
yarn-env.sh
core-site.xml
hdfs-site.xml
mapred-site.xml
yarn-site.xml
slaves
其中
hadoop-env.sh和yarn-env.sh里面都要添加jdk的环境变量:
hadoop-env.sh中
# The java implementation to use.
export JAVA_HOME=/opt/java/jdk1.7.0_72
(红色为新添加的内容,其他的代码是文件中原有的)
# The jsvc implementation to use. Jsvc is required to run secure datanodes
# that bind to privileged ports to provide authentication of data transfer
# protocol. Jsvc is not required if SASL is configured for authentication of
# data transfer protocol using non-privileged ports.
#export JSVC_HOME=${JSVC_HOME}
yarn-env.sh中
# User for YARN daemons
export HADOOP_YARN_USER=${HADOOP_YARN_USER:-yarn}
# resolve links - $0 may be a softlink
export YARN_CONF_DIR="${YARN_CONF_DIR:-$HADOOP_YARN_HOME/conf}"
# some Java parameters
export JAVA_HOME=/opt/java/jdk1.7.0_72
(红色为新添加的内容,也可以将注释解开,其他的代码是文件中原有的)
core-site.xml中
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property>
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/temp</value>
</property>
<property>
<name>hadoop.proxyuser.root.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.root.groups</name>
<value>*</value>
</property>
</configuration>
hdfs-site.xml中
<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>master:9001</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/dfs/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>2</value>
</property>
访问namenode的hdfs使用50070端口,访问datanode的webhdfs使用50075端口。访问文件、文件夹信息使用namenode的IP和50070端口,访问文件内容或者进行打开、上传、修改、下载等操作使用datanode的IP和50075端口。要想不区分端口,直接使用namenode的IP和端口进行所有的webhdfs操作,就需要在所有的datanode上都设置hefs-site.xml中的dfs.webhdfs.enabled为true。
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
dfs.permissions = true
如果是 true,则打开前文所述的权限系统。如果是 false,权限检查 就是关闭的,但是其他的行为没有改变。这个配置参数的改变并不改变文件或目录的模式、所有者和组等信息。
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
dfs.web.ugi = webuser,webgroup
Web服务器使用的用户名。如果将这个参数设置为超级用户的名称,则所有Web客户就可以看到所有的信息。如果将这个参数设置为一个不使用的用户,则Web客户就只能访问到“other”权限可访问的资源了。额外的组可以加在后面,形成一个用逗号分隔的列表。
dfs.permissions.supergroup = supergroup
超级用户的组名。
<property>
<name>dfs.web.ugi</name>
<value> supergroup</value>
</property>
</configuration>
mapred-site.xml中
(如果没有可以复制mapred-site.xml.template命名mapred-site.xml)
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master:19888</value>
</property>
</configuration>
yarn-site.xml中
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>master:8032</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:8030</value>
</property>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:8031</value>
</property>
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:8033</value>
</property>
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:8088</value>
</property>
</configuration>
slaves中(最好把原有的localhost删除)
master
slaver1
slaver2
拷贝hadoop安装文件到子节点
主节点上执行:
scp -r /usr/hadoop-2.6.4 [email protected]:/usr
scp -r /usr/hadoop-2.6.4 [email protected]:/usr
拷贝profile到子节点
主节点上执行:
scp /etc/profile [email protected]:/etc/
scp /etc/profile [email protected]:/etc/
在两个子节点上分别使新的profile生效:
source /etc/profile
格式化主节点的namenode
主节点上进入hadoop目录
然后执行:
./bin/hadoop namenode –format
新版本用下面的语句不用hadoop命令了
./bin/hdfs namenode –format
提示:successfully formatted表示格式化成功
启动hadoop
主节点上在hadoop目录下执行:
./sbin/start-all.sh
主节点上jps进程有:
NameNode
SecondaryNameNode
ResourceManager
每个子节点上的jps进程有:
DataNode
NodeManager
如果这样表示hadoop集群配置成功