一、HDFS

1、NN and SNN

1）NameNode主要功能：接受客户端的读写服务。

2）NameNode保存metadata（元数据，除了文件内容之外的都是元数据）信息包括：

***文件owership和permissions；文件包含哪些块

***Block保存在哪个DataNode（由DataNode启动时上报）

3）NameNode的metadate信息在启动后加载到内存：

***metadata存储到磁盘文件名为“fsimages”（NN主要根据fsimage来进行数据操作，SNN利用其进行合并）

***Block位置信息不会保存到fsimage

***edits记录对metadata的操作日志

4）Fsimage是元数据在磁盘中存储的一份数据的文件名，当我们操作一份数据的时候，并不是马上在fsimage中进行修改，而是由edits来记录操作日志，之后在某个时间让edits与fsimage合并。

SNN

1）它不是NN的备份（但可以做备份），它主要工作是帮助NN合并editslog，减少NN启动时间。

2）ＳＮＮ执行合并时机：根据配置文件设置的时间间隔fs.checkpoint.period默认3600秒；根据配置文件设置edits log大小fs.checkpoint.size规定edit文件的最大值默认64MB。

3）当删除一个文件的时候其实并不是马上删除，而是在edits log中记录，到一定时间与fsimage通过SNN进行合并的时候进行删除。由于涉及大多的IO和消耗CPU，所以在NN中不做数据操作的合并，而是让另一个机器的CPU去计算实现SNN根据时间来不断合并各个NN，这样用户体验感比较好，速度也是比较快。

4）那么通过SNN合并之后的新的FSimage和edits log会被推送到NN中并且替换原来的FSimage和edits log，这样NN 里面隔段时间就是新的数据。

2、热备

热备前：NN SNN

热备：NN（active) NN(standby)

3、底层选举

Zookeeper选举，节点数：2n+1，至少3台

机器：

<= 10，Zookeeper只需3台

10~100，Zookeeper需7台

>100，9/11台

为啥不能太多，因为节点挂掉后，Zookeeper需投票选举，Zookeeper越多，选举耗时越长，也不利于体验

4、HDFS集群的方式

Hadoop高级01-HDFS HA、Yarn HA集群部署

5、HDFS HA架构图

Hadoop高级01-HDFS HA、Yarn HA集群部署

解析点：

1）进程有多个线程

2）ps -ef指的是进程

3）HDFS的ZKFC是进程，YARN的ZKFC是线程

4）如果只有3台机子，ZK-DN各自对应一台，NN,NN2其中2台。

5）命名服务: nameservice1(CDH)

mycluster 配置文件 192.168.0.5 192.168.0.6

hdfs dfs -ls hdfs://mycluster/

6）主要的配置文件

core-site.xml

hdfs-site.xml

yarn-site.xml

slaves

7）每个DN都要向两个NN心跳测试以及block信息汇报

6、YARN HA架构图

Hadoop高级01-HDFS HA、Yarn HA集群部署

1）每个NM只需向Active的RM汇报

7、大数据项目的分工

存储 HDFS HIVE HBase（读写主从分离）

计算 hive sql、MR、Spark

资源调度 Yarn

二、青云

1、青云（https://console.qingcloud.com）

Hadoop高级01-HDFS HA、Yarn HA集群部署

2、青云的介绍

https://ke.qq.com/webcourse/index.html#cid=302442&term_id=100358415&taid=2109194014858602&vid=f14216jpui0

3、创建主机

Hadoop高级01-HDFS HA、Yarn HA集群部署

4、防火墙

Hadoop高级01-HDFS HA、Yarn HA集群部署

5、VPC网络

Hadoop高级01-HDFS HA、Yarn HA集群部署

5、添加端口转发规则

Hadoop高级01-HDFS HA、Yarn HA集群部署

源端口：外网IP端口

内网端口：22，ssh的端口为22

6、防火墙放开22 23 24源端口

Hadoop高级01-HDFS HA、Yarn HA集群部署

搞定： Hadoop高级01-HDFS HA、Yarn HA集群部署

Hadoop高级01-HDFS HA、Yarn HA集群部署

总结：

1、一定要注意VPC网络选择的防火墙策略不要选择错了，会禁掉外网端口。

2、外网端口通过VPC配置管理将外网IP端口以及内网IP和ssh端口做好了映射

3、私有网络与主机由图形化自动做好了内网和主机的映射

VPC网络：

一个 VPC 网络可以连接 254 个子网（Vxnet），且最多可以容纳 60,000 台虚拟主机。通过分布式路由器和虚拟直连技术，QingCloud 的 VPC 网络可以在大规模部署的情况下，保障网络集群的高性能和高可用。VPC 网络也可以实现和公网 Internet 的高效互通，任意一台 VPC 网络管理的主机都可以直接绑定公网 IP；同时，负载均衡器也可以直接连接 VPC 网络内的主机。

三、HA

青云控制1个用户，1个外网IP+3台机器

1、修改主机名

vi /etc/hosts

192.168.111.2 hadoop001

192.168.111.3 hadoop002

192.168.111.4 hadoop003

Hadoop高级01-HDFS HA、Yarn HA集群部署

2、3台机器无密码访问，配置ssh多台机器信任关系：

1）新系统ll -a后没.ssh文件，因此可以直接生产**在三台机器上

ssh-******

2）到第二台、第三台机器，将.ssh文件中的id_rsa.pub发送到haoop001的.ssh文件中，并重命名区别开

scp id_rsa.pub hadoop001:/root/.ssh/id_rsa.pub2

scp id_rsa.pub hadoop001:/root/.ssh/id_rsa.pub3

3）将公钥追加到authorized_keys(授权**）中

cat id_rsa.pub >> authorized_keys

cat id_rsa.pub2 >> authorized_keys

cat id_rsa.pub3 >> authorized_keys

4）将授权**发送到hadoop002、hadoop003的.ssh文件里

scp authorized_keys hadoop002:/root/.ssh/

scp authorized_keys hadoop003:/root/.ssh/

5）初始化.ssh，各个机器确保都输一遍，确保不用输入yes

ssh hadoop001 date

ssh hadoop002 date

ssh hadoop003 date

3、创建/opt/software，并传入hadoop和zookeeper

临时调整青云带宽上限

Hadoop高级01-HDFS HA、Yarn HA集群部署

4、每个机器的分配

根据图：

Hadoop高级01-HDFS HA、Yarn HA集群部署

hadoop001:

ZK1

DN1

JN1

ZKFC

hadoop002:

ZK1

DN1

JN1

ZKFC

hadoop003:

ZK1

DN1

JN1

5、将hadoop001上的软件传到其他机器

scp * hadoop002:/root/opt/software/

6、部署JDK

1）创建/usr/java目录

mkdir -p /usr/java

2）jdk解压到/usr/java下

tar -zxvf jdk-8u45-linux-x64.gz -C /usr/java/

3）配置环境

#env

export JAVA_HOME=/usr/java/jdk1.8.0_45

export PATH=$JAVA_HOME/bin:$PATH

Hadoop高级01-HDFS HA、Yarn HA集群部署

将profile覆盖到hadoop002、hadoop003的/etc/

scp /etc/profile hadoop002:/etc/

scp /etc/profile hadoop003:/etc/

source一下。

7、部署zookeeper

1）解压

2）环境变量

3）修改配置文件cp zoo_sample.cfg zoo.cfg

Hadoop高级01-HDFS HA、Yarn HA集群部署

scp zoo.cfg hadoop002:/opt/software/zookeeper/conf

scp zoo.cfg hadoop003:/opt/software/zookeeper/conf

4）创建存储目录

hadoop001：

mkdir data

touch data/myid

echo 1 >data/myid

hadoop002：

mkdir data

touch data/myid

echo 2 >data/myid

hadoop003：

mkdir data

touch data/myid

echo 3 >data/myid

切记：3后面要保留空格。

5）启动

8、Hadoop部署

1）解压Hadoop

2）重命名为hadoop

3）进入/hadoop/etc/hadoop/，修改hadoop-env.sh文件

Hadoop高级01-HDFS HA、Yarn HA集群部署

4）修改xml文件

Hadoop高级01-HDFS HA、Yarn HA集群部署

slaves：

hadoop001

hadoop002

hadoop003

core-site.xml：

<?xml version="1.0" encoding="UTF-8"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<name>fs.defaultFS</name>

<value>hdfs://mycluster</value>

</property>

<name>fs.trash.checkpoint.interval</name>

</property>

<name>fs.trash.interval</name>

</property>

<name>hadoop.tmp.dir</name>

<value>/opt/software/hadoop/tmp</value>

</property>

<name>ha.zookeeper.quorum</name>

<value>hadoop001:2181,hadoop002:2181,hadoop003:2181</value>

</property>

<name>ha.zookeeper.session-timeout.ms</name>

</property>

<name>hadoop.proxyuser.root.hosts</name>

</property>

<name>hadoop.proxyuser.root.groups</name>

</property>

<name>io.compression.codecs</name>

<value>org.apache.hadoop.io.compress.GzipCodec,

org.apache.hadoop.io.compress.DefaultCodec,

org.apache.hadoop.io.compress.BZip2Codec,

org.apache.hadoop.io.compress.SnappyCodec

</value>

</property>

</configuration>

总结：

<name>hadoop.tmp.dir</name>指定临时目录，可以提前创建

<name>hadoop.proxyuser.root.hosts</name>

<name>hadoop.proxyuser.root.groups</name> root是当前用户，如果不是root用户使用，要改成对应的用户名

hdfs-site.xml：

<?xml version="1.0" encoding="UTF-8"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<name>dfs.permissions.superusergroup</name>

</property>

<name>dfs.webhdfs.enabled</name>

</property>

<name>dfs.namenode.name.dir</name>

<value>/opt/software/hadoop/data/dfs/name</value>

<description> namenode 存放name table(fsimage)本地目录（需要修改）</description>

</property>

<name>dfs.namenode.edits.dir</name>

<value>${dfs.namenode.name.dir}</value>

<description>namenode粗放 transaction file(edits)本地目录（需要修改）</description>

</property>

<name>dfs.datanode.data.dir</name>

<value>/opt/software/hadoop/data/dfs/data</value>

<description>datanode存放block本地目录（需要修改）</description>

</property>

<name>dfs.replication</name>

</property>

<name>dfs.blocksize</name>

</property>

<name>dfs.nameservices</name>

<value>mycluster</value>

</property>

<name>dfs.ha.namenodes.mycluster</name>

</property>

<name>dfs.namenode.rpc-address.mycluster.nn1</name>

<value>hadoop001:8020</value>

</property>

<name>dfs.namenode.rpc-address.mycluster.nn2</name>

<value>hadoop002:8020</value>

</property>

<name>dfs.namenode.http-address.mycluster.nn1</name>

<value>hadoop001:50070</value>

</property>

<name>dfs.namenode.http-address.mycluster.nn2</name>

<value>hadoop002:50070</value>

</property>

<name>dfs.journalnode.http-address</name>

</property>

<name>dfs.journalnode.rpc-address</name>

</property>

<name>dfs.namenode.shared.edits.dir</name>

<value>qjournal://hadoop001:8485;hadoop002:8485;hadoop003:8485/mycluster</value>

</property>

<name>dfs.journalnode.edits.dir</name>

<value>/opt/software/hadoop/data/dfs/jn</value>

</property>

<name>dfs.client.failover.proxy.provider.mycluster</name>

<value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>

</property>

<name>dfs.ha.fencing.methods</name>

<value>sshfence</value>

</property>

<name>dfs.ha.fencing.ssh.private-key-files</name>

</property>

<name>dfs.ha.fencing.ssh.connect-timeout</name>

</property>

<name>dfs.ha.automatic-failover.enabled</name>

</property>

<name>dfs.hosts</name>

<value>/opt/software/hadoop/etc/hadoop/slaves</value>

</property>

</configuration>

mapred-site.xml：

<?xml version="1.0" encoding="UTF-8"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<name>mapreduce.framework.name</name>

</property>

<name>mapreduce.jobhistory.address</name>

<value>hadoop001:10020</value>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

<value>hadoop001:19888</value>

</property>

<name>mapreduce.map.output.compress</name>

</property>

<name>mapreduce.map.output.compress.codec</name>

<value>org.apache.hadoop.io.compress.SnappyCodec</value>

</property>

</configuration>

yarn-site.xml：

<?xml version="1.0" encoding="UTF-8"?>

<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<name>yarn.nodemanager.localizer.address</name>

<description>Address where the localizer IPC is.</description>

</property>

<name>yarn.nodemanager.webapp.address</name>

<description>NM Webapp address.</description>

</property>

<name>yarn.resourcemanager.connect.retry-interval.ms</name>

</property>

<name>yarn.resourcemanager.ha.enabled</name>

</property>

<name>yarn.resourcemanager.ha.automatic-failover.enabled</name>

</property>

<name>yarn.resourcemanager.ha.automatic-failover.embedded</name>

</property>

<name>yarn.resourcemanager.cluster-id</name>

<value>yarn-cluster</value>

</property>

<name>yarn.resourcemanager.ha.rm-ids</name>

</property>

<!--这里RM主备结点需要单独指定,（可选）

<name>yarn.resourcemanager.ha.id</name>

</property>

-->

<name>yarn.resourcemanager.scheduler.class</name>

<value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>

</property>

<name>yarn.resourcemanager.recovery.enabled</name>

</property>

<name>yarn.app.mapreduce.am.scheduler.connection.wait.interval-ms</name>

</property>

<name>yarn.resourcemanager.store.class</name>

<value>org.apache.hadoop.yarn.server.resourcemanager.recovery.ZKRMStateStore</value>

</property>

<name>yarn.resourcemanager.zk-address</name>

<value>hadoop001:2181,hadoop002:2181,hadoop003:2181</value>

</property>

<name>yarn.resourcemanager.zk.state-store.address</name>

<value>hadoop001:2181,hadoop002:2181,hadoop003:2181</value>

</property>

<name>yarn.resourcemanager.address.rm1</name>

<value>hadoop001:23140</value>

</property>

<name>yarn.resourcemanager.address.rm2</name>

<value>hadoop002:23140</value>

</property>

<name>yarn.resourcemanager.scheduler.address.rm1</name>

<value>hadoop001:23130</value>

</property>

<name>yarn.resourcemanager.scheduler.address.rm2</name>

<value>hadoop002:23130</value>

</property>

<name>yarn.resourcemanager.admin.address.rm1</name>

<value>hadoop001:23141</value>

</property>

<name>yarn.resourcemanager.admin.address.rm2</name>

<value>hadoop002:23141</value>

</property>

<name>yarn.resourcemanager.resource-tracker.address.rm1</name>

<value>hadoop001:23125</value>

</property>

<name>yarn.resourcemanager.resource-tracker.address.rm2</name>

<value>hadoop002:23125</value>

</property>

<name>yarn.resourcemanager.webapp.address.rm1</name>

<value>hadoop001:8088</value>

</property>

<name>yarn.resourcemanager.webapp.address.rm2</name>

<value>hadoop002:8088</value>

</property>

<name>yarn.resourcemanager.webapp.https.address.rm1</name>

<value>hadoop001:23189</value>

</property>

<name>yarn.resourcemanager.webapp.https.address.rm2</name>

<value>hadoop002:23189</value>

</property>

<name>yarn.log-aggregation-enable</name>

</property>

<name>yarn.log.server.url</name>

<value>http://hadoop001:19888/jobhistory/logs</value>

</property>

<name>yarn.nodemanager.resource.memory-mb</name>

</property>

<name>yarn.scheduler.minimum-allocation-mb</name>

<discription>单个任务可申请最少内存，默认1024MB</discription>

</property>

<name>yarn.scheduler.maximum-allocation-mb</name>

<discription>单个任务可申请最大内存，默认8192MB</discription>

</property>

<name>yarn.nodemanager.resource.cpu-vcores</name>

</property>

</configuration>

5）创建临时文件夹

mkdir -p ./data && mkdir -p ./logs && mkdir -p ./tmp

6）将./tmp文件手工赋予777的权限

chmod -R 777 ./tmp

四、启动集群

1、启动zookeeper

2、启动hadoop

1）启动JournalNode

在/hadoop/sbin

./hadoop-daemon.sh start journalnode

Hadoop高级01-HDFS HA、Yarn HA集群部署

没启动，查看日志解决

Hadoop高级01-HDFS HA、Yarn HA集群部署

cd /opt/software/hadoop/logs

less hadoop-root-journalnode-i-d5rp6xj0.log

Hadoop高级01-HDFS HA、Yarn HA集群部署

临时改hostname

hostname hadoop001

成功：

Hadoop高级01-HDFS HA、Yarn HA集群部署

2）namenode格式化

hadoop namenode -format

成功

Hadoop高级01-HDFS HA、Yarn HA集群部署

3）将hadoop001的元数据拷贝到hadoop002

scp -r data/ [email protected]:/opt/software/hadoop

Hadoop高级01-HDFS HA、Yarn HA集群部署

3、初始化ZFCK

hdfs zkfc -formatZK

Hadoop高级01-HDFS HA、Yarn HA集群部署

4、启动HDFS分布式存储系统

./start-dfs.sh

5、测试

Hadoop高级01-HDFS HA、Yarn HA集群部署

6、50070端口映射

由于只有一个外网ip，因此需要做端口映射来访问50070

Hadoop高级01-HDFS HA、Yarn HA集群部署

1）创建VPC网络-端口转发规则

Hadoop高级01-HDFS HA、Yarn HA集群部署

2）防火墙开放端口

Hadoop高级01-HDFS HA、Yarn HA集群部署

3）其他主机的网络策略

Hadoop高级01-HDFS HA、Yarn HA集群部署

其他同理：

Hadoop高级01-HDFS HA、Yarn HA集群部署

7、启动Yarn

start-yarn.sh

Hadoop高级01-HDFS HA、Yarn HA集群部署

机器只会在当前机器启动resourcemanager，备机需要手工启动RM

Hadoop高级01-HDFS HA、Yarn HA集群部署

8、Yarn的8088端口映射

Hadoop高级01-HDFS HA、Yarn HA集群部署

http://139.198.189.247:8088

Hadoop高级01-HDFS HA、Yarn HA集群部署

http://139.198.189.247:8089/cluster/cluster

Hadoop高级01-HDFS HA、Yarn HA集群部署

七、集群测试

1、Yarn上wordcountruozedata.log1

/opt/software/hadoop/share/hadoop/mapreduce下

yarn jar /opt/software/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.8.1.jar wordcount /ruozedata/ruozedata.log1 /output1

Hadoop高级01-HDFS HA、Yarn HA集群部署

2、启动jobhistoryServer

./mr-jobhistory-daemon.sh start historyserver

青云上配置好映射后

http://139.198.189.247:19888

Hadoop高级01-HDFS HA、Yarn HA集群部署

可以查所有的job

Hadoop高级01-HDFS HA、Yarn HA集群部署

一、HDFS

1、NN and SNN

2、热备

3、底层选举

4、HDFS集群的方式

5、HDFS HA架构图

6、YARN HA架构图

7、大数据项目的分工

二、青云

1、青云（https://console.qingcloud.com）

2、青云的介绍

3、创建主机

4、防火墙

5、VPC网络

5、添加端口转发规则

6、防火墙放开22 23 24源端口

三、HA

1、修改主机名

3、创建/opt/software，并传入hadoop和zookeeper

4、每个机器的分配

5、将hadoop001上的软件传到其他机器

6、部署JDK

7、部署zookeeper

8、Hadoop部署

slaves：

core-site.xml：

hdfs-site.xml：

mapred-site.xml：

yarn-site.xml：

四、启动集群

1、启动zookeeper

2、启动hadoop

4、启动HDFS分布式存储系统

6、50070端口映射

7、启动Yarn

8、Yarn的8088端口映射

七、集群测试

1、Yarn上wordcountruozedata.log1

2、启动jobhistoryServer

相关推荐