【 图解】工作多年,总结下集群安装中遇到的问题!

集群安装中遇到的问题

1.先停(配置文件问题)

【 图解】工作多年,总结下集群安装中遇到的问题!

【 图解】工作多年,总结下集群安装中遇到的问题!

配置文件标签缺失

【 图解】工作多年,总结下集群安装中遇到的问题!

格式化报错:

【 图解】工作多年,总结下集群安装中遇到的问题!

Xml解析报错,后面是目录,44行,第一列错误,你的xml文档结构开始和结束必须要用相同的标签。

【 图解】工作多年,总结下集群安装中遇到的问题!

【 图解】工作多年,总结下集群安装中遇到的问题!

*解决方案:到对应的配置文件中检查错误,并且重新格式化

【 图解】工作多年,总结下集群安装中遇到的问题!

先发到03,再发到02,格式也相同

【 图解】工作多年,总结下集群安装中遇到的问题!

 

2.格式化问题

为什么成功的格式化只能做一次?

格式化的时候实质上是对hdfs的namenode的格式化,做了生成namenode的数据文件目录

【 图解】工作多年,总结下集群安装中遇到的问题!

【 图解】工作多年,总结下集群安装中遇到的问题!

Hadoop下有个name

【 图解】工作多年,总结下集群安装中遇到的问题!

格式化后的目录

【 图解】工作多年,总结下集群安装中遇到的问题!

Current存放着namenode核心数据,在格式化的过程也生成了一个核心文件,集群标志的文件version,生成一些列ID,version就是记录具有集群标识的id

ClusterID 是集群id ,集群的同一标识,同一集群的这个id一定一样

BlocjpoolID:块池id

 

生成data目录,启动集群的时候生成

【 图解】工作多年,总结下集群安装中遇到的问题!

【 图解】工作多年,总结下集群安装中遇到的问题!

【 图解】工作多年,总结下集群安装中遇到的问题!

In_use.lock琐文件,保证一个节点只启动一个data对应的进程

namenode、datanade

在datanode的数据目录下也会生成一个version文件

 

【 图解】工作多年,总结下集群安装中遇到的问题!

【 图解】工作多年,总结下集群安装中遇到的问题!

先停掉,

【 图解】工作多年,总结下集群安装中遇到的问题!

在重新格式化,点击yes就是覆盖掉了

【 图解】工作多年,总结下集群安装中遇到的问题!

重新生成namenedo的数据文件,并重新生成version文件,clusterID文件也重新生成,就会造成datanado的clusterID和namenode和clusterID不一致,最终造成datanedo无法启动

【 图解】工作多年,总结下集群安装中遇到的问题!

2)如果想重新格式化,如何操作

删除namenode和namenode的所有数据文件,所有节点/home/hadoop/data/hadoopdata

在三个节点上分别执行:rm -rf /home/hadoop/data/hadoopdata

hadoop namenode -format

【 图解】工作多年,总结下集群安装中遇到的问题!

报错:不是有效目录

【 图解】工作多年,总结下集群安装中遇到的问题!

 

 

 

3.集群在启动的过程中某一个进程启动失败,或者集群运行一段时间后某一个进程杀掉了(死了)?进程缺失问题

1)  查看进程启动日志

日志文件目录:/home/Hadoop/apps/hadoop/l

日志文件命名:

hadoop-hadoop-datanode-hadoop.log

yarn-hadoop-nodemanager-hadoop.log

规则:模块名称-用户名-进程名-主机名.log

hadoop--->hadoopde hdfs的模块

yarn---->hadoopde yarn的模块

hadoop-hadoop-datanode-hadoop01.log的含有:

hdfs模块datanode进程在hadoop01节点上的启动日志

这个日志哪一个节点的相关进程日志就在本地

查看命令:tail -100日志文件

--  - - - -

【 图解】工作多年,总结下集群安装中遇到的问题!

2)如果日志文件不报错,则证明这个进程是没有问题,但是进程没有启动,原因:通信

①暴力重启,关闭集群,重新集群

statrt-dfs.Sh、 start-yarn.sh

②缺哪一个进程,启动那一个进程

进程单独启动的命令

Hffs的进程:

【 图解】工作多年,总结下集群安装中遇到的问题!

Yarn的进程:

Yarn-daemon.sh start resource

 

单独启动

【 图解】工作多年,总结下集群安装中遇到的问题!

3)如果启动日志报错

【 图解】工作多年,总结下集群安装中遇到的问题!

解决方案:

  • 删除所有namenode和datanode的数据文件 重新格式化
  • 将datanode的clusterID改为namenode的clasterID

 

4)集群的环境变量的配置文件相关的问题

① /etc/profile 系统环境遍 全局的环境变量 所有用户

~/.bashrc 用户环境变量 只对当前用户有作用

~/.bashrc_profile 用户环境变量

 

加载顺序:

/etc/profile--->~/.bashrc->~/.bash_profile

生效:最后加载的最终生效

注意:环境变量修改的哪一个文件 生效哪一个文件

【 图解】工作多年,总结下集群安装中遇到的问题!