笔记:1、Hadoop集群配置中的坑-【slave节点上的datanode启动失败】

有一种原因是没有配置etc/hosts

观察slave节点的 logs/hadoop-root-datanode-hadoop2.log(备注:hadoop2是我的slave主机名)出现如下错误代码:

ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: Initialization failed for Block pool BP-498173510-127.0.0.1-1526867892879 (Datanode Uuid 0c168632-c3dc-4779-a093-b8f88106f65f) service to /192.168.235.101:9000 Datanode denied communication with namenode because hostname cannot be resolved (ip=192.168.235.102, hostname=192.168.235.102): DatanodeRegistration(0.0.0.0:50010, datanodeUuid=0c168632-c3dc-4779-a093-b8f88106f65f, infoPort=50075, infoSecurePort=0, ipcPort=50020, storageInfo=lv=-57;cid=CID-8b2579ab-271e-4cec-82b0-4a9565d40fa1;nsid=1060159166;c=1526867892879)

解决办法:

(1)   在所有节点(包括namenode节点)修改/etc/hosts文件,把所有节点的ip都配个主机名,如下:

笔记:1、Hadoop集群配置中的坑-【slave节点上的datanode启动失败】

(2)如果节点中的core-site.xml、slaves、mapred-site.xml、yarn-site.xml、hdfs-site.xml文件中之前用的是Ip,那么也要把IP换成主机名,不然会报错,提示拒绝连接。

(3)把各节点的tmp目录下的dfs彻底删除,然后再在主节点上格式化namenode  ( 命令:hadoop namenode -format  ),然后再在各节点上启动 hadoop-daemon.sh start datanode

搞定,结果如下

笔记:1、Hadoop集群配置中的坑-【slave节点上的datanode启动失败】