搭建Hadoop伪分布式集群分享

1.快速了解Hadoop

1.1什么是Hadoop?
   Hadoop是一个提供分布式存储和计算能力的平台,我们简单的将它理解为一个分布式的主从架构,其中包括用于存储的HDFS和用于计算的MapReduce,我们只要知道他主要用于大数据量的分区和大数据集的并行计算。
  那么数据量有多大才算是大数据量呢,简单的说达到PB级,也就是2的50次方个字节,或者在数值上大约等于1000个TB。

Hadoop架构图搭建Hadoop伪分布式集群分享
1.2 Hadoop的核心组件

HDFS 和 MapReduce

HDFS(分布式文件系统)是Hadoop的存储组件 ,HDFS按照配置的副本数复制文件,他能容忍硬件及软件的错误,且能够自动重新复制坏点上的数据块,这几点特性真的是太实用了,我自己电脑上的垃圾配置也能用分布式系统来存储啦,多个节点备份再也不怕数据丢失啦~
MapReduce是基于批处理的分布式计算框架,也是在Google论文发表后实现的。他可以并行处理大量原始数据,如合并网络日志与OLTP数据库的相关数据。你只需知道这是用于处理大量数据的计算框架,他处理数据速度也非常快。
搭建Hadoop伪分布式集群分享 他的工作流程我顺手画了一下,大概是这样子哈哈~~,画的好糙
搭建Hadoop伪分布式集群分享
*

*MapReduce的主要功能展现在map输出和reduce输入之间的shuffle和sort阶段

废话不多说,接下来是搭建集群的精华部分,如果还对Hadoop集群了解有疑问还想更深入了解的话, [推荐看] https://blog.****.net/jiangyu1013/article/details/72644098

2.搭建Hadoop伪分布式集群准备工作

 准备一台虚拟机 一个centos镜像 一个Hadoop安装包 一个jdk安装包

2.1首先需要在虚拟机里面搭建一个master主节点,搭建步骤就不说了,不会的可以点这个链接:https://blog.****.net/code__online/article/details/80178032
2.2打开装好的master节点,安装和配置jdk,配置好网络;
2.3克隆master节点分别为slave1,slave2, slave3,这三个节点为从节点,(从节点的个数
按你的需求设置)配置这三个从节点的网络(直接编辑vi /etc/sysconfig/network-script/ifcfg-ethx),我用的是centos7的镜像,使配置文件生效的命令是 systemctl restart network
2.4配置4个主从节点的host列表
vi /etc/hosts
ip 主机名

搭建Hadoop伪分布式集群分享
4.无**登陆
在主节点 ssh-****** -t rsa 生成**
cd .ssh
查看生成的公钥 id_rsa.pub和私钥id_rsa
负责公钥 cd ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
更改新文件的权限防止公钥被篡改 chmod 600 ~/.ssh/authorized_keys
将主节点的公钥复制到各个从节点的**.ssh目录**(此时需要输入密码)scp ~/.ssh/authorizes_keys [email protected]主机名:/root/.ssh/
4.2验证·免**登陆成功
在主节点输入ssh 从节点名字 若不需输入密码,直接进入,则为成功;

3.开始Hadoop伪分布式集群的正式搭建

3.1Hadoop安装包解压
进入Hadoop安装包路径 tar -xvf ~/hadoop-2.7.3.tar.gz
查看是否解压成功 cd ~/hadoop-2.7.3
若出现这些文件即为解压成功
搭建Hadoop伪分布式集群分享

# 3.2 更改7个配置文件的内容

搭建Hadoop伪分布式集群分享
其中七个配置文件更改方式如下:
搭建Hadoop伪分布式集群分享!

3.3 配置文件修改后 基本就稳了

因为一般我都是配置文件敲错了哈哈哈哈哈,太笨了我搭建Hadoop伪分布式集群分享

使用SCP命令将已经配置完成的Hadoop复制到从节点HadoopSlave上

 [[email protected] hadoop-2.7.3]$ scp -r /root/hadoop-2.7.3 [email protected]:~/
 [[email protected] hadoop-2.7.3]$ scp -r /root/hadoop-2.7.3 [email protected]:~/
 [[email protected] hadoop-2.7.3]$ scp -r /root/hadoop-2.7.3 [email protected]:~/
 每个人Hadoop包安装路径不一样,所以别照着我的命令敲,按你自己安装路径来,我有3个从节点,所以要执行三次,之前设置成功了免密登陆,所以文件会直接传输成功,不用输入密码。

3.4在每一个节点上配置Hadoop启动的系统环境变量

[[email protected]  ~]$ gedit ~/.bash_profile
将下面的代码追加到.bash_profile末尾  gedit 可以换成vi
#HADOOP
export HADOOP_HOME=/root/hadoop-2.7.3
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
一样的,按你自己的路径来!!
接下来是从节点一个一个配!

我之前配置完这个之后就跑去启动Hadoop集群,结果怎么都启动不成功,终于在我刷了3个小时抖音之后我想起来 忘记执行命令source ~/.bash_profile让配置生效了 哈哈哈哈哈服了

[[email protected]  ~]$ source  ~/.bash_profile
[[email protected]  ~]$ source  ~/.bash_profile    
[[email protected] ~]$ source  ~/.bash_profile   
[[email protected] ~]$ source  ~/.bash_profile   使配置生效

3.5启动Hadoop集群

Everybody现在最后一步让我们嗨起来

搭建Hadoop伪分布式集群分享
此操作只需在master节点上执行:

  第一步:格式化命令 hdfs namenode -format

执行结果如下:
搭建Hadoop伪分布式集群分享搭建Hadoop伪分布式集群分享

第二步:启动Hadoop 进入Hadoop安装主目录 下的 sbin 文件夹下 执行命令:start-all.sh
执行命令后,提示输入yes/no时,输入yes

搭建Hadoop伪分布式集群分享

 第三步:查看进程是否启动成功 jps命令

如图所示:搭建Hadoop伪分布式集群分享
搭建Hadoop伪分布式集群分享

搭建Hadoop伪分布式集群分享

搭建Hadoop伪分布式集群分享

明日再更!!!!!!!!!!!!!!!!