1.快速了解Hadoop

1.1什么是Hadoop？
   Hadoop是一个提供分布式存储和计算能力的平台，我们简单的将它理解为一个分布式的主从架构，其中包括用于存储的HDFS和用于计算的MapReduce，我们只要知道他主要用于大数据量的分区和大数据集的并行计算。
  那么数据量有多大才算是大数据量呢，简单的说达到PB级，也就是2的50次方个字节，或者在数值上大约等于1000个TB。

Hadoop架构图搭建Hadoop伪分布式集群分享
1.2 Hadoop的核心组件

HDFS 和 MapReduce

HDFS（分布式文件系统）是Hadoop的存储组件，HDFS按照配置的副本数复制文件，他能容忍硬件及软件的错误，且能够自动重新复制坏点上的数据块，这几点特性真的是太实用了，我自己电脑上的垃圾配置也能用分布式系统来存储啦，多个节点备份再也不怕数据丢失啦~
MapReduce是基于批处理的分布式计算框架，也是在Google论文发表后实现的。他可以并行处理大量原始数据，如合并网络日志与OLTP数据库的相关数据。你只需知道这是用于处理大量数据的计算框架，他处理数据速度也非常快。
搭建Hadoop伪分布式集群分享他的工作流程我顺手画了一下，大概是这样子哈哈~~，画的好糙

*

*MapReduce的主要功能展现在map输出和reduce输入之间的shuffle和sort阶段

废话不多说，接下来是搭建集群的精华部分，如果还对Hadoop集群了解有疑问还想更深入了解的话， [推荐看] https://blog.****.net/jiangyu1013/article/details/72644098

2.搭建Hadoop伪分布式集群准备工作

 准备一台虚拟机 一个centos镜像 一个Hadoop安装包 一个jdk安装包

2.1首先需要在虚拟机里面搭建一个master主节点，搭建步骤就不说了，不会的可以点这个链接：https://blog.****.net/code__online/article/details/80178032
2.2打开装好的master节点，安装和配置jdk,配置好网络；
2.3克隆master节点分别为slave1，slave2, slave3,这三个节点为从节点，（从节点的个数
按你的需求设置）配置这三个从节点的网络(直接编辑vi /etc/sysconfig/network-script/ifcfg-ethx)，我用的是centos7的镜像，使配置文件生效的命令是 systemctl restart network
2.4配置4个主从节点的host列表
vi /etc/hosts
ip 主机名

搭建Hadoop伪分布式集群分享
4.无**登陆
在主节点 ssh-****** -t rsa 生成**
cd .ssh
查看生成的公钥 id_rsa.pub和私钥id_rsa
负责公钥 cd ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
更改新文件的权限防止公钥被篡改 chmod 600 ~/.ssh/authorized_keys
将主节点的公钥复制到各个从节点的**.ssh目录**（此时需要输入密码）scp ~/.ssh/authorizes_keys [email protected]主机名:/root/.ssh/
4.2验证·免**登陆成功
在主节点输入ssh 从节点名字若不需输入密码，直接进入，则为成功；

3.开始Hadoop伪分布式集群的正式搭建

3.1Hadoop安装包解压
进入Hadoop安装包路径 tar -xvf ~/hadoop-2.7.3.tar.gz
查看是否解压成功 cd ~/hadoop-2.7.3
若出现这些文件即为解压成功
搭建Hadoop伪分布式集群分享

# 3.2 更改7个配置文件的内容

搭建Hadoop伪分布式集群分享
其中七个配置文件更改方式如下：
!

3.3 配置文件修改后基本就稳了

因为一般我都是配置文件敲错了哈哈哈哈哈，太笨了我搭建Hadoop伪分布式集群分享

使用SCP命令将已经配置完成的Hadoop复制到从节点HadoopSlave上

 [[email protected] hadoop-2.7.3]$ scp -r /root/hadoop-2.7.3 [email protected]:~/
 [[email protected] hadoop-2.7.3]$ scp -r /root/hadoop-2.7.3 [email protected]:~/
 [[email protected] hadoop-2.7.3]$ scp -r /root/hadoop-2.7.3 [email protected]:~/
 每个人Hadoop包安装路径不一样，所以别照着我的命令敲，按你自己安装路径来，我有3个从节点，所以要执行三次，之前设置成功了免密登陆，所以文件会直接传输成功，不用输入密码。

3.4在每一个节点上配置Hadoop启动的系统环境变量

[[email protected]  ~]$ gedit ~/.bash_profile
将下面的代码追加到.bash_profile末尾  gedit 可以换成vi
#HADOOP
export HADOOP_HOME=/root/hadoop-2.7.3
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
一样的，按你自己的路径来！！
接下来是从节点一个一个配！

我之前配置完这个之后就跑去启动Hadoop集群，结果怎么都启动不成功，终于在我刷了3个小时抖音之后我想起来忘记执行命令source ~/.bash_profile让配置生效了哈哈哈哈哈服了

[[email protected]  ~]$ source  ~/.bash_profile
[[email protected]  ~]$ source  ~/.bash_profile    
[[email protected] ~]$ source  ~/.bash_profile   
[[email protected] ~]$ source  ~/.bash_profile   使配置生效

3.5启动Hadoop集群

Everybody现在最后一步让我们嗨起来

搭建Hadoop伪分布式集群分享
此操作只需在master节点上执行：

  第一步：格式化命令 hdfs namenode -format

执行结果如下：
搭建Hadoop伪分布式集群分享

第二步：启动Hadoop 进入Hadoop安装主目录 下的 sbin 文件夹下 执行命令：start-all.sh
执行命令后，提示输入yes/no时，输入yes

搭建Hadoop伪分布式集群分享

 第三步：查看进程是否启动成功 jps命令

如图所示：搭建Hadoop伪分布式集群分享

搭建Hadoop伪分布式集群分享

明日再更！！！！！！！！！！！！！！！！

搭建Hadoop伪分布式集群分享

1.快速了解Hadoop

HDFS 和 MapReduce

2.搭建Hadoop伪分布式集群准备工作

3.开始Hadoop伪分布式集群的正式搭建

# 3.2 更改7个配置文件的内容

3.3 配置文件修改后 基本就稳了

使用SCP命令将已经配置完成的Hadoop复制到从节点HadoopSlave上

3.4在每一个节点上配置Hadoop启动的系统环境变量

3.5启动Hadoop集群

Everybody现在最后一步让我们嗨起来

相关推荐

3.3 配置文件修改后基本就稳了