HDFS伪分布式集群搭建

一、操作系统环境配置

1. 安装jdk

HDFS伪分布式集群搭建

HDFS伪分布式集群搭建

rpm文件默认安装目录是 /usr

 HDFS伪分布式集群搭建

复制jdk路径配置环境变量

配置环境变量的目录

 HDFS伪分布式集群搭建

环境配置代码

 HDFS伪分布式集群搭建

刷新配置信息

 HDFS伪分布式集群搭建

使用jps检测是否配置成功(使用之前一定要先执行. /etc/profile来刷新配置信息 )

 2. 免秘钥

 HDFS伪分布式集群搭建

执行完上面两条程序后:

 HDFS伪分布式集群搭建

检测**是否设置成功:

 HDFS伪分布式集群搭建

发现现在登录自己的已经不需要输入密码了,说明**设置成功。

二、Hadoop部署

1. 传入Hadoop包到root目录,然后解压

 HDFS伪分布式集群搭建

解压命令:

 HDFS伪分布式集群搭建

一般把软件移动到/opt/software目录(先在/opt目录下创建好software文件夹)

 HDFS伪分布式集群搭建

2. 为了让hadoop执行的时候能找到java的配置目录,所以需要配置

 HDFS伪分布式集群搭建

将上面三个文件下都修改如下:

 HDFS伪分布式集群搭建

3. 配置Hadoop的环境变量

HDFS伪分布式集群搭建 

配置完后记得加载一下

 

 

4. 修改下面两个目录分别为

 HDFS伪分布式集群搭建

 HDFS伪分布式集群搭建

 HDFS伪分布式集群搭建

 

配置说明:运行HDFS需要将一台机器指定为namenode。属性fs.defaultFS描述HDFS文件系统的URI,其中主机是namenode的主机名(我这里用是hadoop01),或者IP地址,端口号是namenode监听RPC的端口。如果没有指定,那么默认端口是8020. 

副本配置一个节点

 HDFS伪分布式集群搭建

 修改datanode

 HDFS伪分布式集群搭建

 HDFS伪分布式集群搭建

修改核心文件 core-site.xml,由于系统默认目录是/tmp文件下,即临时文件,这样下次启动就会自动丢弃,所以自己需要配置一个目录。

HDFS伪分布式集群搭建 

修改hdfs-site.xml,配置secondarynamenode

 HDFS伪分布式集群搭建 

5. 格式化namenode

 HDFS伪分布式集群搭建

格式化完成后会生成如下几个文件:

HDFS伪分布式集群搭建 

说明:

Version文件是一个java属性文件,其中包含正在运行的HDFS的版本信息。

fsimage文件是文件系统元数据的完整的永久性检查点

6. 启动

 HDFS伪分布式集群搭建

启动后dfs目录下多了两个文件夹datanamesecondary

 HDFS伪分布式集群搭建

而current的目录下多了个edits文件

 HDFS伪分布式集群搭建

同时也可以看到三个进程已启动:

 HDFS伪分布式集群搭建 

7. 在浏览器上面验证

hadoop01:50070

 HDFS伪分布式集群搭建

 HDFS伪分布式集群搭建

 HDFS伪分布式集群搭建

 

现在没有任何文件,可以用hdfs命令创建一个文件

 HDFS伪分布式集群搭建

 再刷新浏览器:

 HDFS伪分布式集群搭建

 HDFS伪分布式集群搭建 

可以看到/user/root目录了。不过里面还没有东西。这个时候就可以上传文件了。

 HDFS伪分布式集群搭建

 上传完成:

 HDFS伪分布式集群搭建

点击hadoop这个文件:

 HDFS伪分布式集群搭建

可以看到已经按照block进行了分割

文件大小为175.09M,默认的分割大小为128M,所以分割为两块。

 上面的分割大小是默认的128M,还可以自己定义分割大小。

准备一个小程序:

 HDFS伪分布式集群搭建

生成的这个test文件大小为1.9M

 HDFS伪分布式集群搭建

test.txt文件中存的数据如下:

HDFS伪分布式集群搭建 

即1-100000行数据

自己设置block大小最小可以设置1M

1.6M可以切成两个block,那么如何自定block?

 HDFS伪分布式集群搭建

 刷新浏览器:

 HDFS伪分布式集群搭建

可以看到block size的确是自定义的1M

并且成功地对test.txt文件进行了切割

HDFS伪分布式集群搭建 

以上就是伪分布式的全部流程。