您的位置: 首页 > 文章 > HDFS伪分布式集群搭建

HDFS伪分布式集群搭建

分类: 文章 • 2023-11-13 20:55:40

一、操作系统环境配置

1. 安装jdk

HDFS伪分布式集群搭建

HDFS伪分布式集群搭建

rpm文件默认安装目录是 /usr

HDFS伪分布式集群搭建

复制jdk路径配置环境变量

配置环境变量的目录

HDFS伪分布式集群搭建

环境配置代码

HDFS伪分布式集群搭建

刷新配置信息

HDFS伪分布式集群搭建

使用jps检测是否配置成功（使用之前一定要先执行. /etc/profile来刷新配置信息）

2. 免秘钥

HDFS伪分布式集群搭建

执行完上面两条程序后：

HDFS伪分布式集群搭建

检测**是否设置成功：

HDFS伪分布式集群搭建

发现现在登录自己的已经不需要输入密码了，说明**设置成功。

二、Hadoop部署

1. 传入Hadoop包到root目录，然后解压

HDFS伪分布式集群搭建

解压命令：

HDFS伪分布式集群搭建

一般把软件移动到/opt/software目录(先在/opt目录下创建好software文件夹)

HDFS伪分布式集群搭建

2. 为了让hadoop执行的时候能找到java的配置目录，所以需要配置

HDFS伪分布式集群搭建

将上面三个文件下都修改如下：

HDFS伪分布式集群搭建

3. 配置Hadoop的环境变量

HDFS伪分布式集群搭建

配置完后记得加载一下

4. 修改下面两个目录分别为

HDFS伪分布式集群搭建

HDFS伪分布式集群搭建

HDFS伪分布式集群搭建

配置说明：运行HDFS需要将一台机器指定为namenode。属性fs.defaultFS描述HDFS文件系统的URI，其中主机是namenode的主机名（我这里用是hadoop01），或者IP地址，端口号是namenode监听RPC的端口。如果没有指定，那么默认端口是8020.

副本配置一个节点

HDFS伪分布式集群搭建

修改datanode：

HDFS伪分布式集群搭建

HDFS伪分布式集群搭建

修改核心文件 core-site.xml，由于系统默认目录是/tmp文件下，即临时文件，这样下次启动就会自动丢弃，所以自己需要配置一个目录。

HDFS伪分布式集群搭建

修改hdfs-site.xml,配置secondarynamenode：

HDFS伪分布式集群搭建

5. 格式化namenode

HDFS伪分布式集群搭建

格式化完成后会生成如下几个文件：

HDFS伪分布式集群搭建

说明：

Version文件是一个java属性文件，其中包含正在运行的HDFS的版本信息。

fsimage文件是文件系统元数据的完整的永久性检查点

6. 启动

HDFS伪分布式集群搭建

启动后dfs目录下多了两个文件夹data和namesecondary

HDFS伪分布式集群搭建

而current的目录下多了个edits文件

HDFS伪分布式集群搭建

同时也可以看到三个进程已启动：

HDFS伪分布式集群搭建

7. 在浏览器上面验证

hadoop01:50070

HDFS伪分布式集群搭建

HDFS伪分布式集群搭建

HDFS伪分布式集群搭建

现在没有任何文件，可以用hdfs命令创建一个文件

HDFS伪分布式集群搭建

再刷新浏览器：

HDFS伪分布式集群搭建

HDFS伪分布式集群搭建

可以看到/user/root目录了。不过里面还没有东西。这个时候就可以上传文件了。

HDFS伪分布式集群搭建

上传完成：

HDFS伪分布式集群搭建

点击hadoop这个文件：

HDFS伪分布式集群搭建

可以看到已经按照block进行了分割

文件大小为175.09M，默认的分割大小为128M，所以分割为两块。

上面的分割大小是默认的128M，还可以自己定义分割大小。

准备一个小程序：

HDFS伪分布式集群搭建

生成的这个test文件大小为1.9M

HDFS伪分布式集群搭建

test.txt文件中存的数据如下：

HDFS伪分布式集群搭建

即1-100000行数据

自己设置block大小最小可以设置1M

1.6M可以切成两个block，那么如何自定block呢?

HDFS伪分布式集群搭建

刷新浏览器：

HDFS伪分布式集群搭建

可以看到block size的确是自定义的1M

并且成功地对test.txt文件进行了切割

HDFS伪分布式集群搭建

以上就是伪分布式的全部流程。