HDFS伪分布式集群搭建
一、操作系统环境配置
1. 安装jdk
rpm文件默认安装目录是 /usr
复制jdk路径配置环境变量
配置环境变量的目录
环境配置代码
刷新配置信息
使用jps检测是否配置成功(使用之前一定要先执行. /etc/profile来刷新配置信息 )
2. 免秘钥
执行完上面两条程序后:
检测**是否设置成功:
发现现在登录自己的已经不需要输入密码了,说明**设置成功。
二、Hadoop部署
1. 传入Hadoop包到root目录,然后解压
解压命令:
一般把软件移动到/opt/software目录(先在/opt目录下创建好software文件夹)
2. 为了让hadoop执行的时候能找到java的配置目录,所以需要配置
将上面三个文件下都修改如下:
3. 配置Hadoop的环境变量
配置完后记得加载一下
4. 修改下面两个目录分别为
配置说明:运行HDFS需要将一台机器指定为namenode。属性fs.defaultFS描述HDFS文件系统的URI,其中主机是namenode的主机名(我这里用是hadoop01),或者IP地址,端口号是namenode监听RPC的端口。如果没有指定,那么默认端口是8020.
副本配置一个节点
修改datanode:
修改核心文件 core-site.xml,由于系统默认目录是/tmp文件下,即临时文件,这样下次启动就会自动丢弃,所以自己需要配置一个目录。
修改hdfs-site.xml,配置secondarynamenode:
5. 格式化namenode
格式化完成后会生成如下几个文件:
说明:
Version文件是一个java属性文件,其中包含正在运行的HDFS的版本信息。
fsimage文件是文件系统元数据的完整的永久性检查点
6. 启动
启动后dfs目录下多了两个文件夹data和namesecondary
而current的目录下多了个edits文件
同时也可以看到三个进程已启动:
7. 在浏览器上面验证
hadoop01:50070
现在没有任何文件,可以用hdfs命令创建一个文件
再刷新浏览器:
可以看到/user/root目录了。不过里面还没有东西。这个时候就可以上传文件了。
上传完成:
点击hadoop这个文件:
可以看到已经按照block进行了分割
文件大小为175.09M,默认的分割大小为128M,所以分割为两块。
上面的分割大小是默认的128M,还可以自己定义分割大小。
准备一个小程序:
生成的这个test文件大小为1.9M
test.txt文件中存的数据如下:
即1-100000行数据
自己设置block大小最小可以设置1M
1.6M可以切成两个block,那么如何自定block呢?
刷新浏览器:
可以看到block size的确是自定义的1M
并且成功地对test.txt文件进行了切割
以上就是伪分布式的全部流程。