Linux下搭建Hadoop伪分布式教程
1、首先在Linux中安装jdk与Hadoop,解压及安装成功后配置环境变量。
vi /etc/profile
打开文件后,将下面这段代码复制进去
#JAVA_HOME
export JAVA_HOME=/opt/module/jdk1.8.0_231
export PATH=$PATH:$JAVA_HOME/bin
#HADOOP_HOME
export HADOOP_HOME=/opt/module/hadoop-2.7.3
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
一段是jdk的环境变量,还有一段是Hadoop的环境变量。
配置好后,可以通过javac与java -version命令去检查jdk的环境变量是否配置成功。
Hadoop可以通过 输入start -d 当使用tab补全的时候 出现 start-dfs.sh即配置成功。
检查防火墙是否关闭:systemctl status firewalld
进入到 /opt/module/hadoop-2.7.3/etc/hadoop目录中,里面有很多配置文件,这里需要配置的文件有五个
(1)core-site.xml
<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://bigdata1:9000</value>
</property>
<!-- 指定Hadoop运行时产生文件的存储目录-->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.7.3/data</value>
</property>
将文件复制进配置文件中的如下位置,bigdata1为主机名称 。
(2)hdfs-site.xml
<!--数据冗余(备份)数-->
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
<!--secondary的NameNode的地址,端口号为50090-->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>bigdata1:50090</value>
</property>
<!-- 关闭权限-->
<property>
<name>dfs.permissions</name>
<value>false</value>
</property>
(3)yarn-site.xml
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname </name>
<value>bigdata1</value>
</property>
<!-- 日志聚集功能 -->
<property>
<name>yarn.log-aggregation-enable </name>
<value>true</value>
</property>
<!-- 日志保留时间 设置7天(秒) -->
<property>
<name>yarn.log-aggregation.retain-seconds </name>
<value>604800</value>
</property>
(4) mapred-site.xml
<!-- 指定MR运行在YARN上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<!-- 历史服务器的地址 -->
<property>
<name>mapreduce.jobhistory.address</name>
<value>bigdata1:10020</value>
</property>
<!-- 历史服务器页面的地址 -->
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>bigdata1:19888</value>
</property>
上面几步完成后需要将jdk的环境变量(export JAVA_HOME=/opt/module/jdk1.8.0_231)
复制出来加入到下面几个文件中,都是直接放在文件的最后一行
hadoop-env.sh
yarn-env.sh
mapred-env.sh
最后一步,打开 slaves 这个文件,将里面的localhost改为你的主机的名称。
之后对所配置的文件进行格式化 hdfs namenode -format
格式化之后进行启动 start-all.sh
此时当他要你输入密码的时候就将你的密码输入进去,
当启动成功之后,在浏览器里面输入你的 主机IP:50070 查看是否可以访问成功
当出现如下页面的时候即已成功,到此伪分布式算是搭建成功。