伪分布式安装---MapReduce程序运行到YARN上,编写MapReduce程序---HDFS yarn

在我的虚拟机(Linux)上安装的Hadoop是2.7.3版本的,安装过程可以参考这个网站,也可以下载。

http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/SingleCluster.html#Pseudo-Distributed_Operation

(1)首先先传解压

(2)查看目录结构

需要删除bin/*.cmd sbin/*.cmd share/doc cmd(指的是Windows上执行的命令,者Linux中是不需要的,可以删除)

(3)修改三个模块的环境变量(*.env)

Hadoop-env.sh   yarn-en.sh   mapred-env.sh    配置者三个里面的环境变量(JAVA_HOME)并且添加可执行权限

chmod u+x Hadoop-env.sh  yarn-env.sh   mapred-env.sh

伪分布式安装---MapReduce程序运行到YARN上,编写MapReduce程序---HDFS yarn

(4)按照模块来进行配置

下面介绍四个模块的配置以及运行过程

Common模块:

需配置该模块下的core.site.xml

     这是配置文件的网站:

http://hadoop.apache.org/docs/r2.7.6/hadoop-project-dist/hadoop-common/SingleCluster.html(配置文件)

需配置的内容:

    <!--指定文件系统为HDFS及主节点NameNode运行的机器和端口-->

                  <property>

                     <name>fs.defaultFS</name>

                                 <value>hdfs://bigdata-hpsk01.huadian.com:8020</value>

                  </property>

       <!--指定文件系统的本地临时存储目录,默认是当前系统/tmp,这里需要去执行创建临时目录--/opt/modules/hadoop-2.7.3/data/tmpData >

           <property>

            <name>hadoop.tmp.dir</name>    <value>/opt/modules/hadoop-2.7.3/data/tmpData</value>

           </property>

伪分布式安装---MapReduce程序运行到YARN上,编写MapReduce程序---HDFS yarn

    HDFS: 需配置该模块下的hdfs-site.xml(需配置的内容如下)

       <!--由于是伪分布式部署,仅有一台机器

       所有block副本数没有必要设置为3,设置为1即可-->

       <property>

           <name>dfs.replication</name>

           <value>1</value>

       </property>

     还需要配置slaves(配置slaves文件,指定datanode运行在那些机器上)

      将原来的localhost修改为Linux的hostname(比如我的:bigdata-hpsk01.huadian.com 这里是自己设置的)如果有多个从节点,那就需要配置多个,原则上是一行一个主机名。

启动HDFS:第一次使用文件系统,需要格式化。

第一次使用文件系统,需要格式化。

操作的步骤

需输入的命令

备注

格式系统

cd /opt/modules/hadoop-2.7.3

       bin/hdfs namenode -format

 

 

 

 

启动

主节点

sbin/hadoop-daemon.sh start namenode

sbin/hadoop-daemon.sh stop namenode

从节点                                            sbin/hadoop-daemon.sh start datanode

sbin/hadoop-daemon.sh stop datanode

 

这个每次都需要手动开启或关掉

验证是否启动成功

方式一:

jps,

ps -ef |grep java

方式二:

通过webUI 界面查看

bigdata-hpsk01.huadian.com:50070

 

通过着两种方式去查看是否启动失败或者成功

测试HDFS

帮助文档

bin/hdfs dfs

 

HDFS文件系统目录和Linux目录结构类似,命令也类似      

下面这些操作都是属于测试HDFS的内容:这些命令需要进入到Hadoop-2.7.3下去执行

创建目录

bin/hdfs dfs -mkdir /datas

在HDFS上创建/datas目录,需要在浏览器上查看

查看目录

bin/hdfs dfs -ls /datas

bin/hdfs dfs -ls /

由于创建的时候目录里面没有内容,所以可以使用下面的这个查看创建是否成功

上传文件

bin/hdfs dfs -put /opt/datas/input.data /datas/

需要现在/opt目录下创建一个datas目录,然后再在datas目录下创建一个文件input.data,这个是需要上传的文件

查看文件内容

bin/hdfs dfs -text /datas/input.data     

bin/hdfs dfs -cat  /datas/input.data

 

下载文件

bin/hdfs dfs -get /datas/input.data ./

下载到当前目录

删除文件

bin/hdfs dfs -rm -r /datas/input.data

这里可以是-r –f,不能是-rf

格式化

 伪分布式安装---MapReduce程序运行到YARN上,编写MapReduce程序---HDFS yarn

出现的状态

伪分布式安装---MapReduce程序运行到YARN上,编写MapReduce程序---HDFS yarn

启动主从节点

伪分布式安装---MapReduce程序运行到YARN上,编写MapReduce程序---HDFS yarn

HDFS帮助文档

伪分布式安装---MapReduce程序运行到YARN上,编写MapReduce程序---HDFS yarn

上传文件

伪分布式安装---MapReduce程序运行到YARN上,编写MapReduce程序---HDFS yarn

查看文件内容

伪分布式安装---MapReduce程序运行到YARN上,编写MapReduce程序---HDFS yarn
删除文件
伪分布式安装---MapReduce程序运行到YARN上,编写MapReduce程序---HDFS yarn

配置YARN:

对于分布式资源管理和任务调度来说,哪些程序可以运行在YARN之上

运行在yarn上的程序

执行的任务

备注

MapReduce

并行数据处理框架

 

spark

基于内存分布式处理框架

实时数据处理

storm/flink

实时流式处理框架

 

TeZ

分析数据,比

MapReduce速度快

 

Yarn的主从节点:

主节点:resourceManager

从节点:nodeManager

 

 

 

 

 

 

需要修改的配置

 

 

 

 

 

 

 

yarn-site.xml

修改的内容:

<!--resourceManager服务运行的主机名称-->

<property>

<name>yarn.resourcemanager.hostname</name>

<value>bigdata-hpsk01.huadian.com</value>

</property>

<!--告知yarn ,mapreduce程序将在你这里运行-->

<property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

slaves文件:前面已经修改了,如果有多个也可以修改

启动

yarn

 

主节点:resourceManager

sbin/yarn-daemon.sh start resourcemanager

从节点:nodeManager

sbin/yarn-daemon.sh start nodemanager

验证

 

方式一:jps  === ps -ef |grep java

方式二:bigdata-hpsk01.huadian.com:8088(UI界面)

启动yarn进程(主从节点

伪分布式安装---MapReduce程序运行到YARN上,编写MapReduce程序---HDFS yarn

下一篇将继续详细介绍剩余两个模块的配置以及运行的过程。