【Ubuntu】Linux下Hadoop伪分布式的配置

hadoop伪分布式的配置:
    1.找到tar包所在位置,解压hadoop文件:
        cd /simple/soft
        tar -zxvf hadoop-2.4.1.tar.gz -C /simple
        创建超链接:ln -s hadoop-2.4.1/ hadoop(建立指向hadoop-2.4.1的超链接hadoop,创建之后可以使用ll查看)
【Ubuntu】Linux下Hadoop伪分布式的配置
    2.先进入到hadoop的安装目录下的etc下的hadoop文件夹下:cd /simple/hadoop/etc/hadoop/
        (1)配置JDK:
            vi hadoop-env.sh,按i键进入编辑状态,在文件中修改:export JAVA_HOME=jdk安装目录,保存后退出
【Ubuntu】Linux下Hadoop伪分布式的配置
        (2)把hadoop的安装目录配置到环境变量中:vi /etc/profile
            加入:HADOOP_HOME=hadoop安装目录
                     export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin$PATH(bin里是hadoop的系统操作文件,sbin里是hadoop的一些启动命令)
【Ubuntu】Linux下Hadoop伪分布式的配置
                    让配置文件生效:source /etc/profile
                    hadoop version查看版本号,如果不配置jdk就会出现java_home is not set错误 
【Ubuntu】Linux下Hadoop伪分布式的配置
        (3)hadoop的配置文件修改:
            ①vi core-site.xml:主要配置hdfs系统namenode信息
                <!--指定hdfs系统的位置-->
                <property>
                <name>fs.default.name</name>
                <value>hdfs://192.168.1.2:9000</value>
                </property>
                <!--指定hadoop的临时存储目录,一般配置在安装目录下+tmp,tmp下存储namenode、datanode信息-->
                <property>
                <name>hadoop.tmp.dir</name>
                <value>/simple/hadoop-2.4.1/tmp</value>
                </property>
【Ubuntu】Linux下Hadoop伪分布式的配置
                ②vi hdfs-site.xml:配置hdfs系统的存储信息、
                <!--指定HDFS副本的数量,完全分布式最少两个副本-->
                <property>
                <name>dfs.replication</name>
                <value>1</value>
                </property>
【Ubuntu】Linux下Hadoop伪分布式的配置
        ③目录中默认情况下没有mapred-site.xml,通过cp mapred-site.xml.templa mapred-site.xml复制后,编辑vi mapred-site.xml(MapReduce的相关配置)
                <!--指定由yarn分配MapReduce计算的资源-->
                <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
                </property>
【Ubuntu】Linux下Hadoop伪分布式的配置
                ④vi yarn-site.xml:主要配置yarn的信息
                <!--指定ResourceManager的启动位置-->
                <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>localhost</value>
                </property>
                <!--指定nodemanager的shuffle过程-->
                <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
                </property>
【Ubuntu】Linux下Hadoop伪分布式的配置
    4.hadoop格式化(加载配置信息,检验配置文件内容,初始化目录结构):
        hdfs namenode -format或hadoop namenode -format
【Ubuntu】Linux下Hadoop伪分布式的配置
    5.hadoop的启动:
        ①启动hdfs系统:start-dfs.sh
          启动计算资源调度:start-yarn.sh
        ②启动所有:start-all.sh
【Ubuntu】Linux下Hadoop伪分布式的配置
            start换成stop就是停止
            要是修改了配置文件需要重新启动的话,停止之后,格式化一下(也别瞎格太多次,没准就又出问题了)
    6.jsp查看五个进程:NodeManager、ResourceManager、DataNode、NameNode、SecondaryNameNode:
        启动之后在任意目录下执行jps命令验证是否正常启动
【Ubuntu】Linux下Hadoop伪分布式的配置
    7.webUI查看:
        在浏览器地址栏输入:http://localhost:50070(HDFS管理界面)
        在浏览器地址栏输入:http://localhost:8088(MR管理界面)
    8.测试:利用mapreduce内置程序包计算pi值
        到hadoop的安装目录下,执行命令: hadoop jar /simple/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar pi 1 2
【Ubuntu】Linux下Hadoop伪分布式的配置
    9.出现错的的话,到hadoop的安装目录下查看log日志