【Ubuntu】Linux下Hadoop伪分布式的配置

hadoop伪分布式的配置：
    1.找到tar包所在位置，解压hadoop文件：
        cd /simple/soft
        tar -zxvf hadoop-2.4.1.tar.gz -C /simple
        创建超链接：ln -s hadoop-2.4.1/ hadoop（建立指向hadoop-2.4.1的超链接hadoop，创建之后可以使用ll查看）

2.先进入到hadoop的安装目录下的etc下的hadoop文件夹下：cd /simple/hadoop/etc/hadoop/
(1)配置JDK:

vi hadoop-env.sh，按i键进入编辑状态，在文件中修改：export JAVA_HOME=jdk安装目录，保存后退出

        (2)把hadoop的安装目录配置到环境变量中：vi /etc/profile
            加入：HADOOP_HOME=hadoop安装目录
                    export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin$PATH（bin里是hadoop的系统操作文件，sbin里是hadoop的一些启动命令）

让配置文件生效：source /etc/profile
hadoop version查看版本号，如果不配置jdk就会出现java_home is not set错误

(3)hadoop的配置文件修改:
            ①vi core-site.xml：主要配置hdfs系统namenode信息
                
                <property>
                <name>fs.default.name</name>
                <value>hdfs://192.168.1.2:9000</value>
                </property>
                
                <property>
                <name>hadoop.tmp.dir</name>
                <value>/simple/hadoop-2.4.1/tmp</value>
                </property>

②vi hdfs-site.xml：配置hdfs系统的存储信息、
                
                <property>
                <name>dfs.replication</name>
                <value>1</value>
                </property>

③目录中默认情况下没有mapred-site.xml，通过cp mapred-site.xml.templa mapred-site.xml复制后，编辑vi mapred-site.xml（MapReduce的相关配置）
                
                <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
                </property>

④vi yarn-site.xml：主要配置yarn的信息
                
                <property>
            <name>yarn.resourcemanager.hostname</name>
                <value>localhost</value>
                </property>
                
                <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
                </property>

4.hadoop格式化（加载配置信息，检验配置文件内容，初始化目录结构）：
hdfs namenode -format或hadoop namenode -format

    5.hadoop的启动：
        ①启动hdfs系统：start-dfs.sh
          启动计算资源调度：start-yarn.sh
        ②启动所有：start-all.sh

            start换成stop就是停止
          要是修改了配置文件需要重新启动的话，停止之后，格式化一下（也别瞎格太多次，没准就又出问题了）
    6.jsp查看五个进程：NodeManager、ResourceManager、DataNode、NameNode、SecondaryNameNode：
        启动之后在任意目录下执行jps命令验证是否正常启动

    7.webUI查看：
        在浏览器地址栏输入：http://localhost:50070（HDFS管理界面）
        在浏览器地址栏输入：http://localhost:8088（MR管理界面）

8.测试：利用mapreduce内置程序包计算pi值
到hadoop的安装目录下，执行命令： hadoop jar /simple/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar pi 1 2

9．出现错的的话，到hadoop的安装目录下查看log日志

【Ubuntu】Linux下Hadoop伪分布式的配置

相关推荐