大数据Hadoop伪分布式集群搭建

安装hadoop
-------------------
1.安装jdk
a)下载jdk-8u65-linux-x64.tar.gz
b)tar开
$>su centos ; cd ~
$>mkdir downloads
$>cp /mnt/hdfs/downloads/bigdata/jdk-8u65-linux-x64.tar.gz ~/downlooads
$>tar -xzvf jdk-8u65-linux-x64.tar.gz
c)创建/soft文件夹
$>sudo mkdir /soft
$>sudo chown centos:centos /soft
d)移动tar开的文件到/soft下
$>mv ~/downloads/jdk-1.8.0_65 /soft/
e)创建符号连接
$>ln -s /soft/jdk-1.8.0_65 /soft/jdk
f)验证jdk安装是否成功
$>cd /soft/jdk/bin
$>./java -version


centos配置环境变量
------------------------
1.编辑/etc/profile
$>sudo nano /etc/profile
...
export JAVA_HOME=/soft/jdk
exprot PATH=$PATH:$JAVA_HOME/bin
2.使环境变量即刻生效
$>source /etc/profile

3.进入任意目录下,测试是否ok
$>cd ~
$>java -version


安装hadoop
-------------------------
1.安装hadoop
a)下载hadoop-2.7.3.tar.gz
b)tar开
$>su centos ; cd ~
$>cp /mnt/hdfs/downloads/bigdata/hadoop-2.7.3.tar.gz ~/downloads
$>tar -xzvf hadoop-2.7.3.tar.gz
c)无
d)移动tar开的文件到/soft下
$>mv ~/downloads/hadoop-2.7.3 /soft/
e)创建符号连接
$>ln -s /soft/hadoop-2.7.3 /soft/hadoop
f)验证jdk安装是否成功
$>cd /soft/hadoop/bin
$>./hadoop version

2.配置hadoop环境变量
$>sudo nano /etc/profile
...
export JAVA_HOME=/soft/jdk
exprot PATH=$PATH:$JAVA_HOME/bin


export HADOOP_HOME=/soft/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

3.生效

$>source /etc/profile

 

 

        

        配置hadoop
--------------------
1.standalone(local)
nothing !
不需要启用单独的hadoop进程。

2.Pseudodistributed mode
伪分布模式。
a)进入${HADOOP_HOME}/etc/hadoop目录
b)编辑core-site.xml
<?xml version="1.0"?>
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost/</value>
</property>

</configuration>

大数据Hadoop伪分布式集群搭建

 

c)编辑hdfs-site.xml大数据Hadoop伪分布式集群搭建
<?xml version="1.0"?>
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>

</configuration>

大数据Hadoop伪分布式集群搭建

d)编辑mapred-site.xml
注意:cp mapred-site.xml.template mapred-site.xml
<?xml version="1.0"?>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

</configuration>

大数据Hadoop伪分布式集群搭建

e)编辑yarn-site.xml
<?xml version="1.0"?>
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>localhost</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>

</configuration>

大数据Hadoop伪分布式集群搭建

 

f)配置SSH
1)检查是否安装了ssh相关软件包(openssh-server + openssh-clients + openssh)
$yum list installed | grep ssh


2)检查是否启动了sshd进程
$>ps -Af | grep sshd

3)在client侧生成公私秘钥对。

$>ssh-****** -t rsa -P '' -f ~/.ssh/id_rsa     

 

其中' '是免密码 -f指的是你要把生成的东西放在那个文件夹下面


4)生成~/.ssh文件夹,里面有id_rsa(私钥) + id_rsa.pub(公钥)


5)追加公钥到~/.ssh/authorized_keys文件中(文件名、位置固定)
$>cd ~/.ssh
$>cat id_rsa.pub >> authorized_keys

6)修改authorized_keys的权限为644.
$>chmod 644 authorized_keys

7)测试

 

$>ssh localhost

 

 

 hadoop 在配置的过程当中是有三种模式的       1.独立模式(standalone|local)  2.pesudo(伪分布模式)3.full distributed(完全分布式)   有的时候我们需要在三种形态下进行切换    配置hadoop,使用符号连接的方式,让三种配置形态共存。

 

在hodoop找配置文件的时候他默认的就是去找etc/hadoop这个文件大数据Hadoop伪分布式集群搭建

 

 

大数据Hadoop伪分布式集群搭建

大数据Hadoop伪分布式集群搭建

 

大数据Hadoop伪分布式集群搭建

看到那句话就表明格式化名称节点成功了

开始启动:大数据Hadoop伪分布式集群搭建

这里能够echo 出java_home 却还是报java_home的错 所以 去 找hadoop-env.sh去在手动修改java_home

大数据Hadoop伪分布式集群搭建

 

然后执行start-all.sh 一般现在都不推荐这个命令了 都是推荐 start-dfs.sh

大数据Hadoop伪分布式集群搭建

到这里 伪分布式已经启动起来了

 

 

大数据Hadoop伪分布式集群搭建

大数据Hadoop伪分布式集群搭建

大数据Hadoop伪分布式集群搭建

我的是9000因为是在配置文件里面fs:defaultFS 时候value 里面指定的是localhost:9000

可以通过网页访问hdfs的文件系统,刚开始什么都没有,是空的

 

大数据Hadoop伪分布式集群搭建

 

大数据Hadoop伪分布式集群搭建

 

大数据Hadoop伪分布式集群搭建

大数据Hadoop伪分布式集群搭建

 

hadoop  fs -ls / 查看hadoop根目录命令

hadoop fs -put a.txt /wc  把a.txt文件上传到hadoop根目录下的wc文件夹下面

hadoop fs -ls -cat /wc/a.txt        支持cat查看hadoop目录wc下的文件的内容

 

大数据Hadoop伪分布式集群搭建

hadoop里面有个jar包,可以统计数据的,在hadoop目录的share文件夹下面,

大数据Hadoop伪分布式集群搭建