HDFS 的概念以及为分布式的安装

修改主机名：vi /etc/sysconfig/network

修改映射:vi /etc/hosts

hadoop:

Hadoop的特点：

hadoop 是一个开源的灵活的可扩展的可分布式存储和就计算的平台

hadoop 允许使用简单模型出来集群上的海量数据集

Hadoop集群可以从单个节点扩展到上千的节点

Hadoop的集群容错不依赖与硬件而是依赖本身平台设计和应用软件层来容错

Hadoop的思想：来源于谷歌的三篇论文（gfs ma-preduce bigtable）还没有开源

Hadoop的历史：06 年发行的第一个版本

Hadoop的版本演变：cdh (cloudra发行的) hdp（hot works） apache （阿帕奇）

三个版本：

apache 0.X

apache 1.X

apache 2.X

apache 3.X

主讲Hadoop2.X

hadoop的安装目录：

./bin ---------存储Hadoop的操作命令文件

./sbin-----------存储Hadoop的启动停止等服务命令

./etc---------hadoop的集群配置文件

./share-----------源码或者测试jar包和学习文档

./lib-------依赖库和扩展（.so）

Hadoop的安装模式：

local model （也叫standalon）：单机版利于测试

pesudo model : 为分布式

distribution model ：全分布式

单机版的安装：

解压配置环境变量

Hadoop三个核心：

HDFS ：对数据进行存储

mapReduce ：分布式离线并行计算框架（基于yarn的并行处理海量数据集）

Yarn : 任务调度与资源管理

HBase: 非结构化的数据存储到 HBase

HDFS：Hadoop DIstributed File System

1易于扩展的分布式文件系统

2运行在大量廉价机器上提供容错机制

3为大量用户提供性能不错的文件存储服务

HDFS设计目标：

1 自动快速检测应对硬件错误

2 流式访问数据

3 移动计算比移动数据本身更划算

4 简单一致性模型（主要提供读一次写多次读）

5 异构平台可移植（Windows Linux 都可以部署 Linux的各个版本都可以）

HDFS的特点：

优点：有高容错功能高可靠高扩展高效性

个服务：

1 namenode（名字节点 --老大） matedata （元数据 -----描述数据的数据）

2 secondarynamenode （秘书--帮助namenode ）

3 datanode （数据块数据的存和取）

HDFS 的架构图

========伪分布式的安装======

1 解压配置

2 配置配置文件：

vi ./etc/hadooop/hadoop-env.sh   告诉Hadoop jdk的位置

vi ./etc/hadoop/core-site.xml namenode 起在哪个服务器上面指定HDFS的命名空间

vi ./etc/hadoop/hdfs-site.xml 添加如下：

<property>

        <name>dfs.replication</name>   指定副本参数

        <value>1</value>

    </property>

    <property>

        <name>dfs.namenode.name.dir</name> 指定namedode 的元数据存储目录

        <value>/home/hadoopdata/dfs/name</value>

     </property>

    <property>

        <name>dfs.datanode.data.dir</name>   指定datanode 的数据存储目录：

        <value>/home/hadoopdata/dfs/data</value>

    </property>

3 格式化HDFS 文件系统

hadoop/hdfs namenode -format

4 启动HDFS 模块的服务

启动命令：./sbin/start-dfs.sh

5测试

1先检测服务是否按照正常启动 ----- 查看Java虚拟机进程：jps

2查看web ui 监控是否正常 ------- 查看50070端口：

3 进行文件读写操作

如下：

1 告诉Hadoop jdk的位置

[[email protected] hadoop-2.7.1]# cd /usr/local/hadoop-2.7.1/

[[email protected] hadoop-2.7.1]# vi ./etc/hadoop/hadoop-env.sh

修改Java_home的地址