Hadoop浅析

Hadoop

  • JobTracker
    • 项目经理,监控TaskTrackers,
    • 分配任务
  • TaskTrackers
    • 执行任务

两种模式

  1. aaa
    1.1 host-only
    • 宿主机与客户机单独组网
    • 网络隔离
    • 虚拟机与其他服务器之间不能通信

1.2 NAT 客户机和宿主机公用同一个网卡
- 在同一个局域网,但不安全
- 在安装和配置NAT模式的时候,需要使用IP地址时,ping一下测试是否有人使用

  1. hadoop的伪分布式安装过程
    2.1 修改网络连接,静态IP
    2.2 修改主机名 hostname hadoop
    /etc/sysconfig/network/ —–>hadoop
    2.3 绑定主机名hostname和网络IP vi /etc/hosts/ 192.168.80.100 hadoop
    2.4 关闭防火墙 service iptables stop/status
    2.5 永久关闭防火墙 chkconfig iptables off
    chkconfig –list | grep iptables
    2.6 安装SSH
    1>ssh-****** -t rsa 产生**,位于~/ssh中
    2>执行命令 cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
    ssh localhost

首先 本地生成一对秘钥文件(公钥和私钥);
ssh-******
然后将公钥传送到远程主机host上面;
$ ssh-copy-id [email protected]
最后通过 ssh [email protected] 访问

安装jdk
Hadoop浅析
配置
Hadoop浅析

其他方式:
http://www.centoscn.com/image-text/install/2015/1221/6548.html

使用scp方式传递文件

scp Downloads/jdk-8u131-linux-x64.rpm [email protected]:/home/hadoop/

tar -zxvf hadoop

修改几个Hadoop配置文件
hdfs –format
然后启动start-all.sh
xbin/ 和 bin/的区别
jps

http://10.211.55.10:50070/dfshealth.html#tab-startup-progress

开始使用Hadoop

文件上传:(put)
hadoop fs -put /root/hadoop-2.8.0.tar.gz hdfs://10.211.55.10:9000/haha

Hadoop浅析

job.setJarByClass(当前类。class)

Partitioner 用来分区数据,个数和Reducer一样

Comparator 用来定义数据到达的时间

implements writable接口。(write([序列化],readFields[反序列化])