Hadoop浅析
Hadoop
- JobTracker
- 项目经理,监控TaskTrackers,
- 分配任务
- TaskTrackers
- 执行任务
两种模式
- aaa
1.1 host-only- 宿主机与客户机单独组网
- 网络隔离
- 虚拟机与其他服务器之间不能通信
1.2 NAT 客户机和宿主机公用同一个网卡
- 在同一个局域网,但不安全
- 在安装和配置NAT模式的时候,需要使用IP地址时,ping一下测试是否有人使用
- hadoop的伪分布式安装过程
2.1 修改网络连接,静态IP
2.2 修改主机名 hostname hadoop
/etc/sysconfig/network/ —–>hadoop
2.3 绑定主机名hostname和网络IP vi /etc/hosts/ 192.168.80.100 hadoop
2.4 关闭防火墙 service iptables stop/status
2.5 永久关闭防火墙 chkconfig iptables off
chkconfig –list | grep iptables
2.6 安装SSH
1>ssh-****** -t rsa 产生**,位于~/ssh中
2>执行命令 cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
ssh localhost
首先 本地生成一对秘钥文件(公钥和私钥);
ssh-******
然后将公钥传送到远程主机host上面;
$ ssh-copy-id [email protected],
最后通过 ssh [email protected] 访问
安装jdk
配置
其他方式:
http://www.centoscn.com/image-text/install/2015/1221/6548.html
使用scp方式传递文件
scp Downloads/jdk-8u131-linux-x64.rpm [email protected]:/home/hadoop/
tar -zxvf hadoop
修改几个Hadoop配置文件
hdfs –format
然后启动start-all.sh
xbin/ 和 bin/的区别
jps
http://10.211.55.10:50070/dfshealth.html#tab-startup-progress
开始使用Hadoop
文件上传:(put)
hadoop fs -put /root/hadoop-2.8.0.tar.gz hdfs://10.211.55.10:9000/haha
job.setJarByClass(当前类。class)
Partitioner 用来分区数据,个数和Reducer一样
Comparator 用来定义数据到达的时间
implements writable接口。(write([序列化],readFields[反序列化])