您的位置: 首页 > 文章 > Hadoop浅析

Hadoop浅析

分类: 文章 • 2024-11-04 22:51:40

Hadoop

JobTracker
- 项目经理，监控TaskTrackers,
- 分配任务
TaskTrackers
- 执行任务

两种模式

aaa
1.1 host-only
- 宿主机与客户机单独组网
- 网络隔离
- 虚拟机与其他服务器之间不能通信

1.2 NAT 客户机和宿主机公用同一个网卡
- 在同一个局域网，但不安全
- 在安装和配置NAT模式的时候，需要使用IP地址时，ping一下测试是否有人使用

hadoop的伪分布式安装过程
2.1 修改网络连接，静态IP
2.2 修改主机名 hostname hadoop
/etc/sysconfig/network/ —–>hadoop
2.3 绑定主机名hostname和网络IP vi /etc/hosts/ 192.168.80.100 hadoop
2.4 关闭防火墙 service iptables stop/status
2.5 永久关闭防火墙 chkconfig iptables off
chkconfig –list | grep iptables
2.6 安装SSH
1>ssh-****** -t rsa 产生**，位于~/ssh中
2>执行命令 cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
ssh localhost

首先本地生成一对秘钥文件(公钥和私钥);
ssh-******
然后将公钥传送到远程主机host上面;
$ ssh-copy-id [email protected]，
最后通过 ssh [email protected] 访问

安装jdk
Hadoop浅析
配置

其他方式：
http://www.centoscn.com/image-text/install/2015/1221/6548.html

使用scp方式传递文件

scp Downloads/jdk-8u131-linux-x64.rpm [email protected]:/home/hadoop/

tar -zxvf hadoop

修改几个Hadoop配置文件
hdfs –format
然后启动start-all.sh
xbin/ 和 bin/的区别
jps

http://10.211.55.10:50070/dfshealth.html#tab-startup-progress

开始使用Hadoop

文件上传：（put）
hadoop fs -put /root/hadoop-2.8.0.tar.gz hdfs://10.211.55.10:9000/haha

Hadoop浅析

job.setJarByClass(当前类。class)

Partitioner 用来分区数据，个数和Reducer一样

Comparator 用来定义数据到达的时间

implements writable接口。（write([序列化]，readFields[反序列化]）