eclipse连接集群
hadoop的历史
说道hadoop的历史,就要提到Google公布的GFS、MapReduce和BigTable三篇技术论文,它们被称为三驾马车。然后一位叫Doug Cutting的大牛对其做了主要的开源实现。再后来,Apache基金会整合Doug Cutting和一众IT公司的贡献成果,开发并推出了Hadoop生态系统。
关于配置集群客户端
- 首先并不建议在集群内操作,原因如下:
如果每次文件上传都用一个DN作为客户端,就会导致这个节点的磁盘、IO等负载高于其他节点,这样久而久之就会导致这个节点的磁盘和网络性能低于其他节点,因而导致数据的倾斜问题。所以一般建议在集群外操作。 - 配置客户端步骤
- )找一台能够与集群通信的服务器,将配置好的安装包完全拷贝到这台新服务器上;
- )在
/etc/profile
内配置环境变量,方便集群操作 - )在客户端上正常操作集群
eclipse操作HDFS
配置环境
-
在eclipse的安装目录内,找到dropins,在其其中新建目录plugins;将hadoop-eclipse-plugin-2.6.0.jar包拷贝于内。
-
重启eclipse
-
如上图,按照步骤操作,然后在第三处下右键,打开New Hadoop location(如下图)
-
配置连接信息(注意:填写host前,需要配置本地hosts文件,写入IP和服务器主机别名;右边的host和左边的一致)
Java API操作HDFS
- 导入依赖jar包
进入安装包的/share/hadoop目录下,将common、hdfs、tools目录下及其子目录lib下的jar包导入eclipse项目。 - 操作hdfs