大数据学习之路 Hadoop篇(一):超简单的虚拟机搭建Hadoop+Hive+Spark+HBase环境

这么长时间没有写博客,期间也发生了很多事情,我也一不小心从萌萌的开发变成了萌萌的数据。

我在写这篇博客的时候还是数据方面的初学者,一来可以回顾总结自己最近学习的内容,督促自己更快更仔细的学习;二来可以为和我一样的初学者提供方便,不必花很多精力去找一些资源和技巧或者环境的搭建,而是专注于知识的学习。

工欲善其事,必先利其器。要想学好大数据,得先有大数据方面的环境。我看过网上很多搭建的教程,自己一个一个从头搭建简直太复杂太耗时间了,而且一不小心就会前功尽弃,我只想安安静静的写代码就这么难吗?所以我找了一个已经搭建好的虚拟机镜像,直接用就可以啦,非常简单,一步登天。

1.虚拟机镜像下载:

对于初学者来说,要么是初入职场,对公司的集群环境不熟悉,自己也怕误操作删库跑路了;要么还在学校,接触不到大数据的开发环境,想练手却巧妇难为无米之炊,所以学习大数据的第一步是我们需要自己在虚拟机中搭建大数据的环境。

要是自己安装linux后再搭建环境可是相当麻烦的,所以我们要找别人已经配好的虚拟机。功夫不负有心人,找了很多资源之后终于找到了好用且免费的虚拟机镜像。

【镜像下载地址】请点击这里访问百度云盘下载镜像(需要安装百度云盘客户端,文件大小是6GB)

【镜像说明】
此镜像是使用VirtualBox虚拟机软件导出来的,里面包含了Ubuntu系统和全套大数据软件。遇到需要输入密码的地方,密码都是hadoop。
安装的系统和软件如下(所有软件都安装在/usr/local/目录下):
Ubuntu16.04
Hadoop2.7.1
Spark2.1.0
HBase1.1.5
JDK1.8
Scala2.11.8
MySQL
Kafka_2.11-0.10.2.0
Flume1.7.0
sbt
Maven3.3.9
MongoDB3.2.17
Hive2.1.0
Scala IDE(包含Eclipse4.7.0和Maven、Scala、sbt插件)

在此感谢厦门大学数据库实验室 林子雨 老师,点击访问这个镜像的主页

顺便说一句,如果忍受不了百度云的龟速下载,可以搜索一个叫PanDownload的软件,可以下载百度云里的文件,非常好用。

2.安装虚拟机软件(VirtualBox或VMWare)

我用的是VMWare,具体下载安装随便一搜就有,在此不再赘述。

3.加载虚拟机镜像

打开VMWare,文件->打开,选择第一步下载的镜像,然后等待安装就好了。

4.打开虚拟机

安装好之后,直接启动虚拟机,选择hadoop账户,密码hadoop(这个虚拟机里涉及到密码的地方都是hadoop)。

5.启动hadoop

打开终端,进入hadoop安装目录,启动hadoop。具体命令是:

cd /usr/local/hadoop
sbin/start-dfs.sh

然后就会看到以下信息:

大数据学习之路 Hadoop篇(一):超简单的虚拟机搭建Hadoop+Hive+Spark+HBase环境

就说明已经启动成功啦。可以看出,在localhost启动了一个namenode和datanode,在0.0.0.0启动了一个namenode。这是在一个电脑上模拟hadoop集群环境,有这些就足够用啦。

6.简单配置一下

为了使用方便,可以直接用hadoop命令,我们需要配置环境变量。

编辑.bashrc文件。命令是:

vi ~/.bashrc

添加以下几句命令:

在文件开始处添加:
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
#在后面alias命令后添加:
alias start_hadoop='/usr/local/hadoop/sbin/start-dfs.sh'
alias stop_hadoop='/usr/local/hadoop/sbin/stop-dfs.sh'

添加好之后,保存退出,执行下面的语句进行应用。

source ~/.bashrc

然后直接执行hadoop就会出现以下信息:

大数据学习之路 Hadoop篇(一):超简单的虚拟机搭建Hadoop+Hive+Spark+HBase环境

我们可以看一下hdfs文件系统中有什么,执行

hadoop fs -ls /

可以看到有这 hbase tmp user 三个文件夹(gdx 和 table 是我自己建的)。大数据学习之路 Hadoop篇(一):超简单的虚拟机搭建Hadoop+Hive+Spark+HBase环境

上面添加的两个alias命令是为了,直接执行 start_hadoop 或者 stop_hadoop 就可以打开/关闭hadoop,不信输入 stop_hadoop 试一下?

大数据学习之路 Hadoop篇(一):超简单的虚拟机搭建Hadoop+Hive+Spark+HBase环境

至此就大功告成啦|ू・ω・` )