基于Hadoop2.6.0的Mahout0.12.1的配置与使用
一. Mahout的安装
1.下载
在http://mirror.bit.edu.cn/apache/mahout/0.12.1/下载地址中下载apache-mahout-distribution-0.12.1.tar.gz
2.解压
tar -C /opt/Mahout -zxvf mahout-distribution-0.12.1.tar.gz
(我将压缩包解压到了/opt/Mahout目录下,用户可以根据自己的需要选择合适的解压目录)
3、环境变量在/etc/profile中配置环境变量。
执行mahout命令,若出现一些算法,说明安装成功。
二.Mahout的使用
1、下载测试数据
从http://archive.ics.uci.edu/ml/databases/synthetic_control/中下载synthetic_control.data的数据。
2、上传测试数据
将下载下来的数据上传到/user/root/testdata这个目录下。(我将下载下来的数据改名为kmeans.txt,并暂存在/home/panky这个目录下)
3、使用Mahout中的kmeans聚类算法
执行如下命令
4、若出现以下结果,说明运行成功
三.错误
问题:
Error: org.apache.mahout.math.CardinalityException: Required cardinality 10 but got 30
解决:
如果出现以上问题,说明数据源被损坏或者不完整,重新下载数据并上传即可。