zeppelin on yarn 搭建遇到的问题总结
搭建zeppelin还是非常坎坷的,从最开始git clone源码下来打包,就会等上半天,弹个包下不来之类的报错。。
可以说是很扎心了,,切入正题:
1、spark 2.0及以上的版本,配置yarn的时候,需要的配置:
2、配置interpreter的时候,依赖的添加
如spark 需要添加你的机器hadoop版本:
hive则需要加上hadoop版本和hive-jdbc,hive-service版本:
这边的依赖,可以是添加本地路径,也可以像上面这样 自动下载。
3、interpreter中的localRepo
不难发现,每个interpreter中 都有这么一个位置,去对应目录下查看,可能会找不到。
这个文件夹,只有在执行任务,使用了这个interpreter之后,才会自动创建,里面存了 需要用的各种jar,包括添加的依赖:
4、hive运行很慢
执行一个简单的show databases,就能用将近3分钟的时间。。
这段时间,花了好多时间研究这个问题,,
首先看了hive和zeppelin的日志,发现zeppelin的日志 提交任务->接收结果 并没有什么异常,
hive日志中,add operation get_Columns和get_Schemas之间占用了相当多的时间。。主要就是这边的问题了:
然后去看了hive的add operation的源码,,自然是看不出有什么不对劲的啊 mmp
然后去看zeppelin 调用jdbc interpreter时候的源码,简单的分析一下:
实在是看不出什么眉目来。。
正好自己有一台阿里云的学生机器,,就去搭了 hadoop2.7.3 hive2.1.1 jdk1.8 mysql5.6.39
各种调通之后,在zeppelin上新建了一个interpreter hive2,指向了自己搭的新环境
结果秒出。。。。。
弄了这么久,算是找到问题原因了,也算是没找到原因。。
暂时得出的结论就是:升级hive版本。
如果有哪位大神知道具体原因,麻烦 贴一下解决方案 ,谢谢~