zeppelin on yarn 搭建遇到的问题总结

搭建zeppelin还是非常坎坷的，从最开始git clone源码下来打包，就会等上半天，弹个包下不来之类的报错。。

可以说是很扎心了，，切入正题：

1、spark 2.0及以上的版本，配置yarn的时候，需要的配置：

2、配置interpreter的时候，依赖的添加

如spark 需要添加你的机器hadoop版本：

zeppelin on yarn 搭建遇到的问题总结

hive则需要加上hadoop版本和hive-jdbc,hive-service版本：

zeppelin on yarn 搭建遇到的问题总结

这边的依赖，可以是添加本地路径，也可以像上面这样自动下载。

3、interpreter中的localRepo

zeppelin on yarn 搭建遇到的问题总结

不难发现，每个interpreter中都有这么一个位置，去对应目录下查看，可能会找不到。

这个文件夹，只有在执行任务，使用了这个interpreter之后，才会自动创建，里面存了需要用的各种jar，包括添加的依赖：

zeppelin on yarn 搭建遇到的问题总结

4、hive运行很慢

执行一个简单的show databases，就能用将近3分钟的时间。。

zeppelin on yarn 搭建遇到的问题总结

这段时间，花了好多时间研究这个问题，，

首先看了hive和zeppelin的日志，发现zeppelin的日志提交任务->接收结果并没有什么异常，

hive日志中，add operation get_Columns和get_Schemas之间占用了相当多的时间。。主要就是这边的问题了：

zeppelin on yarn 搭建遇到的问题总结

然后去看了hive的add operation的源码，，自然是看不出有什么不对劲的啊 mmp

然后去看zeppelin 调用jdbc interpreter时候的源码，简单的分析一下：

zeppelin on yarn 搭建遇到的问题总结

实在是看不出什么眉目来。。

正好自己有一台阿里云的学生机器，，就去搭了 hadoop2.7.3 hive2.1.1 jdk1.8 mysql5.6.39

各种调通之后，在zeppelin上新建了一个interpreter hive2，指向了自己搭的新环境

结果秒出。。。。。

zeppelin on yarn 搭建遇到的问题总结

弄了这么久，算是找到问题原因了，也算是没找到原因。。

暂时得出的结论就是：升级hive版本。

如果有哪位大神知道具体原因，麻烦贴一下解决方案，谢谢~