如何按顺序运行Hue Hive查询
我已经设置了Cloudera Hue
,并且有一个主节点集群为200 Gib和16个Gib RAM,并且每个150个Gib和8个Gib Ram都有3个数据节点。如何按顺序运行Hue Hive查询
我有大小70 Gib的数据库大约。问题是当我尝试从配置单元编辑器(HUE GUI
)运行Hive查询时。如果我提交5到6个查询(用于执行),则作业已启动,但它们会挂起而不会运行。我如何顺序运行查询。我的意思是即使我可以提交查询,但新查询只应在上一次完成时才开始。有什么方法可以让查询逐个运行吗?
色调提交的所有查询,如果挂了,这意味着你可能打纱配置错误,就像疑难杂症#5 http://blog.cloudera.com/blog/2014/04/apache-hadoop-yarn-avoiding-6-time-consuming-gotchas/
所以纱的整个流程/ MR2是遵循
- 查询从HUE蜂巢查询编辑器提交
- 作业启动和资源管理器上的数据节点
- 这个应用程序的主请求的资源,资源管理器一个(例如2 * 1Gib/1启动应用程序的主核心)
- 资源管理器向应用程序主机提供这些资源(称为nodemanagers,然后运行map和 减少任务)。
所以现在资源分配是由Cloudera的集群,动态资源池(一种队列)的YARN.in情况处理就是作业提交和再资源分配是由纱线这些作业完成的地方。默认情况下,最大并发作业的值以这样的方式设置:资源管理器将所有资源分配给所有作业/应用程序主文件,而不留下任务容器的空间(稍后阶段需要由应用程序主文件运行任务)
因此,如果我们提交大量没有查询的HUE蜂巢编辑器,它们将被提交的同时就业和应用的主人为他们将被分配资源离开任务容器没有空间,因而所有的作业都将被执行处于未决状态。
解决办法是如上述那样由@Romain
没有并行作业的相应地设置max的值的大小和簇的能力。在我的情况下,它的值为4 现在只有4个作业将从池中并发运行,并且它们将由资源管理器分配资源。
您可以一次运行所有查询,并使用';'分隔它们。在HUE。
例如:
Query1; Query2; 查询3
在这种情况下查询1,查询2和查询3将依次运行