如何按顺序运行色调配置单元查询



我已经设置了Cloudera Hue,并且有一个200吉布和16吉布RAM的主节点集群,以及每个150吉布和8吉布RAM中的3个数据节点。

我有大约70吉布大小的数据库。问题是当我试图从配置单元编辑器(HUE GUI)运行配置单元查询时。如果我提交5到6个查询(用于执行),作业会启动,但它们会挂起,永远不会运行。如何按顺序运行查询。我的意思是,即使我可以提交查询,但新的查询应该只有在前一个查询完成后才开始。有什么方法可以让我一个接一个地运行查询吗?

您可以一次运行所有查询,并使用";"分隔它们在HUE。

例如:

查询1;查询2;Query3

在这种情况下,query1、query2和query3将依次运行

Hue提交所有查询,如果它们挂起,则意味着您可能在YARN中遇到了错误配置,如gotcha#5http://blog.cloudera.com/blog/2014/04/apache-hadoop-yarn-avoiding-6-time-consuming-gotchas/

因此YARN/MR2的整个流程如下所示

  1. 查询是从HUE配置单元查询编辑器提交的
  2. 作业启动,资源管理器在其中一个数据节点上启动应用程序主机
  3. 该应用程序主机向资源管理器请求资源(例如2*1Gib/1 Core)
  4. 资源管理器提供这些资源(称为节点管理器,然后运行映射和减少任务)

所以现在资源分配由YARN.in处理。在cloudera集群的情况下,动态资源池(一种队列)是提交作业的地方,然后由YARN为这些作业进行资源分配。默认情况下,最大并发作业的值是以这样一种方式设置的,即资源管理器将所有资源分配给所有作业/应用程序主机,而不为任务容器留出空间(这是应用程序主机在稍后阶段运行任务所需的)

http://www.cloudera.com/content/cloudera/en/resources/library/recordedwebinar/introduction-to-yarn-and-mapreduce-2-slides.html

因此,如果我们在HUE Hive编辑器中提交大量查询以供执行,它们将同时作为作业提交,并且它们的应用程序主机将被分配资源,不给任务容器留下空间,因此所有作业都将处于挂起状态。

解决方案如@Romain 所述

根据集群的大小和能力设置并发作业的最大数量。在我的情况下,它的值为4现在,只有4个作业将从池中同时运行,并且它们将由资源管理器分配资源。

相关内容

  • 没有找到相关文章

最新更新