运行配置单元查询,并收集作业信息



我想运行一个生成的HIVE查询列表。对于每个,我想检索 MR job_id(或 id,在多个阶段的情况下)。然后,使用此job_id,从作业跟踪器收集统计信息(累积CPU,读取字节数...

如何从 bash 或 python 脚本发送 HIVE 查询,并检索job_id?

对于第二部分(收集作业的统计信息),我们使用MRv1 Hadoop集群,所以我没有AppMaster REST API。我即将从作业跟踪器 Web UI 收集数据。有什么更好的主意吗?

您可以通过

运行此命令来获取执行的作业列表,

Hadoop 作业 - 全部列表

然后,对于每个作业 ID,您可以使用以下命令检索统计信息,Hadoop 作业状态作业 ID

要将作业与查询相关联,您可以获取job_name并将其与查询匹配。像这样的东西,如何获取当前正在运行的 hadoop 作业的名称?

希望这有帮助。

最新更新