运行配置单元查询，并收集作业信息

我想运行一个生成的HIVE查询列表。对于每个，我想检索 MR job_id（或 id，在多个阶段的情况下）。然后，使用此job_id，从作业跟踪器收集统计信息（累积CPU，读取字节数...

如何从 bash 或 python 脚本发送 HIVE 查询，并检索job_id？

对于第二部分（收集作业的统计信息），我们使用MRv1 Hadoop集群，所以我没有AppMaster REST API。我即将从作业跟踪器 Web UI 收集数据。有什么更好的主意吗？

您可以通过

运行此命令来获取执行的作业列表，

Hadoop 作业 - 全部列表

然后，对于每个作业 ID，您可以使用以下命令检索统计信息，Hadoop 作业状态作业 ID

要将作业与查询相关联，您可以获取job_name并将其与查询匹配。像这样的东西，如何获取当前正在运行的 hadoop 作业的名称？

希望这有帮助。

相关内容