如何监视、发送 Hadoop 中长时间运行的作业的警报



我有一个要求,我需要监控长时间运行的Hadoop作业(Hive/Map Reduce,spark(,可能是集群中的3小时持续时间。我知道我可以在 UI 中查看所有这些作业,但我需要每小时或 30 分钟监控一次,如果作业运行超过 3 小时,则发送电子邮件/警报。有没有办法做到这一点。 我的环境是 HDP 2.6

提前感谢....

你可以看看Oozie。Oozie 允许您在作业超过其预期运行时时配置警报。

为了使用此功能,您必须将作业作为Oozie工作流程提交。

http://oozie.apache.org/docs/4.2.0/DG_Overview.html https://oozie.apache.org/docs/4.3.0/DG_SLAMonitoring.html#SLA_Definition_in_Workflow

正如TK421所提到的 - Oozie是在Hadoop环境中做到这一点的"正确"方法。

但是,如果您不需要所有开销,则像按需看门狗计时器这样简单的东西可能就足够了(即:wdt.io(。 基本上,工作流是发送开始信号,启动作业,并在作业完成时发送结束信号。 如果第二个信号在分配的时间内没有传入,则会发送电子邮件/短信警报。

此方法也适用于非 Hadoop工作流。

相关内容

最新更新