我们如何(通过仪表板(可视化谷歌云平台中的Dataproc作业状态?
除了运行、延迟、阻止等状态外,我们还想检查作业是否正在运行。除此之外,我们还想设置警报(Stackdriver alerting(。
在此页面中,您拥有Stackdriver 中可用的所有度量
https://cloud.google.com/monitoring/api/metrics_gcp#gcp-数据处理
您可以使用cluster/job/submitted_count
、cluster/job/failed_count
和cluster/job/running_count
来创建仪表板和度量
此外,您可以使用cluster/job/completion_time
来警告长时间运行的作业,使用cluster/job/duration
来检查作业是否长时间处于PENDING状态。
cluster/job/completion_time
只有在作业完成后才会被记录。即,如果作业需要7个小时才能完成,则仅在第7个小时注册。
类似地,cluster/job/duration
仅在状态完成后才记录在每个状态中花费的时间。假设一个作业处于挂起状态1小时,只有在第60分钟你才会看到这个指标。
Dataproc有一个悬而未决的问题,即引入更多有助于此活动警报用例的度量标准->https://issuetracker.google.com/issues/211910984