Dataproc VM内存和本地磁盘使用指标



我正在尝试使用云度量来监控Dataproc 2.0上的本地磁盘使用率(百分比(。这对于监视Spark临时文件填满磁盘的情况非常有用。

默认情况下,Dataproc似乎只发送本地磁盘性能指标、CPU等指标和集群级HDFS指标,而不发送本地磁盘使用情况。

Dataproc映像上似乎安装了一个stackdriver代理,但它没有运行,因此显然Dataproc使用了不同的方法来收集度量。我检查了在/etc/stackdriver/collectd.conf中是否启用了df插件。但是,启动代理失败:

Jul 16 03:01:57 metrics-test-m systemd[1]: Starting LSB: start and stop Stackdriver Agent...
Jul 16 03:01:57 metrics-test-m stackdriver-agent[3829]: Starting Stackdriver metrics collection agent: stackdriver-agentThe instance has neither the application default credentials file nor the correct monitoring scopes; Exiting. ... failed!
Jul 16 03:01:57 metrics-test-m stackdriver-agent[3829]: not starting, configuration/credentials error. ... failed!
Jul 16 03:01:57 metrics-test-m stackdriver-agent[3829]:  (warning).
Jul 16 03:01:57 metrics-test-m systemd[1]: Started LSB: start and stop Stackdriver Agent.

是否有可能以某种方式监控Dataproc中的本地磁盘使用情况,并将指标推送到Google Cloud metrics?

谷歌云监控代理安装在Dataproc集群虚拟机上,但默认情况下已禁用。

您可以在创建集群时通过添加--properties dataproc:dataproc.monitoring.stackdriver.enable=true来启用它。代理收集来宾操作系统指标,包括内存和磁盘使用情况,因此您可以在Cloud metrics中查看这些指标。请参阅此文档中的属性。

顺便说一句,CPU使用情况由GCE在没有代理的情况下从VM主机收集。但对于内存和本地磁盘的使用,VM主机并不了解它们,它们必须从客户操作系统内部收集,因此这取决于代理。启用代理时,将有两个不同类型的CPU使用率指标,一个(计算(来自VM主机角度,另一个(代理(来自来宾操作系统角度。

定价:这些指标不是免费的,请查看云监控定价以了解定价。

最新更新