如何在自动缩放GCP Dataproc时了解主要工作人员?



我正在浏览自动扩展数据过程集群的文档。文档说自动伸缩需要一个yaml文件,然后再创建一个最小配置的集群,如下所示:

workerConfig:
minInstances: 2
maxInstances: 100
weight: 1
secondaryWorkerConfig:
minInstances: 0
maxInstances: 100
weight: 1
basicAlgorithm:
cooldownPeriod: 2m
yarnConfig:
scaleUpFactor: 0.05
scaleDownFactor: 1.0
scaleUpMinWorkerFraction: 0.0
scaleDownMinWorkerFraction: 0.0
gracefulDecommissionTimeout: 1h

在同一文档的下面一行,我看到了这个:

避免伸缩primary workers: primary workers运行HDFS datanode;而次要工作人员是只使用计算机的工作人员。避免扩展主要工作人员避免遇到这些问题。例如:

workerConfig:
minInstances: 10
maxInstances: 10
secondaryWorkerConfig:
minInstances: 0
maxInstances: 100

我在dataproc上创建了一个集群,它有以下vm实例:

name               role
dev-spark-m      master
dev-spark-w-0    worker
dev-spark-w-1    worker

当文档说,Avoid scaling primary workers时,我应该理解yaml文件中键workerConfig的配置对应于自动缩放主dev-spark-m,我应该避免这样做吗?在这种情况下,我可以简单地保留secondaryWorkerConfig的配置而不配置workerConfig吗?

  1. 没有缩放母版。workerConfig字段总是关于主worker的。
  2. minInstancesmaxInstances字段设置为相同的值相当于"不缩放"。
  3. 您必须始终至少指定workerConfig.maxInstances值,workerConfig.minInstances值默认为2。

相关内容

最新更新