我是否可以在GCP(谷歌云平台(中为dataproc工作节点的自动扩展设置完全自定义的度量??
我想在GCP中通过dataproc运行Spark分发处理。但问题是,我只想基于完全定制的度量数据横向扩展worker节点。我之所以对此感到好奇,是因为对预期处理的未来数据的预测是可用的。
现在/现在+1/现在+2/现在+3
1GB/2GB/1GB/3GB<===预期数据量(度量(
那么,我可以根据未来预期的数据量预测扩展/扩展吗??提前谢谢。
否,当前Dataproc仅根据YARN内存指标自动缩放集群。
您需要以这样一种方式编写您的Spark作业:当它处理更多数据时,它会请求更多的Spark执行器(因此会请求YARN内存(,这通常意味着当数据大小增加时,您需要对数据进行更多的拆分和分区。