我们可以用0 -2%的HDFS在Dataproc上创建Hadoop集群吗?



是否可以通过将dfs.datanode.du.reserved设置为总节点大小的95%或100%来在Dataproc上创建没有或非常小的HDFS空间的Hadoop集群?计划是将GCS用于所有持久存储,而本地文件系统将主要用于Spark的shuffle数据。一些Hive查询可能仍然需要在HDFS上刮痧,这解释了为什么需要最小的HDFS。我确实创建了一个10-90分割的集群,并且没有注意到我的测试作业有任何问题。

  1. 如果采用这种方法,Dataproc是否存在稳定性问题?
  2. 还有,是否担心删除数据节点守护进程来自Dataproc的工作节点,从而使用Primary工作节点作为仅计算节点。其基本原理是Dataproc目前不允许可抢占和不可抢占的辅助工作线程的混合。所以我想检查一下我们是否可以将主worker重新定义为仅计算非PVM节点,而其他辅助worker可以仅计算PVM节点。

我正在启动一个GCP项目,我对AZURE和AWS有足够的了解,但做了一个DDD设置。

你所描述的与AWS设置相似,我最近在这里查看:https://jayendrapatil.com/google-cloud-dataproc/

我的印象是你可以在没有HDFS的情况下运行- 0%。关键的一点是,一套工作的性能将会像AWS一样。AZURE -受益于写入和读取短暂的HDFS,因为它比谷歌云存储快。我看不到稳定性问题;如果我真的想,我现在可以使用Spark而不使用HDFS。

关于第二个问题,坚持他们所设计的。为什么要强迫呢?在AWS上,我们使用Spark的伸缩限制。

相关内容

  • 没有找到相关文章

最新更新