询问适当的集群规格,以便Google Dataproc处理我们的数据



我正在尝试处理Kaggle竞赛的大数据。

要处理的数据量约为 80Gb,它有 20 亿行 x 6 列。

数据被放入谷歌云存储中,并试图用谷歌数据实验室处理这个问题,但由于数据太大,我们遇到了错误消息。

因此,我们尝试将Pyspark与Google Dataproc系统一起使用。

关于这个,我有两个问题:

1(这个选项足够吗?

  • 1 个主节点实例:n1-highmem-4(虚拟处理器:4,内存:26GB(

  • 10 工作节点实例:n1-highmem-4(虚拟处理器:4,内存:26GB(

2( 是否需要 Google Compute Engine 来处理 Google Dataproc 集群系统?如果是这样,在这种情况下哪个合适?

感谢您阅读本文,我将等待您的回答:)

谢谢!

因此,我将尝试解决计算引擎与 Dataproc 的问题,然后转向调整集群大小。

ComputeEngine是Google的IaaS产品,它基本上是一种启动VM的服务。 Google Dataproc使用Google Compute Engine来启动将在集群中充当节点/主节点的虚拟机。此外,Dataproc 已经在节点上安装和配置了几件事,因此您不必照顾它。如果你需要在节点上提供更多的东西,谷歌会维护一组脚本,这些脚本可以用来在集群上安装额外的依赖项。因此,回答您的问题,您需要Google Compute Engine,因为没有它,您将无法启动集群。而且,如果您已经准备好使用 PySpark,Dataproc 是正确的选择。

关于大小,这实际上取决于您正在运行哪种分析以及数据是否均匀分布。如果您有一个热键/分片,其数据大于单个节点的内存,则需要增加节点大小。如果计算是 CPU 密集型的,则添加内核。Google Dataproc 的好处是,您可以在 90 秒内启动一个集群,并大约在同一时间将其拆除。这应该让您有可能进行很多实验!

希望这有帮助!

相关内容

最新更新