询问适当的集群规格，以便Google Dataproc处理我们的数据

我正在尝试处理Kaggle竞赛的大数据。

要处理的数据量约为 80Gb，它有 20 亿行 x 6 列。

数据被放入谷歌云存储中，并试图用谷歌数据实验室处理这个问题，但由于数据太大，我们遇到了错误消息。

因此，我们尝试将Pyspark与Google Dataproc系统一起使用。

关于这个，我有两个问题：

1(这个选项足够吗？

1 个主节点实例：n1-highmem-4(虚拟处理器：4，内存：26GB(
10 工作节点实例：n1-highmem-4(虚拟处理器：4，内存：26GB(

2( 是否需要 Google Compute Engine 来处理 Google Dataproc 集群系统？如果是这样，在这种情况下哪个合适？

感谢您阅读本文，我将等待您的回答:)

谢谢！

因此，我将尝试解决计算引擎与 Dataproc 的问题，然后转向调整集群大小。

ComputeEngine是Google的IaaS产品，它基本上是一种启动VM的服务。 Google Dataproc使用Google Compute Engine来启动将在集群中充当节点/主节点的虚拟机。此外，Dataproc 已经在节点上安装和配置了几件事，因此您不必照顾它。如果你需要在节点上提供更多的东西，谷歌会维护一组脚本，这些脚本可以用来在集群上安装额外的依赖项。因此，回答您的问题，您需要Google Compute Engine，因为没有它，您将无法启动集群。而且，如果您已经准备好使用 PySpark，Dataproc 是正确的选择。

关于大小，这实际上取决于您正在运行哪种分析以及数据是否均匀分布。如果您有一个热键/分片，其数据大于单个节点的内存，则需要增加节点大小。如果计算是 CPU 密集型的，则添加内核。Google Dataproc 的好处是，您可以在 90 秒内启动一个集群，并大约在同一时间将其拆除。这应该让您有可能进行很多实验！

希望这有帮助！

相关内容

最新更新

热门标签：