PySpark在Google Cloud Dataproc中太慢了



我将PySpark ML模型部署到Google Cloud Dataproc集群中,它运行了一个多小时,但我的数据大约是800 MB。

在我的 SparkSession 上声明为主节点需要什么吗?我设置了默认选项"本地"。

当您传递local部署模式选项以SparkContext它在单个 VM 上本地执行应用程序时,为了避免这种情况,您不应在SparkContext构造函数中传递任何选项 - 它将使用 Dataproc 的预配置属性,并利用所有群集资源/节点在 YARN 上运行应用程序。

最新更新